추론 통계
이전까지 기술 통계를 통해 평균, 중앙값 등 데이터를 다양한 방법으로 요약해 봤습니다. 기술 통계를 통하면 데이터를 대푯값으로 요약할 수 있기 때문에 데이터의 특성을 파악하는 데 도움이 됩니다. 그렇다면 현재의 데이터를 통해 미래를 예측하고 싶을 때는 어떻게 할까요?
이럴 때는 추론 통계를 사용합니다. 추론 통계는 현재의 데이터를 가지고 미래를, 일부의 데이터를 가지고 전체를 추론하는 통계 방법입니다.
귀무 가설과 대립 가설
실험 결과나 데이터 분석에서 특정 가설들을 검정하는 과정에서 사용되는 개념입니다.
귀무란, 돌아올 귀(歸)에 없을 무(無) 자를 써서, 없는 것으로 되돌리다의 의미를 갖습니다. 즉, 귀무 가설이란 현재에는 정설로 받아들여지고 있지만 새로이 주장된 대립 가설에 의해 무(無)로 돌아가는(歸) 가설입니다. 일반적으로는 실험 결과나 데이터 분석 결과에 아무런 차이가 없다는 가정을 의미합니다.
반대로 대립 가설은, 귀무 가설을 반박하는 가설입니다. 즉, 실험이나 조사 결과에 유의미한 차이가 있다는 것을 주장합니다.
p-value
p-value는 유의 확률이라고도 하는데, 귀무 가설이 맞다는 가정 하에 실제 관측된 데이터보다 같거나 더 극단적인 사건이 일어날 가능성을 의미합니다. 처음에 이 말을 듣고 이해하기 너무 어려웠는데 그림을 그려보니 쉽게 이해가 됐습니다.
이미지에서 아래의 직선과 종 모양 선 사이의 영역이 '귀무 가설을 참이라고 했을 때 데이터가 관측될 확률'이고 점선이 '실제 관측된 데이터'라고 한다면, 빨간색으로 칠해진 부분이 바로 p-value입니다.
p-value가 작을수록 귀무 가설과 데이터가 맞지 않을 가능성이 높다고 할 수 있습니다. 따라서 p-value가 작으면 귀무 가설을 기각한다. 주로, p-value가 0.05(5%) 이하일 때 귀무 가설을 기각합니다.
왜 5%일까?
〈수학보다 데이터 문해력〉이라는 책을 읽다가 왜 5%인지에 대한 이유가 나와 있어서 소개합니다.
5%에는 아무런 근거가 없다고 합니다. 단지, 가설검정의 창시자였던 로널드 피셔가 자신의 저서 《연구자를 위한 과학적 방법론》에서 사용한 숫자였을 뿐입니다. 이것을 다른 과학자들도 사용하면서 관습으로 굳어졌다고 합니다.
t-test
t-test는 두 집단 간, 혹은 한 집단의 전후 평균의 차이를 비교하여 유의미한 차이가 있는지를 검정하는 방법입니다. t-test는 네 가지 단계를 통해 진행합니다.
1. 변수 설정
t-test를 하기 위해 한 기업의 패키지 변경 전후의 매출 변화를 변수로 설정했습니다.
2. F-검정
t-test에는 등분산 가정 t-test와 이분산 가정 t-test, 이렇게 두 가지의 방법이 있는데, 어떤 t-test를 할 것인지 결정하기 위해서 F-검정을 해야 합니다.
F-검정은 분산 분석(Analysis of Variance, ANOVA)에서 사용되는 통계적 방법으로, 두 집단의 '분산'에 통계적으로 유의미한 차이가 있는지를 확인하는 방법입니다.
F-검정의 귀무 가설은 두 집단의 분산에 유의미한 차이가 없다는 것이고, 대립 가설은 차이가 있다는 것이다. 즉, F-검정 값의 p-value가 0.05보다 크면 두 집단의 분산에 유의미한 차이가 없다는 것으로 보고 0.05보다 작으면 유의미한 차이가 있다고 봅니다.
F-검정 결과가 0.05 이상이면 유의미한 차이가 없다고 보고 등분산 가정 t-test를 진행합니다. 반대로, 0.05보다 작으면 분산에 유의미한 차이가 있다고 보고 이분산 t-test를 진행합니다.
위의 이미지는 한 기업의 패키지 변경 전후의 매출 변화에 대한 F-검정의 결과입니다. 값이 약 0.02이므로, 분산에 유의미한 차이가 있다고 보고 이분산 t-test를 진행합니다.
3. t-test
t-test 역시 귀무 가설과 대립 가설을 이용해 두 개의 가설을 만듭니다. 하나는 두 집단의 평균에 유의미한 차이가 없다는 귀무 가설이고, 다른 하나는 두 집단 사이에 유의미한 차이가 있다는 대립 가설입니다.
위의 F-검정에서 이분산 t-test를 하는 것으로 결정이 됐으므로, 엑셀의 데이터 분석 도구에서 이분산 t-test를 선택합니다.
4. 해석과 결론
위의 이미지를 보면, t-test 결과가 약 0.007이라고 나옵니다. 즉, 귀무 가설을 기각할 수 있다. 따라서 패키지 변경 전의 매출 평균과 패키지 변경 후의 매출 평균은 유의미하게 차이가 난다고 할 수 있습니다.
양측 검정(two-tail)과 단측 검정(one-tail)
대립 가설에는 크게 두 종류가 있다. 하나는 귀무 가설을 "두 그룹의 평균은 같다"라고 설정할 때, 대립 가설은 "두 그룹의 평균은 같지 않다"를 의미하는 양측 검정이고, 다른 하나는 "평균이 크거나 작다"를 의미하는 단측 검정입니다. 양측 검정은 양방향의 확률을 모두 고려하고 단측 검정은 한 방향의 확률만 고려하는 차이점이 있습니다.
t-test 결과 패키지 변경 후가 유의미하게 매출 평균이 차이났다는 결론이 내려졌습니다. 그러면 패키지를 변경해야 할까요? 그렇지 않습니다. 양측 검정 결과가 0.007이라는 것은, 매출 평균이 높아지는 쪽으로 유의미하게 변했을 수도 있지만 낮아지는 쪽으로 변했을 수도 있음을 의미합니다.
실제로, 표에서 보면 매출액이 줄어든 것을 알 수 있습니다. 유의미한 변화가 꼭 긍정적인 의미가 아니라는 것을 유의해야 합니다.
회귀 분석
회귀 분석이란, 변수의 종속 변수와 독립 변수 간의 관계를 파악하는 분석 방법입니다. 회귀분석은 주어진 데이터를 사용하여 이러한 변수들 사이의 관계를 모델링하고, 종속 변수의 값을 예측하는 데 사용합니다.
회귀 분석에는 선형 회귀 분석과 비선형 회귀 분석이 있고, 선형 회귀 분석은 또 변수가 하나 있는 단순 선형 회귀 분석과 변수가 여러 개인 다중 선형 회귀 분석으로 나눌 수 있습니다.
이번에 배운 것은 단순 선형 회귀 분석입니다. 1차 함수 $y = ax + b$에서 이미 알고 있는 값 $x$는 독립 변수이고, 알고 싶은 값 $y$는 $x$에 따라 수치가 변하는 종속 변수입니다. 즉, $x$의 값을 통해 $y$를 예측하는 것이 회귀 분석입니다.
$y$를 예측하기 위해 $x$와 $y$의 관계를 가장 잘 설명해주는 임의의 직선을 구해야 합니다. 임의의 직선 위의 점 $(x, y)$는 $x$에 대한 $y$의 예측값을 의미합니다. $y$의 예측값을 구했다면, 실제 데이터에서 이 예측값을 뺀다. 예측 값이 실제 데이터보다 크면 음수, 실제 데이터보다 작으면 양수가 나옵니다. 이렇게 나온 오차값들 제곱해서 모두 더한 것이 가장 작은 값이 나오는 직선을 선택합니다.(최소제곱법)
왜 제곱할까?
실제 데이터에서 예측값을 뺀 값은 양수일 수도 있고 음수일 수도 있습니다. 그냥 오차들을 더한다면 오차값 -1, 1과 -5, 5의 차이를 구분할 수 없습니다. 따라서 제곱을 통해 모두 양수로 만든 다음 더하는 것입니다.
회귀 분석 역시 엑셀을 통해 간단히 표로 만들어볼 수 있습니다.
결정계수
상관 분석을 배울 때 상관계수 r 에 대해 배웠습니다. 상관계수 r은 -1 이상, 1 이하인 수로 두 변수 사이의 상관 관계를 나타낸다. -1에 가까울수록 강한 음의 상관 관계, 1에 가까울수록 강한 양의 상관 관계입니다. 이 r 값을 제곱하면 결정계수가 됩니다. 결정 계수는 0부터 1 사이의 숫자로, 값이 1에 가까울수록 회귀 모형이 실제 데이터를 잘 반영한다고 할 수 있습니다. 위의 표에서는 결정계수가 약 0.93으로 매우 높기 때문에 실제 데이터를 아주 잘 반영한다고 할 수 있습니다.
유의한 F
위의 이미지 두 번째 표으 마지막 열, 유의한 F 값은 만든 회귀 모형이 유의미한지 아닌지에 대한 지표입니다. 이 지표 역시 귀무 가설과 대립 가설을 이용해서 판단하는데, 귀무 가설은 '회귀모형이 유의미하지 않다'이고 대립 가설이 '회귀 모형이 유의미하다'입니다. 따라서 이 유의한 F 값이 0.05보다 작아야 회귀 모형을 사용할 수 있습니다. 위의 표에서는 유의한 F 값이 0.05보다 작으므로, 이 회귀 모형은 유의미하다고 판단할 수 있습니다.
계수
세 번째 표에서 확인해야 할 것은 계수입니다. $y$절편은 $x$가 0일 때의 값을 의미하므로, 첫 번째 행은 $y = ax + b$에서 $b$를 의미합니다. 두 번째 행 판매 수량은 $a$를 의미합니다. 따라서 회귀 분석으로 구하고자 했던 값 $y$는 $56081x - 43277075.0767989$입니다.
지금까지 할 만했는데 추론 통계 부분 나오면서부터 확 어려워진 것 같습니다. 부트캠프가 시작하기 전에 통계 관련 책을 읽어보면서 예습 아닌 예습을 했었는데 그게 그나마 안 뒤쳐지고 수업 진도를 따라가는 데 도움이 된 것 같습니다. 반대로 책을 읽으면서 이해가 안 됐던 부분들도 수업을 들으면서 조금 알게 된 것 같습니다.
이론 보다는 어떤 데이터에 어떤 분석 방법을 쓰는 게 제일 좋은가 하는 부분이 가장 어려운 것 같습니다. 지금도 수업에서는 데이터가 다 시도해볼 분석 방법에 맞게 가공된 데이터만 쓰고 있지만 현업에서는 어떤 분석 방법을 쓸지를 스스로 결정해야 할텐데 잘 할 수 있을지가 조금 걱정됩니다.
데이터 분석과 모델링(2) : 엑셀을 통해 다중 선형 회귀 분석과 시계열 분석 해보기
다중 선형 회귀 분석다중 선형 회귀 분석이란?단순 선형 회귀 분석이 독립변수가 하나일 때의 독립변수와 종속 변수의 상관 관계를 분석하는 통계 기법이었다면, 다중 선형 회귀 분석은 독립 변
dararium.tistory.com
'데이터 분석 > 강의 노트' 카테고리의 다른 글
데이터 시각화: 엑셀을 이용해 다양한 차트 만들기 (0) | 2024.06.27 |
---|---|
데이터 분석과 모델링(2) : 엑셀을 통해 다중 선형 회귀 분석과 시계열 분석 해보기 (0) | 2024.06.27 |
통계 기본 개념 (0) | 2024.06.26 |
엑셀을 이용한 EDA(2): 대푯값, 피벗 테이블, 상관 관계를 이용한 데이터 탐색 (0) | 2024.06.24 |
엑셀을 이용한 EDA: EDA의 개념과 결측치, 이상치 처리 그리고 상관 분석 (0) | 2024.06.21 |