다중 선형 회귀 분석
다중 선형 회귀 분석이란?
단순 선형 회귀 분석이 독립변수가 하나일 때의 독립변수와 종속 변수의 상관 관계를 분석하는 통계 기법이었다면, 다중 선형 회귀 분석은 독립 변수가 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석하는 것을 말합니다.
엑셀에서 다중 선형 회귀 분석을 하는 방법은 단순 선형 회귀 분석과 동일하고, 독립 변수의 범위만 여러 열을 잡으면 됩니다.
결과 확인하기
다중 선형 회귀 분석은 결정계수 대신 조정된 결정계수로 회귀 모델의 설명력을 확인합니다. 유의한 F 값은 단순 선형 회귀 모델과 같이 0.05 이하여야 회귀 모형이 무의미하다는 귀무 가설을 기각할 수 있습니다. 그리고 각각의 독립 변수들은 p-value를 이용해서 종속 변수와의 연관성을 파악합니다.
조정된 결정계수
엑셀에서 다중 선형 회귀 분석을 시행하면 결정계수 밑에 조정된 결정계수가 있습니다. 다중 선형 회귀 분석에서는 이 조정된 결정계수가 사용됩니다.
다중 선형 회귀 모델에서는 독립 변수가 늘어나면 결정계수도 함께 증가합니다. 하지만 이것은 단순히 독립 변수의 수 때문에 결정계수가 늘어난 것일 뿐, 모델 자체의 예측 능력이 향상된 것은 아닐 수 있습니다. 따라서 결정계수에 적절한 보정이 필요한 것입니다.
유의미한 데이터
표에서 각각의 독립 변수의 p-value를 확인할 수 있습니다. p-value가 0.05 이하인 경우 그 독립 변수는 종속 변수를 결정하는 데 영향을 준 변수라고 할 수 있습니다. 따라서 위의 표에서 매출(종속 변수)에 영향을 미친 것은 판매 수량과 직원수라는 것을 알 수 있습니다.
시계열 데이터 분석
시계열 데이터 분석이란?
시계열 데이터는 시간의 흐름에 따라 발생된 데이터의 변화를 예측하거나 경향을 분석하는 것을 의미합니다. 시계열 데이터에는 경제 지표, 주식 가격, 기후 데이터 등이 있습니다.
정상과 비정상
시계열 데이터에는 정상 시계열 데이터와 비정상 시계열 데이터가 있습니다. 정상 시계열 데이터는 추세나 경향성을 가지지 않는, 즉, 관측된 값이 관측된 시간에 무관한 데이터를 의미합니다. 대부분의 시계열 데이터는 비정상 시계열 데이터입니다.
지수 평활법
대부분의 시계열 데이터는 비정상 시계열 데이터인데, 비정상 시계열 데이터는 분석이 어렵습니다. 따라서 비정상 시계열 데이터를 정상 시계열 데이터화(化)한 다음 분석하는 방법을 사용합니다. 시계열 데이터 분석 방법에는 여러 가지가 있지만, 이번에는 지수 평활법을 소개하도록 하겠습니다.
지수 평활법은 최근 데이터에 더 높은 가중치를 주고, 이전 데이터는 점점 낮은 가중치를 부여하여 미래의 시계열 데이터를 예측하는 기법입니다. 이 방법은 주어진 데이터의 추세와 계절성을 고려하지 않고 단기적인 예측을 수행하는 데 유용합니다.
엑셀에서는 FORECAST.ETS 함수를 통해 지수 평활법을 사용할 수 있습니다.
'데이터 분석 > 강의 노트' 카테고리의 다른 글
Pandas: Series와 DataFrame, 데이터 불러오기, 조건에 맞는 데이터 추출하기 (0) | 2024.07.04 |
---|---|
데이터 시각화: 엑셀을 이용해 다양한 차트 만들기 (0) | 2024.06.27 |
통계 기본 개념 (0) | 2024.06.26 |
데이터 분석과 모델링: 엑셀을 통해 추론 통계의 기본 개념과 t-test, 회귀 분석 알아보기 (0) | 2024.06.25 |
엑셀을 이용한 EDA(2): 대푯값, 피벗 테이블, 상관 관계를 이용한 데이터 탐색 (0) | 2024.06.24 |