이번 시간에는 엑셀을 이용해 EDA를 하는 방법에 대해 공부했다.
EDA란?
EDA(Exploratory Data Analysis)란 탐색적 데이터 분석이라는 의미로, 주어진 데이터를 다각도로 살펴보면서 해당 데이터가 어떤 특성을 가지고 있는지 이해하는 과정을 말한다.
EDA의 필요성
- 수집된 데이터의 특성을 파악할 수 있다.
- 결측치, 이상치 등, 데이터가 가지고 있는 문제점을 파악할 수 있다.
- EDA의 결과를 바탕으로 적절한 데이터 전처리를 수행할 수 있다.
- 데이터를 분석하는 데 가장 적합한 분석 방법을 결정할 수 있다.
엑셀을 이용해서 EDA 해보기
엑셀의 피벗테이블 기능을 이용하면 EDA를 쉽게 진행할 수 있다. 일단, raw한 상태의 데이터를 준비한다. 나는 Kaggle의 Superstore Sales라는 데이터를 이용해서 피벗 테이블을 만들어봤다.
아직 막 배우기 시작한 단계라 어떤 데이터를 찾아봐야 하는지 잘 모르겠어서 일단 간단하게 해봤다. 월별 매출과 지역별 매출로 raw 데이터를 요약했다.
위의 사진처럼, 피벗 테이블을 이용하면 1, 2월 정도에 매출이 크게 떨어지는 것, 텍사스의 매출 비중이 엄청 크다는 것 등을 알 수 있다.
결측치와 이상치
결측치는 데이터의 값이 없는 것이고, 이상치는 너무 크거나 작은 값을 뜻한다. 이러한 데이터가 많이 섞여 있으면 분석한 데이터도 편향이 발생하기 쉽기 때문에 이러한 값들을 적절히 처리해 주어야 한다.
결측치 처리하기
결측치는 세 가지 방법을 이용해서 처리할 수 있다. 하지만 세 가지 방법 모두 통계적 편향이 발생할 가능성이 있기 때문에 이러한 위험성을 고려하고, 관계자들과의 충분한 논의 끝에 결정해야 한다.
제거 | 결측치가 발생한 행, 열을 삭제한다. 가장 쉽고 간단한 방식이지만 데이터의 크기 손실이 발생한다. |
치환 | 결측치를 적당한 방법으로 대체한다. 평균, 중앙값, 최빈값 등으로 값을 채워넣는 방식이다. 하지만 이러한 방식은 데이터 특성들 간의 상관 관계를 왜곡할 가능성이 있기 때문에 주의해야 한다. 데이터에 대한 도메인 지식이 있어야 왜곡이 제일 적은 대푯값을 선택할 수 있다. |
모델 기반 처리 | 결측치를 예측하는 새로운 모델을 구성해, 결측치를 채워 나가는 방식이다. |
이상치
이상치는 너무 크거나 너무 작은 값을 뜻하는데, 주로 정규 분포하는 데이터에서 표준편차가 -3 미만이거나 3 초과인 경우 이상치라고 부른다.
이상치를 판별하는 방식에는 여러 가지가 있는데, 자주 사용되는 방식은 IQR 방식을 이용하는 것이다. IQR 방식은 사분위수의 거리를 이용해서 이상치를 판별하는 방식이다. 주로 (3분위수 - 1분위수) * (-)1.5의 범위를 벗어난 데이터를 이상치라고 한다.
이상치는 분석 결과를 왜곡시킬 가능성이 있기 때문에 제거하거나 다른 값으로 대체되는 경우가 많지만 상황에 따라 이상치를 포함해서 분석해야 하는 경우도 있다.
상관 분석
두 변수가 어떤 선형적 관계를 갖고 있는지를 분석하는 방법이다. 한 쪽이 증가하면 다른 쪽이 증가하거나 감소하는 관계를 '상관 관계가 있다'라고 표현한다. 두 데이터 사이이 상관 관계는 상관계수를 통해 도출할 수 있다.
상관계수
상관계수는 주로 r로 표현하고, -1부터 1가지의 수이다. 상관계수가 1에 가까우면 양의 상관 관계(정비례)이고 -1에 가까울 수록 음의 상관관계(반비례)이다.
상관계수가 0.7이상, 혹은 -0.7 이하면 강한 상관 관계를 가지고 있다고 하고, 0.3 이상 혹은 -0.3 이하면 상관 관계가 없다고 한다.
상관계수표
엑셀에서는 데이터 분석 기능을 이용해서 간단하게 상관계수표를 만들 수 있다.
데이터 읽기
수업에서 사용된 더미 데이터를 이용해 만든 상관계수표이다. 상관계수를 그대로 반영해, 최솟값을 -1, 중앙값을 0, 최댓값을 1로 했을 때의 상관계수표가 아래 이미지의 첫 번째 표이다.
보는 것과 같이 모두 양의 상관 관계를 가지고 있고 음의 상관 관계를 가진 것은 하나도 없다. 표를 보고 데이터의 특징을 파악하는 것을 '데이터를 읽는다'라고 표현한다. 표를 그냥 이렇게만 만들면 어떤 요소들이 서로 강한 상관 관계를 가지는지 파악하기 어렵기 때문에 효용 가치가 떨어진다.
그렇다면 이걸 어떻게 고쳐야 할까?
위의 데이터의 상관계수들의 평균은 약 6.5이다. 그러면 평균을 기준으로, 평균보다 높은 상관계수에만 색을 입히면 어떻게 될까? 엑셀의 조건부 서식에서 최솟값을 상관계수의 평균인 6.5로 수정한 것이 바로 이미지 아래의 표이다.
강한 상관계수를 가진 요소에는 어떤 것이 있는지 훨씬 보기 편해졌다. 이런 것을 바로 '데이터를 쓰는 능력'이라고 한다. 보는 사람이 정보를 잘 파악할 수 있도록 구성하는 것이 중요하다.
상관 관계 주의사항
예를 들어, 광고비가 증가할수록 매출도 같이 증가하는 양의 상관 관계가 있다고 해보자. 이것만 보고 광고비를 많이 쓸수록 매출이 증가한다고 할 수 있을까? 그렇지 않다. 두 데이터 사이에 상관 관계가 있다고 해서 인과 관계를 가진다고는 할 수 없다.
단지, 인과 관계가 있는 두 데이터는 상관 관계를 갖기 때문에 상관 관계가 있는 데이터들을 파악하여 그것이 진짜 인과 관계가 있는 것인지 파악하는 단계가 필요하다.
엑셀을 이용한 EDA(2): 대푯값, 피벗 테이블, 상관 관계를 이용한 데이터 탐색
대푯값을 이용한 데이터 탐색대푯값을 이용해 차트를 만들면 어떤 집단이 확률적으로 어떤 경향성을 가지는지 확인하기 쉽다. 따라서 대푯값을 통한 EDA는 데이터에 대한 직관을
dararium.tistory.com
'데이터 분석 > 강의 노트' 카테고리의 다른 글
데이터 시각화: 엑셀을 이용해 다양한 차트 만들기 (0) | 2024.06.27 |
---|---|
데이터 분석과 모델링(2) : 엑셀을 통해 다중 선형 회귀 분석과 시계열 분석 해보기 (0) | 2024.06.27 |
통계 기본 개념 (0) | 2024.06.26 |
데이터 분석과 모델링: 엑셀을 통해 추론 통계의 기본 개념과 t-test, 회귀 분석 알아보기 (0) | 2024.06.25 |
엑셀을 이용한 EDA(2): 대푯값, 피벗 테이블, 상관 관계를 이용한 데이터 탐색 (0) | 2024.06.24 |