대푯값을 이용한 데이터 탐색
대푯값을 이용해 차트를 만들면 어떤 집단이 확률적으로 어떤 경향성을 가지는지 확인하기 쉽다. 따라서 대푯값을 통한 EDA는 데이터에 대한 직관을 얻기 좋은 방법이다.
엑셀을 이용하면 대푯값과 그 밖에 많이 사용되는 통계량을 한 번에 파악할 수 있다. 엑셀의 데이터 탭에서 [데이터 분석] - [Discriptive Statistics]를 선택한다.
데이터셋은 Kaggle의 타이타닉 데이터셋을 사용했다.
표를 만들면 raw data 상태일 때는 파악할 수 없었던 정보들을 쉽게 파악할 수 있다.
- Survived 열의 평균을 통해 생존률이 약 38%였다는 것을 알 수 있다.
- Pclass 열의 중앙값과 최빈값을 통해 이 배에 가장 많이 타고 있던 사람들이 3등석 사람들이라는 것을 알 수 있다.
- Age 열의 관측수를 통해 나이 데이터에 결측치가 있음을 알 수 있다.
피벗 테이블을 이용한 데이터 탐색
피벗 테이블과 피벗 차트를 만들어 보는 것도 EDA를 하는 좋은 방법이다.
위의 이미지에서 왼쪽 표와 차트를 통해, 1등석 손님의 생존률이 2등석이나 3등석에 비해 높다는 것, 성별로 따지면 여성의 생존률이 더 높다는 것 등을 알 수 있고, 오른쪽의 차트를 통해 C 항구에서 1등석 손님이 많이 탔다는 것, Q 항구에서는 탑승객의 대부분이 3등석 탑승객이라는 것 등의 정보를 확인할 수 있다.
데이터 분석을 할 때 주의해야 할 점
아래의 이미지는 탑승한 항구와 생존률 사이의 관계를 나타낸 표이다. 확인해보면, C 항구에서 탑승한 탑승객의 생존률이 55%이다. 그러면 탑승한 항구가 생존률에 영향을 끼친 거라고 할 수 있을까?
그렇게 볼 수 없다. 이 관계를 이해하기 위해서는 이미지 2-1의 표를 살펴보아야 한다. 오른쪽 표에서 보면, C 항구에서 탑승한 1등석 탑승객은 85명. 전체 168명 중 약 절반에 해당한다. 그리고 왼쪽 표에서 알 수 있듯이, 1등석 탑승객의 생존률이 가장 좋다. 그렇다면 C 항구의 생존률이 가장 높은 것도 이해가 된다. 단지 C 항구에서 탑승한 승객의 생존률이 높았던 것이 아니라, C 항구에서 탑승한 탑승객 중 생존률이 가장 높았던 1등석 탑승객의 비율이 높았기 때문에 C 항구의 생존률이 높아 보였던 것이다.
이렇듯, 별다른 연관 관계가 없는 두 변수 사이에 숨겨져 있는 정보 때문에 얼핏 연관 관계가 있는 것처럼 보일 때가 있다. 분석하는 데이터가 진짜 연관이 있는 것인지, 숨겨져 있는 다른 데이터 때문에 연관이 있는 것처럼 보이는 것인지 주의 깊게 살펴봐야 한다.
상관 관계를 이용한 데이터 탐색
산점도나 상관계수표를 이용하면 변수 사이의 상관 관계를 파악할 수 있다. 이를 이용하면 독립적이어 보였던 변수 사이의 종속 관계를 파악하거나, 상관이 있어 보였던 두 변수 사이에 상관 관계가 성립하지 않음을 알아차릴 수 있다. 상관 없는 데이터를 파악하는 것은 상관이 있는 데이터를 파악하는 것 만큼이나 중요하다.
EDA 과정에서 상관 관계에 대해 파악해 놓으면 이후의 데이터 분석에 도움이 된다.
상관 관계를 잘 파악할 수 있는 것이 바로 산점도다. 엑셀에서 산점도를 그리기 위해서는 삽입 탭의 분산형 차트를 선택하면 된다.
데이터 분석을 위해 Kaggle의 Iris 데이터셋을 사용했다. 아이리스의 종에 따른 꽃잎과 꽃받침의 길이와 폭을 기록한 데이터셋이다.
상관 관계 분석을 위해 Kaggle의 아이리스 데이터셋을 이용했다. 아이리스는 setosa, versicolor, verginica 이렇게 세 종류가 있는데 종류에 따라 차트에 노출하고 싶다면 범위도 각각 잡아줘야 한다. 산점도의 x축은 꽃잎의 길이, y축은 꽃잎의 너비로 설정했다.
산점도를 만들어 보면 아래와 같다. 파란색이 setosa, 주황색이 versicolor, 초록색이 verginica이다. 아래의 표를 통해, 종에 따라 꽃잎의 크기가 다른 것을 알 수 있고, petal length의 값이 커짐에 따라 petal width도 같이 증가하는 것을 볼때, 두 변수 간에 큰 상관 관계가 있다는 것을 알 수 있다. 특히, 우상향의 모양을 통해 양의 상관 관계라는 것을 알 수 있다.
같은 내용을 상관계수표를 통해서도 확인할 수 있다. 두 데이터 간의 상관계수는 0.96이라는 것이 확인 가능하다.
'데이터 분석 > 강의 노트' 카테고리의 다른 글
데이터 시각화: 엑셀을 이용해 다양한 차트 만들기 (0) | 2024.06.27 |
---|---|
데이터 분석과 모델링(2) : 엑셀을 통해 다중 선형 회귀 분석과 시계열 분석 해보기 (0) | 2024.06.27 |
통계 기본 개념 (0) | 2024.06.26 |
데이터 분석과 모델링: 엑셀을 통해 추론 통계의 기본 개념과 t-test, 회귀 분석 알아보기 (0) | 2024.06.25 |
엑셀을 이용한 EDA: EDA의 개념과 결측치, 이상치 처리 그리고 상관 분석 (0) | 2024.06.21 |