eda

대푯값을 이용한 데이터 탐색대푯값을 이용해 차트를 만들면 어떤 집단이 확률적으로 어떤 경향성을 가지는지 확인하기 쉽다. 따라서 대푯값을 통한 EDA는 데이터에 대한 직관을 얻기 좋은 방법이다.엑셀을 이용하면 대푯값과 그 밖에 많이 사용되는 통계량을 한 번에 파악할 수 있다. 엑셀의 데이터 탭에서 [데이터 분석] - [Discriptive Statistics]를 선택한다.   데이터셋은 Kaggle의 타이타닉 데이터셋을 사용했다. 표를 만들면 raw data 상태일 때는 파악할 수 없었던 정보들을 쉽게 파악할 수 있다.Survived 열의 평균을 통해 생존률이 약 38%였다는 것을 알 수 있다.Pclass 열의 중앙값과 최빈값을 통해 이 배에 가장 많이 타고 있던 사람들이 3등석 사람들이라는 것을 알 수 ..
이번 시간에는 엑셀을 이용해 EDA를 하는 방법에 대해 공부했다. EDA란?EDA(Exploratory Data Analysis)란 탐색적 데이터 분석이라는 의미로, 주어진 데이터를 다각도로 살펴보면서 해당 데이터가 어떤 특성을 가지고 있는지 이해하는 과정을 말한다. EDA의 필요성수집된 데이터의 특성을 파악할 수 있다.결측치, 이상치 등, 데이터가 가지고 있는 문제점을 파악할 수 있다.EDA의 결과를 바탕으로 적절한 데이터 전처리를 수행할 수 있다.데이터를 분석하는 데 가장 적합한 분석 방법을 결정할 수 있다. 엑셀을 이용해서 EDA 해보기엑셀의 피벗테이블 기능을 이용하면 EDA를 쉽게 진행할 수 있다. 일단, raw한 상태의 데이터를 준비한다. 나는 Kaggle의 Superstore Sales라는 데..
hyunseo
'eda' 태그의 글 목록