분류 전체보기

웹 크롤링이란?웹 크롤링(Web Crawling)은 인터넷 상에서 웹 페이지들을 자동으로 탐색하여 정보를 수집하는 프로세스를 말합니다. 웹 크롤러는 일종의 소프트웨어로, 웹 페이지에 접근하여 그 안에 있는 내용을 추출하고 데이터베이스나 파일에 저장합니다. 주로 검색 엔진이나 가격 비교 사이트에서 제품 정보를 수집하거나, 뉴스 사이트에서 최신 기사를 수집하는 등 다양한 목적으로 사용됩니다. 웹 크롤링은 HTTP 요청을 이용하여 웹 서버에 접근하고, HTML 등의 문서 형식을 파싱하여 원하는 정보를 추출하는 과정을 포함합니다. 이러한 기술을 이용하여 대량의 데이터를 자동으로 수집하고 분석할 수 있어, 정보 수집과 처리에 효율적인 방법으로 활용됩니다. selenium 불러오기import 키워드로 seleniu..
날짜 다루기다음으로, 날짜를 다루는 방법에 대해 알아보겠습니다. 날짜가 문자형으로 되어 있다면 날짜 계산이 불가능합니다. 날짜를 날짜형 데이터로 변경해주어야 날짜를 계산할 수 있습니다. 데이터를 날짜 형태로 변경하기 위해서는 pd.to_datetime() 함수를 사용합니다.pd.to_datetime(df['Date'], format='%Y-%m-%d')# Date datetime64[ns] to_datetime()의 인자로 날짜형으로 변경을 원하는 컬럼을 넣어줍니다. 이때, format을 통해 날짜의 포맷을 지정해줄 수 있습니다. 다음 표는, 자주 사용하는 데이터 형식입니다.형식설명%Y0을 채운 4자리 연도%y0을 채운 2자리 연도%m0을 채운 월%d0을 채운 일%H0을 채운 시간%M0을 채운 분%S..
이번에는 Pandas로 데이터를 가공하는 방법에 대해 알아보겠습니다. import pandas as pdfile_path = './data/titanic_train.csv'df = pd.read_csv(file_path) 인덱스, 행, 열인덱스인덱스는 데이터프레임에서 각 행의 이름입니다.df.index# RangeIndex(start=0, stop=891, step=1)# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, ..., 890] rename() 함수를 이용해서 원하는 인덱스의 이름을 변경할 수 있습니다. index = 바꿀 인덱스명을 이용하면 데이터 전체의 인덱스를 변경합니다.df.rename({0:'row1', 1:'row2'})df.index = df1.index = ['row' + ..
Pandas란?Pandas는 빠르고 강력하며 유연하고 사용하기 쉬운 오픈 소스 데이터 분석 및 조작 도구로, 파이썬 프로그래밍 언어를 기반으로 구축되었습니다. Pandas는 데이터를 쉽고 빠르게 정렬하거나 인덱싱할 수 있고, 그루핑, 피봇팅과 같은 고급 기능을 제공합니다. 또한, join을 통해 데이터를 병합하고, 요약하거나 통계를 구하기도 쉽습니다. import pandas as pd pandas의 별칭은 통상적으로 pd로 칭합니다. Series와 DataFrame 이해하기SeriesSeries(이하 시리즈)는 pandas에서 사용하는 일종의 리스트입니다. 파이썬의 딕셔너리와 리스트 타입의 데이터를 시리즈로 만들 수 있습니다. dic = {'a': 'apple','b': 'cherry','c': 'ba..
데이터를 분석하는 목적은 인사이트를 얻고 더 나은 의사결정을 하기 위해서입니다. 따라서 데이터 분석은 단지 분석으로만 끝나면 안 됩니다. 분석한 데이터를 기반으로 더 나은 의사결정을 하도록 설득해야 합니다. 설득을 위해서는 분석 결과를 효과적으로 전달할 수 있어야 하는데, 분석 결과를 가장 효과적으로 전달할 수 있는 방법은 바로 시각화 하는 것입니다. 나이팅게일을 아시나요? 나이팅게일은 영국의 간호사입니다. 그녀는 크림전쟁에서 부상으로 사망하는 사람보다 위생 문제로 사망하는 사람이 더 많다는 것을 눈치채고, 사망자 수를 감소시키기 위해 치료소의 위생 문제를 해결해야 한다는 것을 깨닫습니다. 위생 문제를 해결하기 위해 나이팅게일은 '로즈 다이어그램'으로도 불리는 원형 히스토그램을 제작합니다. 사망자 수를 ..
다중 선형 회귀 분석다중 선형 회귀 분석이란?단순 선형 회귀 분석이 독립변수가 하나일 때의 독립변수와 종속 변수의 상관 관계를 분석하는 통계 기법이었다면, 다중 선형 회귀 분석은 독립 변수가 2개 이상일 때 독립 변수들과 종속 변수 간의 관계를 파악하는 분석하는 것을 말합니다. 엑셀에서 다중 선형 회귀 분석을 하는 방법은 단순 선형 회귀 분석과 동일하고, 독립 변수의 범위만 여러 열을 잡으면 됩니다.결과 확인하기 다중 선형 회귀 분석은 결정계수 대신 조정된 결정계수로 회귀 모델의 설명력을 확인합니다. 유의한 F 값은 단순 선형 회귀 모델과 같이 0.05 이하여야 회귀 모형이 무의미하다는 귀무 가설을 기각할 수 있습니다. 그리고 각각의 독립 변수들은 p-value를 이용해서 종속 변수와의 연관성을 파악합니..
변량, 도수, 상대도수, 도수분포표, 히스토그램변량 : 조사 대상으로부터 동일한 측정 방법으로 얻은 특징계급 : 데이터를 나누는 범위도수 : 각 계급에 들어있는 데이터의 총 개수상대도수: 도수가 전체에서 차지하는 비율도수분포표 : 주어진 자료를 계급에 따라 나눈 표. 구간별 분포 파악 용이히스토그램 : 도수분포표를 차트로 나타낸 것 아래의 이미지는 ChatGPT를 통해 만든 임의의 95명의 키 데이터입니다. 이것을 5cm씩 나눠 도수분포표를 만들어보면 다음과 같습니다. 계급도수상대도수150 ~ 15420.0210526155 ~ 159150.1578947160 ~ 164130.1368421165 ~ 169130.1368421170 ~ 174140.1473684175 ~ 179140.1473684180 ~ ..
추론 통계이전까지 기술 통계를 통해 평균, 중앙값 등 데이터를 다양한 방법으로 요약해 봤습니다. 기술 통계를 통하면 데이터를 대푯값으로 요약할 수 있기 때문에 데이터의 특성을 파악하는 데 도움이 됩니다. 그렇다면 현재의 데이터를 통해 미래를 예측하고 싶을 때는 어떻게 할까요? 이럴 때는 추론 통계를 사용합니다. 추론 통계는 현재의 데이터를 가지고 미래를, 일부의 데이터를 가지고 전체를 추론하는 통계 방법입니다. 귀무 가설과 대립 가설실험 결과나 데이터 분석에서 특정 가설들을 검정하는 과정에서 사용되는 개념입니다. 귀무란, 돌아올 귀(歸)에 없을 무(無) 자를 써서, 없는 것으로 되돌리다의 의미를 갖습니다. 즉, 귀무 가설이란 현재에는 정설로 받아들여지고 있지만 새로이 주장된 대립 가설에 의해 무(無)로..
대푯값을 이용한 데이터 탐색대푯값을 이용해 차트를 만들면 어떤 집단이 확률적으로 어떤 경향성을 가지는지 확인하기 쉽다. 따라서 대푯값을 통한 EDA는 데이터에 대한 직관을 얻기 좋은 방법이다.엑셀을 이용하면 대푯값과 그 밖에 많이 사용되는 통계량을 한 번에 파악할 수 있다. 엑셀의 데이터 탭에서 [데이터 분석] - [Discriptive Statistics]를 선택한다.   데이터셋은 Kaggle의 타이타닉 데이터셋을 사용했다. 표를 만들면 raw data 상태일 때는 파악할 수 없었던 정보들을 쉽게 파악할 수 있다.Survived 열의 평균을 통해 생존률이 약 38%였다는 것을 알 수 있다.Pclass 열의 중앙값과 최빈값을 통해 이 배에 가장 많이 타고 있던 사람들이 3등석 사람들이라는 것을 알 수 ..
이번 시간에는 엑셀을 이용해 EDA를 하는 방법에 대해 공부했다. EDA란?EDA(Exploratory Data Analysis)란 탐색적 데이터 분석이라는 의미로, 주어진 데이터를 다각도로 살펴보면서 해당 데이터가 어떤 특성을 가지고 있는지 이해하는 과정을 말한다. EDA의 필요성수집된 데이터의 특성을 파악할 수 있다.결측치, 이상치 등, 데이터가 가지고 있는 문제점을 파악할 수 있다.EDA의 결과를 바탕으로 적절한 데이터 전처리를 수행할 수 있다.데이터를 분석하는 데 가장 적합한 분석 방법을 결정할 수 있다. 엑셀을 이용해서 EDA 해보기엑셀의 피벗테이블 기능을 이용하면 EDA를 쉽게 진행할 수 있다. 일단, raw한 상태의 데이터를 준비한다. 나는 Kaggle의 Superstore Sales라는 데..
hyunseo
'분류 전체보기' 카테고리의 글 목록 (2 Page)