데이터분석

데이터 시각화는 복잡한 정보를 쉽게 이해할 수 있도록 돕는 강력한 도구입니다. 차트는 다양한 형태로 존재하며, 각각의 차트는 특정 데이터 분석에 적합합니다. 이번 포스팅에서는 태블로에서 자주 사용되는 라인 차트, 파이 차트, 박스플롯, 하이라이트 테이블을 그리는 방법과 이를 활용한 데이터 분석 방법을 소개하겠습니다. 라인 차트라인 차트는 시간에 따른 데이터의 변화를 시각화하는 데 매우 유용합니다. 특정 기간 동안의 트렌드를 파악하거나 여러 지표를 비교하는 데 적합합니다.  태블로로 라인차트를 그리는 방법은 간단합니다. 일단, 날짜 필드와 분석할 측정값이 준비되어 있어야 합니다. 날짜를 열로, 측정값을 행으로 옮깁니다. 만약 라인차트가 만들어지지 않는다면 마크 선반에서 차트 유형을 '라인'을 선택합니다. ..
태블로란?태블로(Tableau)는 데이터를 시각적으로 분석하고 이해하는 데 도움을 주는 강력한 데이터 시각화 도구입니다. 코딩 없이 다양한 차트를 만들 수 있다는 장점이 있습니다. 기업이 데이터를 수집, 분석, 시각화하여 더 나은 의사 결정을 내릴 수 있도록 돕는 기술과 프로세스를 BI(Business Intelligence)라고 부르는데, BI 툴 중 하나로써 사용됩니다. 태블로 퍼블릭 설치하기태블로에는 유료 버전인 태블로 프로와 무료 버전인 태블로 퍼블릭이 있습니다. 무료 버전을 사용할 것이기 때문에 tableau-public을 다운 받아줍니다. brew install --cask tableau-public 데이터 가져오기태블로 퍼블릭 홈페이지에 들어가보면 샘플 데이터를 다운로드 받을 수 있습니다. ..
SQL 윈도우 함수는 데이터 분석과 집계 작업을 훨씬 더 강력하고 유연하게 수행할 수 있는 도구입니다. 이번 포스팅에서는 데이터 분석, 트렌드 분석, 순위 매기기 등에서 활용되는 윈도우 함수에 대해 알아보겠습니다.윈도우 함수 기본 구조윈도우 함수의 기본 구조는 다음과 같습니다.() OVER ( PARTITION BY ORDER BY )주요 윈도우 함수 : 순위 매기기순위를 매길 때는 RANK(), DENSE_RANK(), ROW_NUMBER() 함수를 사용할 수 있습니다. RANK()의 경우, 동률이 발생할 경우 동률로 표시하고, 그 개수만큼 다음 순위에 갭이 발생합니다.DENSE_RANK()의 경우 동률이 발생할 경우 동률로 표시하고 다음 순위에 갭이 없습니다.ROW_NUMBER()의 경우..
문자열 관련 함수LENGTH() : 문자열의 길이를 반환SELECT LENGTH('hello world');-- 11 UPPER() : 문자열을 대문자로 변환SELECT UPPER('hello world');HELLO WORLD LOWER() : 문자열을 소문자로 변환SELECT LOWER('HELLO WORLD');-- hello world SUBSTRING(str, start, length) : 문자열을 start 자리부터 length개 만큼 반환SELECT SUBSTRING('hello world', 3, 6);-- llo wo CONCAT(str1, str2) : 문자열을 하나로 합치기SELECT CONCAT('John', ' ', 'Doe');-- John Doe 날짜 관련 함수DATE_FORM..
SQL 기초: 데이터베이스와 테이블 생성하는 방법과 데이터 조작하기SQL이란?SQL은 Structured Query Language의 줄임말로, 데이터베이스 관리 시스템(DBMS)에서 데이터를 정의하고 조작하기 위한 표준 언어입니다. SQL을 사용하면 데이터베이스에 데이터를 추가하거나 수정dararium.tistory.com데이터 집계하기숫자형 데이터의 경우, 합계, 평균, 최소, 최대 등의 값을 구할 수 있습니다.COUNT() : 데이터의 개수를 구합니다. 모든 레코드의 개수를 구하려면 COUNT(*)를 하고, 특정 열의 개수를 구하려면 * 대신 컬럼 이름을 입렵하면 됩니다. 중복되지 않은 데이터의 개수를 구하고 싶다면 DISTINCT 키워드를 이용해서 COUNT(DISTINCT {col})와 같이 씁..
SQL이란?SQL은 Structured Query Language의 줄임말로, 데이터베이스 관리 시스템(DBMS)에서 데이터를 정의하고 조작하기 위한 표준 언어입니다. SQL을 사용하면 데이터베이스에 데이터를 추가하거나 수정하고, 삭제하거나 조회할 수 있습니다.기본 사용법데이터베이스 생성하기쿼리문을 작성할 때는 키워드를 대문자로 작성합니다. 문법 상으로는 대소문자를 구분하지 않지만 가독성을 위해서입니다.# 데이터베이스 생성CREATE DATABASE my_database;# 데이터베이스 조회SHOW DATABASES;데이터 베이스를 생성할 때는 DATABASE이고, 데이터베이스를 조회할 때는 DATABASES로, 마지막에 S를 붙여주어야 합니다.USE my_database;USE 키워드를 사용해서 작업할..
Seaborn을 이용해서 데이터 시각화하기¶ In [1]: import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns ..
matplotlib를 이용해서 데이터 시각화하기¶In [1]:import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsMatplotlib¶Matplotlib은 Python에서 데이터를 시각화하기 위한 라이브러리입니다. 그래프와 차트를 쉽게 생성할 수 있도록 다양한 도구와 기능을 제공합니다.Matplotlib 기본¶matplotlib는 주로 plt로 축약하여 사용합니다. 가장 기본인 그래프 유형은 선 그래프로 plot() 함수를 이용해서 표현합니다.In [4]:plt.plot([1, 2, 3, 4, 5, 4, 3, 2, 1])Out[4]:[]다양한 옵션들¶matplotlib에서는 그래프를 꾸밀 수 있는 다..
분포와 통계량discribe() 함수를 사용하면 다양한 기술통계량을 한 번에 확인할 수 있습니다. 역시 타이타닉 데이터셋을 가지고 기초통계량을 살펴보겠습니다.import pandas as pdfile_path = './data/titanic_train.csv'df = pd.read_csv(file_path)df.describe()  PassengerIdSurvivedPclassAgeSibSpParchFarecount891.000000891.000000891.000000714.000000891.000000891.000000891.000000mean446.0000000.3838382.30864229.6991180.5230080.38159432.204208std257.3538420.4865920.8360711..
저번 시간에 웹 크롤링에 대해서 배웠습니다. 이번 시간에는 조금 더 복잡한 작업을 수행하는 방법에 대해 배웠습니다. input에 텍스트 입력하기, 스크롤하기 등을 통해 구글 플레이스토어에서 리뷰 데이터를 가져와 보겠습니다.  웹 크롤링으로 데이터 가져오기웹 크롤링이란?웹 크롤링(Web Crawling)은 인터넷 상에서 웹 페이지들을 자동으로 탐색하여 정보를 수집하는 프로세스를 말합니다. 웹 크롤러는 일종의 소프트웨어로, 웹 페이지에 접근하여 그 안dararium.tistory.com 크롬 드라이버를 통해 크롬 브라우저 열기가장 먼저, 웹드라이버를 통해 크롬 브라우저를 열고, 구글 플레이스토어 페이지로 이동해줍니다.from selenium import webdriverfrom selenium.webdriv..
hyunseo
'데이터분석' 태그의 글 목록