import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

tips = sns.load_dataset('tips')

tips

# 이 분은 어느 요일에 일을 해야 할까요?
tips.groupby(['day'], observed=False)[['tip']].aggregate(['mean', 'count', 'sum']).reset_index()

# 저녁과 낮 중 언제 일해야 할까요?
tips.groupby(['day', 'time'], observed=False)[['tip']].aggregate(['sum', 'count'])

sns.boxplot(data=tips, x='day', y='tip', hue='time')

<Axes: xlabel='day', ylabel='tip'>

# 어떤 손님에게 서빙해야 팁을 많이 받을 수 있을까요?
tips.groupby(['sex', 'smoker'], observed=False)[['tip']].aggregate(['sum', 'mean', 'count'])

# sns.boxplot(data=tips, x='day', y='tip', hue='sex')
sns.boxplot(data=tips, x='day', y='tip')
sns.swarmplot(data=tips, x='day', y='tip')

<Axes: xlabel='day', ylabel='tip'>

tips.corr(numeric_only=True)

sns.lmplot(data=tips, x='total_bill', y='tip')

<seaborn.axisgrid.FacetGrid at 0x165a14dd0>

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 6, 8, 10])

m, b = np.polyfit(x, y, 1)
m, b

(np.float64(2.0), np.float64(-2.3832327871173813e-15))

x = tips['total_bill']    # 독립변수
y = tips['tip']           # 종속변수

m, b = np.polyfit(x, y, 1)
plt.scatter(x, y)
plt.plot(x, m * x + b)

print(f'회귀선 y = {m:.3f}x + {b:.3f}')
# 기울기가 0.11 => total_bill이 1 증가할 때 tip이 0.1 증가한다.
# total_bill이 10달러 증가할 때 tipdl 1.05달러 증하한다.

회귀선 y = 0.105x + 0.920

flights = sns.load_dataset('flights')
flights.head(3)

# 연도별 month
flights_pivot = flights.pivot(index='month', columns='year')
sns.heatmap(data=flights_pivot, annot=True, fmt='d')

<Axes: xlabel='None-year', ylabel='month'>

flights_pivot

	total_bill	tip	sex	smoker	day	time	size
0	16.99	1.01	Female	No	Sun	Dinner	2
1	10.34	1.66	Male	No	Sun	Dinner	3
2	21.01	3.50	Male	No	Sun	Dinner	3
3	23.68	3.31	Male	No	Sun	Dinner	2
4	24.59	3.61	Female	No	Sun	Dinner	4
...	...	...	...	...	...	...	...
239	29.03	5.92	Male	No	Sat	Dinner	3
240	27.18	2.00	Female	Yes	Sat	Dinner	2
241	22.67	2.00	Male	Yes	Sat	Dinner	2
242	17.82	1.75	Male	No	Sat	Dinner	2
243	18.78	3.00	Female	No	Thur	Dinner	2

	day	tip
		mean	count	sum
0	Thur	2.771452	62	171.83
1	Fri	2.734737	19	51.96
2	Sat	2.993103	87	260.40
3	Sun	3.255132	76	247.39

		tip
		sum	count
day	time
Thur	Lunch	168.83	61
Thur	Dinner	3.00	1
Fri	Lunch	16.68	7
Fri	Dinner	35.28	12
Sat	Lunch	0.00	0
Sat	Dinner	260.40	87
Sun	Lunch	0.00	0
Sun	Dinner	247.39	76

		tip
		sum	mean	count
sex	smoker
Male	Yes	183.07	3.051167	60
Male	No	302.00	3.113402	97
Female	Yes	96.74	2.931515	33
Female	No	149.77	2.773519	54

	total_bill	tip	size
total_bill	1.000000	0.675734	0.598315
tip	0.675734	1.000000	0.489299
size	0.598315	0.489299	1.000000

Seaborn을 이용해 데이터 시각화하기

Seaborn을 이용해서 데이터 시각화하기¶

tips 데이터 분석 : `boxplot()`, `swarmplot()`, `lmplot()`¶

결론¶

가설 설정하기¶

회귀선 원리¶

시계열 데이터 (flight dataset) : `pivot()`, `heatmap()`¶

`pivot()`과 `heatmap()`¶

	passengers
year	1949	1950	1951	1952	1953	1954	1955	1956	1957	1958	1959	1960
month
Jan	112	115	145	171	196	204	242	284	315	340	360	417
Feb	118	126	150	180	196	188	233	277	301	318	342	391
Mar	132	141	178	193	236	235	267	317	356	362	406	419
Apr	129	135	163	181	235	227	269	313	348	348	396	461
May	121	125	172	183	229	234	270	318	355	363	420	472
Jun	135	149	178	218	243	264	315	374	422	435	472	535
Jul	148	170	199	230	264	302	364	413	465	491	548	622
Aug	148	170	199	242	272	293	347	405	467	505	559	606
Sep	136	158	184	209	237	259	312	355	404	404	463	508
Oct	119	133	162	191	211	229	274	306	347	359	407	461
Nov	104	114	146	172	180	203	237	271	305	310	362	390
Dec	118	140	166	194	201	229	278	306	336	337	405	432

Seaborn을 이용해 데이터 시각화하기

Seaborn을 이용해서 데이터 시각화하기¶

tips 데이터 분석 : boxplot(), swarmplot(), lmplot()¶

결론¶

가설 설정하기¶

회귀선 원리¶

시계열 데이터 (flight dataset) : pivot(), heatmap()¶

pivot()과 heatmap()¶

tips 데이터 분석 : `boxplot()`, `swarmplot()`, `lmplot()`¶

시계열 데이터 (flight dataset) : `pivot()`, `heatmap()`¶

`pivot()`과 `heatmap()`¶