250x250
Link
๋‚˜์˜ GitHub Contribution ๊ทธ๋ž˜ํ”„
Loading data ...
Notice
Recent Posts
Recent Comments
๊ด€๋ฆฌ ๋ฉ”๋‰ด

Data Science LAB

[Python] ํŒ๋‹ค์Šค(Pandas)๊ธฐ์ดˆ ๋ณธ๋ฌธ

๐Ÿ Python/Pandas

[Python] ํŒ๋‹ค์Šค(Pandas)๊ธฐ์ดˆ

ใ…… ใ…œ ใ…” ใ…‡ 2022. 2. 15. 18:53
728x90

์•ˆ๋…•ํ•˜์„ธ์š”(. โ› แด— โ›.)!

์˜ค๋Š˜์€ ๋ฐ์ดํ„ฐ๋ถ„์„์˜ ๊ฐ€์žฅ ๊ธฐ์ดˆ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ธ Pandas์— ๋Œ€ํ•ด ๊ณต๋ถ€ํ•ด ๋ณด๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹น!

 

ํŒ๋‹ค์Šค๋Š” ์ง€๋‚œ๋ฒˆ์— ๊ณต๋ถ€ํ–ˆ๋˜ ๋„˜ํŒŒ์ด์— ๋น„ํ•ด ๋ฐ์ดํ„ฐ ํ•ธ๋“ค๋ง์ด ํ›จ์”ฌ ์œ ์—ฐํ•˜๊ณ  ์‰ฝ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๋ถ„์„์—์„œ ๊ฐ€์žฅ ์ž์ฃผ ์“ฐ์ด๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค...ใ…Ž

 

 

ํŒ๋‹ค์Šค์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ ๊ฒƒ์€ DataFrame์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์€ ํ–‰๊ณผ ์—ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๋Š” 2์ฐจ์›์˜ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

 

 

Series -> ์ปฌ๋Ÿผ์ด ํ•˜๋‚˜์ธ ๊ตฌ์กฐ์ฒด

DataFrame -> ์ปฌ๋Ÿผ์ด ์—ฌ๋Ÿฌ๊ฐœ์ธ ๊ตฌ์กฐ์ฒด

๋ผ๊ณ  ์ƒ๊ฐํ•˜์‹œ๋ฉด ๋ ๊ฑฐ ๊ฐ™์Šต๋‹ˆ๋‹น!

 

 

์˜ค๋Š˜์€ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ํ˜•์‹์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถˆ๋Ÿฌ์˜ค๊ณ , ํŒ๋‹ค์Šค๋ฅผ ์ด์šฉํ•ด ์•„์ฃผ ๊ธฐ์ดˆ์ ์ธ ๋ถ„์„์„ ํ•ด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค(โ—'โ—ก'โ—)

 

 

 

๋จผ์ €, ์บ๊ธ€์—์„œ ๋ฐ์ดํ„ฐ ๋ถ„์„์— ์‚ฌ์šฉํ•  ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์šด๋ฐ›๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. 

https://www.kaggle.com/c/titanic/data?select=train.csv 

 

Titanic - Machine Learning from Disaster | Kaggle

 

www.kaggle.com

 

 

๋ฐ์ดํ„ฐ๋ถ„์„ ์—ฐ์Šต์— ๊ฐ€์žฅ ์ž์ฃผ ์“ฐ์ด๋Š” ๋ฐ์ดํ„ฐ์…‹ ์ค‘ ํ•˜๋‚˜์ธ ํƒ€์ดํƒ€๋‹‰ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค์šด๋ฐ›์•„ ์ค๋‹ˆ๋‹น

 

 

 

 

์ €๋Š” ์•„๋‚˜์ฝ˜๋‹ค ์ฃผํ”ผํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค

 

 

 

 

1. ๋ฐ์ดํ„ฐ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ

import pandas as pd
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df.head()

df.head()๋Š” ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์˜ ๋งจ ์œ„์˜ N๊ฐœ์˜ ๋กœ์šฐ๋ฅผ ๋ฐ˜ํ™˜ํ•ด ์ค๋‹ˆ๋‹ค. 

๋””ํดํŠธ๋Š” 5๊ฐœ ์ด๋ฉฐ, df.head(3) ์„ ์ž…๋ ฅํ•ด์ฃผ๋ฉด 3๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ฐ˜ํ™˜ํ•ด ์ค๋‹ˆ๋‹ค.

 

head()ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜๋ฉด ๊ฐ„๋‹จํ•˜๊ฒŒ ์ „์ฒด์ ์ธ ๋ฐ์ดํ„ฐ์…‹์˜ ๊ตฌ์กฐ๋ฅผ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

2. ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„์˜ ํ–‰๊ณผ ์—ด ํฌ๊ธฐ ์•Œ์•„๋ณด๊ธฐ

titanic_df.shape

์ƒ์„ฑ๋œ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์€ 891๊ฐœ์˜ ํ–‰๊ณผ 12๊ฐœ์˜ ์—ด๋กœ ์ด๋ฃจ์–ด์ง„ ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

 

3. ๋ฐ์ดํ„ฐ์ •๋ณดํ™•์ธ(info())

titanic_df.info()

 

info()๋ฉ”์„œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ด ๋ฐ์ดํ„ฐ ์ˆ˜, ๋ฐ์ดํ„ฐ ํƒ€์ž…, NULL์ด ์•„๋‹Œ ๋ฐ์ดํ„ฐ ์ˆ˜๋ฅผ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

4. ๋ฐ์ดํ„ฐ ์ •๋ณด ํ™•์ธ(describe())

titanic_df.describe()

 

describe()๋ฉ”์„œ๋“œ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ปฌ๋Ÿผ๋ณ„๋กœ ๋ฐ์ดํ„ฐ์˜ n-percentile ๋ถ„ํฌ, ํ‰๊ท , ์ตœ๋Œ€, ์ตœ์†Ÿ๊ฐ’์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

์ˆซ์žํ˜• ์ปฌ๋Ÿผ๋งŒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, objectํƒ€์ž…์€ ์ถœ๋ ฅ์—์„œ ์ œ์™ธ์‹œํ‚ต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

 

5. ์ปฌ๋Ÿผ์˜ ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ํ™•์ธ

titanic_df['Pclass'].value_counts()

3์ด 491๊ฐœ, 1์ด 216๊ฐœ, 2๊ฐ€ 184๊ฐœ๋กœ ๊ตฌ์„ฑ

value_counts()๋Š” ๋งŽ์€ ๊ฑด์ˆ˜ ์ˆœ์„œ๋กœ ์ •๋ ฌ๋˜์–ด ๊ฐ’์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. 

DataFramed์˜ ์—ฐ์‚ฐ์ž []๋‚ด๋ถ€์— ์ปฌ๋Ÿผ๋ช…์„ ์ž…๋ ฅํ•˜๋ฉด, ํ•ด๋‹น ์ปฌ๋Ÿผ์— ํ•ด๋‹นํ•˜๋Š” Series ๊ฐ์ฒด๋ฅผ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค. 

 

 

๋Œ€๋žต์ ์œผ๋กœ ์ปฌ๋Ÿผ์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•œ์ชฝ์œผ๋กœ ์น˜์šฐ์ณ์ ธ์žˆ์ง€๋Š” ์•Š์€์ง€ ํ™•์ธํ•˜๊ณ  ์‹ถ์„ ๋•Œ ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. 

 

 

 

 

 

 

 

๋‹ค์Œ์—๋Š” ๋ฆฌ์ŠคํŠธ, ๋”•์…”๋„ˆ๋ฆฌ, ndarray๋ฅผ ๋ฐ์ดํ„ฐ ํ”„๋ ˆ์ž„์œผ๋กœ ๋ณ€๊ฒฝํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋Œ์•„์˜ค๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹น๋‹น!

728x90
Comments