์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- pandas
- DBSCAN
- ๋์ํ๋ณธ
- ํ ์คํธ๋ถ์
- Lambda
- ํ์ด์ฌ
- PCA
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ADsP
- ADP
- ๋น ๋ฐ์ดํฐ
- ๊ตฐ์งํ
- ์ธ๋์ํ๋ง
- opencv
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- Python
- dataframe
- ๋ ๋ฆฝํ๋ณธ
- iloc
- LDA
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ์๋ํด๋ผ์ฐ๋
- datascience
- ๋ฐ์ดํฐ๋ถ์
- numpy
- ์ฃผ์ฑ๋ถ๋ถ์
- t-test
- ํฌ๋กค๋ง
- ์ค๋ฒ์ํ๋ง
Data Science LAB
[Python] ํ๋ค์ค(Pandas)๊ธฐ์ด ๋ณธ๋ฌธ
์๋ ํ์ธ์(. โ แด โ.)!
์ค๋์ ๋ฐ์ดํฐ๋ถ์์ ๊ฐ์ฅ ๊ธฐ์ด ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ธ Pandas์ ๋ํด ๊ณต๋ถํด ๋ณด๋ ค๊ณ ํฉ๋๋น!
ํ๋ค์ค๋ ์ง๋๋ฒ์ ๊ณต๋ถํ๋ ๋ํ์ด์ ๋นํด ๋ฐ์ดํฐ ํธ๋ค๋ง์ด ํจ์ฌ ์ ์ฐํ๊ณ ์ฝ๋ค๋ ์ฅ์ ์ด ์๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ์ ๋๋ค.
๋ฐ์ดํฐ ๋ถ์์์ ๊ฐ์ฅ ์์ฃผ ์ฐ์ด๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ด๊ธฐ๋ ํฉ๋๋ค...ใ
ํ๋ค์ค์์ ๊ฐ์ฅ ์ค์ํ ๊ฒ์ DataFrame์ ๋๋ค.
๋ฐ์ดํฐ ํ๋ ์์ ํ๊ณผ ์ด๋ก ๊ตฌ์ฑ๋์ด ์๋ 2์ฐจ์์ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ผ๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
Series -> ์ปฌ๋ผ์ด ํ๋์ธ ๊ตฌ์กฐ์ฒด
DataFrame -> ์ปฌ๋ผ์ด ์ฌ๋ฌ๊ฐ์ธ ๊ตฌ์กฐ์ฒด
๋ผ๊ณ ์๊ฐํ์๋ฉด ๋ ๊ฑฐ ๊ฐ์ต๋๋น!
์ค๋์ ๋ฐ์ดํฐํ๋ ์ ํ์์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ค๊ณ , ํ๋ค์ค๋ฅผ ์ด์ฉํด ์์ฃผ ๊ธฐ์ด์ ์ธ ๋ถ์์ ํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค(โ'โก'โ)
๋จผ์ , ์บ๊ธ์์ ๋ฐ์ดํฐ ๋ถ์์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ๋ค์ด๋ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.
https://www.kaggle.com/c/titanic/data?select=train.csv
๋ฐ์ดํฐ๋ถ์ ์ฐ์ต์ ๊ฐ์ฅ ์์ฃผ ์ฐ์ด๋ ๋ฐ์ดํฐ์ ์ค ํ๋์ธ ํ์ดํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค์ด๋ฐ์ ์ค๋๋น
์ ๋ ์๋์ฝ๋ค ์ฃผํผํฐ๋ฅผ ์ฌ์ฉํ์ต๋๋ค
1. ๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
import pandas as pd
titanic_df = pd.read_csv('titanic_train.csv')
titanic_df.head()
df.head()๋ ๋ฐ์ดํฐํ๋ ์์ ๋งจ ์์ N๊ฐ์ ๋ก์ฐ๋ฅผ ๋ฐํํด ์ค๋๋ค.
๋ํดํธ๋ 5๊ฐ ์ด๋ฉฐ, df.head(3) ์ ์ ๋ ฅํด์ฃผ๋ฉด 3๊ฐ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐํํด ์ค๋๋ค.
head()ํจ์๋ฅผ ์ด์ฉํ๋ฉด ๊ฐ๋จํ๊ฒ ์ ์ฒด์ ์ธ ๋ฐ์ดํฐ์ ์ ๊ตฌ์กฐ๋ฅผ ํ์ธํ ์ ์์ต๋๋ค.
2. ๋ฐ์ดํฐํ๋ ์์ ํ๊ณผ ์ด ํฌ๊ธฐ ์์๋ณด๊ธฐ
titanic_df.shape
์์ฑ๋ ๋ฐ์ดํฐ ํ๋ ์์ 891๊ฐ์ ํ๊ณผ 12๊ฐ์ ์ด๋ก ์ด๋ฃจ์ด์ง ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
3. ๋ฐ์ดํฐ์ ๋ณดํ์ธ(info())
titanic_df.info()
info()๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ์ด ๋ฐ์ดํฐ ์, ๋ฐ์ดํฐ ํ์ , NULL์ด ์๋ ๋ฐ์ดํฐ ์๋ฅผ ์ ์ ์์ต๋๋ค.
4. ๋ฐ์ดํฐ ์ ๋ณด ํ์ธ(describe())
titanic_df.describe()
describe()๋ฉ์๋๋ฅผ ์ฌ์ฉํ๋ฉด ์ปฌ๋ผ๋ณ๋ก ๋ฐ์ดํฐ์ n-percentile ๋ถํฌ, ํ๊ท , ์ต๋, ์ต์๊ฐ์ ํ์ธํ ์ ์์ต๋๋ค.
์ซ์ํ ์ปฌ๋ผ๋ง์ ํ์ธํ ์ ์์ผ๋ฉฐ, objectํ์ ์ ์ถ๋ ฅ์์ ์ ์ธ์ํต๋๋ค.
5. ์ปฌ๋ผ์ ๋ฐ์ดํฐ ๋ถํฌ ํ์ธ
titanic_df['Pclass'].value_counts()
3์ด 491๊ฐ, 1์ด 216๊ฐ, 2๊ฐ 184๊ฐ๋ก ๊ตฌ์ฑ
value_counts()๋ ๋ง์ ๊ฑด์ ์์๋ก ์ ๋ ฌ๋์ด ๊ฐ์ ๋ฐํํฉ๋๋ค.
DataFramed์ ์ฐ์ฐ์ []๋ด๋ถ์ ์ปฌ๋ผ๋ช ์ ์ ๋ ฅํ๋ฉด, ํด๋น ์ปฌ๋ผ์ ํด๋นํ๋ Series ๊ฐ์ฒด๋ฅผ ๋ฐํํฉ๋๋ค.
๋๋ต์ ์ผ๋ก ์ปฌ๋ผ์ ๋ฐ์ดํฐ๊ฐ ํ์ชฝ์ผ๋ก ์น์ฐ์ณ์ ธ์์ง๋ ์์์ง ํ์ธํ๊ณ ์ถ์ ๋ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๋ค์์๋ ๋ฆฌ์คํธ, ๋์ ๋๋ฆฌ, ndarray๋ฅผ ๋ฐ์ดํฐ ํ๋ ์์ผ๋ก ๋ณ๊ฒฝํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋์์ค๋๋ก ํ๊ฒ ์ต๋๋น๋น!
'๐ Python > Pandas' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[python] df.columns.difference (0) | 2022.03.27 |
---|---|
[Python] ๋ฐ์ดํฐ ๊ฒฐ์ธก์น ์ฒ๋ฆฌ (0) | 2022.03.11 |
[Python] Apply lambda ์ ์ฉ (0) | 2022.03.10 |
[Python] loc/iloc ์ฐจ์ด์ (0) | 2022.03.10 |
[Python] ๋ฆฌ์คํธ, ๋์ ๋๋ฆฌ, array ๋ฐ์ดํฐํ๋ ์์ผ๋ก ๋ณํ (0) | 2022.02.16 |