์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- datascience
- ํ ์คํธ๋ถ์
- opencv
- ํฌ๋กค๋ง
- ๋์ํ๋ณธ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- iloc
- Lambda
- numpy
- ์ฃผ์ฑ๋ถ๋ถ์
- ๋ ๋ฆฝํ๋ณธ
- DBSCAN
- dataframe
- t-test
- ํ์ด์ฌ
- ์๋ํด๋ผ์ฐ๋
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ๊ตฐ์งํ
- ์ธ๋์ํ๋ง
- ๋ฐ์ดํฐ๋ถ์
- ๋น ๋ฐ์ดํฐ
- LDA
- PCA
- pandas
- ADsP
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ADP
- ์ค๋ฒ์ํ๋ง
- Python
๋ชฉ๋ก๐ Python/Pandas (7)
Data Science LAB
Pandas ์์๋ ๊ธฐ๋ณธ ํจ์๋ก iterrows๋ฅผ ์ ๊ณตํ๋ค. iterrow๋ฅผ ํ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์ด์ ํ๋ํ๋ ์ฐธ์กฐํ ์ ์๋ค. for _, row in cutoff_dates.iterrows(): print(_) print(row) for๋ฌธ๊ณผ ํจ๊ป ์ฌ์ฉํ๋ฉด ๊ฐ ํ์ (index, row_series)๋ฅผ ์ฐจ๋ก๋๋ก ๋ฐํํ๋ค.
df.columns.difference๋ ์ฃผ๋ก ๋ณ์์ y๊ฐ์ ๋ถ๋ฆฌํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค. 1. ์๋ ๋ฐ์ดํฐ์ ์ ๋ณ์ ํ์ธ 2. ๋ ๋ฆฝ๋ณ์๋ก ์ฌ์ฉํ ๋ณ์๋ง ์ถ์ถ features = df.columns.difference(['price','CHAS']) ๋ณ์ 'price', 'CHAS'๊ฐ ์ฌ๋ผ์ง ๊ฒ์ ํ์ธํ ์ ์๋ค.
Pandas ์์๋ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ฒฐ์ธก์น(NA)๋ฅผ ์ฒ๋ฆฌํ ์ ์๋ค. ๊ฒฐ์ธก์น๋, ์ปฌ๋ผ์ ๊ฐ์ด ์๋ NULL ์ํ์ ๋ฐ์ดํฐ๋ฅผ ๋งํ๋ฉฐ, ๋ฐ์ดํฐ์ ์ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ์ ์ฉํ ๋ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ฉด ๋ฌธ์ ๊ฐ ๋ฐ์ํ๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๊ฐ์ผ๋ก ๋์ฒดํ๊ฑฐ๋ ์ญ์ ํด์ผํ๋ค. ๋ฐ์ดํฐ์ ๊ฒฐ์ธก ์ฌ๋ถ ํ์ธ import pandas as pd import numpy as np data = pd.read_csv("titanic_train.csv") data.head() ๋จผ์ , ์ ๋ช ํ ๋ถ๋ฅ ๋ฐ์ดํฐ์ ์ค ํ๋์ธ ํ์ดํ๋ ๋ฐ์ดํฐ์ ์ ๋ถ๋ฌ์จ๋ค. data.isna() isna()๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐ๊ฐ ๊ฒฐ์ธก์ธ์ง ์๋์ง์ ๋ํด True/False๋ก ๋ฐํํด์ค๋ค. True -> ๊ฒฐ์ธก False -> ๊ฒฐ์ธก X data.isna().sum() isna์ sum(..
Pandas์์ apply lambda๋ฅผ ์ ์ฉํ๋ฉด ์์ฝ๊ฒ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ ์ ์๋ค. def get_square(a): return a**2 print('3์ ์ ๊ณฑ : ',get_square(3)) ๋ณดํต ํจ์๋ฅผ ์์ฑํ ๋, def [ํจ์๋ช (์ธ์)]: return ๋ฐํ๊ฐ ์ผ๋ก ์์ฑํ์ง๋ง, lambda๋ฅผ ์ฌ์ฉํ๋ฉด ์์ฝ๊ฒ ํจ์๋ฅผ ์์ฑํ๊ณ ์ ์ฉํ ์ ์๋ค. lambda_square = lambda x: x**2 print("3์ ์ ๊ณฑ : ",lambda_square(3)) lambda๋ฅผ ์ด์ฉํ๋ฉด ํ์ค์ ์ฝ๋๋ก๋ ํจ์๋ฅผ ์์ฑํ ์ ์๋ค. : ๋ก ๋ฐํ๋ ์ ๋ ฅ ์ธ์์ ๊ณ์ฐ์์ ๋ถ๋ฆฌํ๋ค. :์ ์ผ์ชฝ์ ์๋ x๋ ์ ๋ ฅ์ธ์์ด๋ฉฐ, ์ค๋ฅธ์ชฝ์ ์ ๋ ฅ์ธ์์ ๊ณ์ฐ์์ด๋ค. a = [1,2,3] squares = map(lambda x ..
Pandas๋ฅผ ์ด์ฉํด์ ๋ฐ์ดํฐ๋ฅผ ์ ํํ ๋, iloc๊ณผ loc์ ์์ฃผ ์ฌ์ฉํ๊ฒ ๋๋๋ฐ, ๊ฐ๋ ํท๊ฐ๋ ค์ ๋ ์ฐ์ฐ์์ ๋ํด ํฌ์คํ ํด๋ณด๋ ค๊ณ ํ๋ค! ์์น ๊ธฐ๋ฐ ์ธ๋ฑ์ฑ ์์น ๊ธฐ๋ฐ ์ธ๋ฑ์ฑ์ 0์ ์ถ๋ฐ์ ์ผ๋ก ํ๋ ๊ฐ๋ก, ์ธ๋ก์ถ ์ขํ ๊ธฐ๋ฐ์ ํ๊ณผ ์ด์์น๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ง์ ํ๋ค. ๋ฐ๋ผ์ ํ, ์ด ๊ฐ์ผ๋ก ์ ์๊ฐ ์ ๋ ฅ๋๋ฉฐ, iloc[] ์ฐ์ฐ์๋ ์์น ๊ธฐ๋ฐ ์ธ๋ฑ์ฑ์ ํด๋นํ๋ค. iloc[]์ ํ๊ณผ ์ด ๊ฐ์ผ๋ก integer ๋๋ integerํ์ ์ฌ๋ผ์ด์ฑ, ํฌ์ ๋ฆฌ์คํธ ๊ฐ์ ์ ๋ ฅํด์ค์ผ ํ๋ค. ๋จผ์ , ์ฐ์ต์ฉ์ผ๋ก ๋ฐ์ดํฐํ๋ ์์ ํ๋ ์์ฑํด์ค๋๋ค. import pandas as pd data = {'Name' : ['Red','Blue','Yellow','Green'], 'Year' : [2020,2021,2022,2023],..
์๋ ํ์ธ์! ์ค๋์ ์ง๋ ํฌ์คํ ์ ์ด์ด์ Pandas๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ด์ฉํด list, dictionary, arrayํ์์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ดํฐํ๋ ์ํ์์ผ๋ก ๋ณํํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. (เธ •_•)เธ ๋จผ์ , ๊ฐ๋จํ๊ฒ ๋ฆฌ์คํธ์ array๋ฅผ ์์ฑํด ๋ด ๋๋ค. import pandas as pd import numpy as np col_name1 = ['col1'] list1 = [1,2,3] array1 = np.array(list1) print('array1 shape: ',array1.shape) array๋ 1์ฐจ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ ๋ฐ์ดํฐ์ด๋ฉฐ 3๊ฐ์ ๋ก์ฐ๊ฐ ์๋ ๋ฆฌ์คํธ๊ฐ ์์ฑ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ๋ฆฌ์คํธ -> ๋ฐ์ดํฐํ๋ ์ pd.DataFrame(๋ฆฌ์คํธ์ด๋ฆ,์ปฌ๋ผ๋ช ) ์ ์ด์ฉํด ๋ฐ์ดํฐํ๋ ์ ํ์์ผ๋ก ๋ฐ๊ฟ ์ค๋๋ค..