์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ์ฃผ์ฑ๋ถ๋ถ์
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ๋ฐ์ดํฐ๋ถ์
- ๋ ๋ฆฝํ๋ณธ
- ํฌ๋กค๋ง
- Python
- DBSCAN
- ์๋ํด๋ผ์ฐ๋
- PCA
- ADsP
- iloc
- ADP
- dataframe
- LDA
- ์ธ๋์ํ๋ง
- numpy
- datascience
- t-test
- ๊ตฐ์งํ
- ๋์ํ๋ณธ
- ํ์ด์ฌ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ๋น ๋ฐ์ดํฐ
- pandas
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ํ ์คํธ๋ถ์
- ์ค๋ฒ์ํ๋ง
- Lambda
- opencv
๋ชฉ๋ก๐ Machine Learning/๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ (4)
Data Science LAB
1. ๋ชจ๋ ์ปฌ๋ผ์ ๊ฒฐ์ธก์น๋ฅผ ๊ฐ ์ปฌ๋ผ์ ์ค์๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ df.fillna(df.mean(numeric_only=True)) df.isna().sum().sum() # 0 2. ํน์ ์ปฌ๋ผ์ ๊ฒฐ์ธก์น๋ฅผ ๊ทธ ์ปฌ๋ผ์ ์ค์๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ df['col'].fillna(df['col'].median())
๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋๊ฐ์ง๋ก ๋๋๋ค. 1. ์ญ์ (Delete) 2. ๋์ฒด, ๋ณด๊ฐ(Imputation) 1. ์ญ์ (Deletion) ๋จผ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ ๋จ์ํ๊ฒ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ํ์ด๋ ์ด์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ์ ์ฒด ํ์ ์ญ์ ํ๋ค. ๋ฐ์ดํฐ์ ์์ ํด๋น ์ด์ 80% ์ด์์ด ๊ฒฐ์ธก์น๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉด ์ฃผ๋ก ์ญ์ ํ๋ค. 2. ๋ณด๊ฐ(Imputation) 1. ๋จ์๋์น(์ค์๊ฐ, ํ๊ท ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ํ๊ท ์ด๋ ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ด๋ค. 2. ๋จ์๋์น(์ต๋น๊ฐ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ์ต๋น๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ฒ์ฃผํ ๋ณ์์์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค. 3. KNN ์๊ณ ๋ฆฌ์ฆ(KNNImputer) : ๊ฒฐ์ธก์น์ ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ(feature similarity)๋ฅผ ์ ์ฉํ์ฌ ๋์ฒดํ๋ค. ์ด..
pandas - profiling์ ์ด์ฉํ๋ฉด EDA๋ฅผ ์ง์ ํ์ง ์์๋ ๋จ 1. pandas profiling ์ค์น >> pip install -U pandas-profiling 2. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ import pandas_profiling 3. ์คํ import pandas as pd from sklearn.datasets import load_iris import pandas_profiling from pandas_profiling import ProfileReport iris = load_iris() iris = pd.DataFrame(iris.data,columns=iris.feature_names) iris['class'] = load_iris().target iris['class'] = i..
๋ ์ด๋ธ์ ๋ถํฌ๊ฐ ๋ถ๊ท ํํ ๋ฐ์ดํฐ์ ์ ํ์ต์ํฌ ๋ ์์ธก ์ฑ๋ฅ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋๋ฐ, ์ด๋ ์ด์์น ๋ ์ด๋ธ์ด ์ ์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ๊ฑด์์ ๋นํด ๋๋ฌด ์ ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ํ์์ด๋ค. ์ฆ, ์ด์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ๋ ๋งค์ฐ ์ ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ ํ์ ํ์ตํ์ง ๋ชปํ๋ ๋ฐ๋ฉด ์ ์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ๊ฑด์๋ ๋งค์ฐ ๋ง์ ์ผ๋ฐฉ์ ์ผ๋ก ์ ์ ๋ ์ด๋ธ์ ์น์ฐ์น ํ์ต์ ์ํํด ์ ๋๋ก๋ ์ด์ ๋ฐ์ดํฐ ๊ฒ์ถ์ด ์ด๋ ค์์ง๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฒ์ํ๋ง/์ธ๋์ํ๋ง์ ๋ฐฉ๋ฒ์ด ์๋ค. OverSampling ์ด์์น ๋ ์ด๋ธ๊ณผ ๊ฐ์ด ์ ์ ๋ฐ์ดํฐ ์ ์ ์ฆ์ํ์ฌ ํ์ต์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋์ผํ ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ์ฆ์์ํค๋ฉด ๊ณผ์ ํฉ์ด ๋๊ธฐ ๋๋ฌธ์, ์๋ณธ ๋ฐ์ดํฐ์ ํผ์ฒ ๊ฐ๋ค์ ์กฐ๊ธ์ฉ ๋ณ๊ฒฝํ์ฌ ์ฆ์ํ๋ค. ๋ํ์ ์ธ ์ค๋ฒ์ํ๋ง ..