์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- ํ ์คํธ๋ถ์
- ๋น ๋ฐ์ดํฐ
- ๊ตฐ์งํ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- LDA
- iloc
- ํฌ๋กค๋ง
- ์ค๋ฒ์ํ๋ง
- ADP
- ์๋ํด๋ผ์ฐ๋
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ์ธ๋์ํ๋ง
- ๋์ํ๋ณธ
- opencv
- ํ์ด์ฌ
- Lambda
- datascience
- Python
- ๋ ๋ฆฝํ๋ณธ
- ADsP
- dataframe
- PCA
- pandas
- t-test
- ์ฃผ์ฑ๋ถ๋ถ์
- numpy
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- DBSCAN
- ๋ฐ์ดํฐ๋ถ์
- ๋ฐ์ดํฐ๋ถ๊ท ํ
Data Science LAB
[๋จธ์ ๋ฌ๋/ML] ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ ๋ณธ๋ฌธ
[๋จธ์ ๋ฌ๋/ML] ๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
ใ ใ ใ ใ 2022. 6. 4. 15:27๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋๊ฐ์ง๋ก ๋๋๋ค.
1. ์ญ์ (Delete)
2. ๋์ฒด, ๋ณด๊ฐ(Imputation)
1. ์ญ์ (Deletion)
๋จผ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ ๋จ์ํ๊ฒ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ํ์ด๋ ์ด์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค.
๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ์ ์ฒด ํ์ ์ญ์ ํ๋ค.
๋ฐ์ดํฐ์ ์์ ํด๋น ์ด์ 80% ์ด์์ด ๊ฒฐ์ธก์น๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉด ์ฃผ๋ก ์ญ์ ํ๋ค.
2. ๋ณด๊ฐ(Imputation)
1. ๋จ์๋์น(์ค์๊ฐ, ํ๊ท ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ํ๊ท ์ด๋ ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ด๋ค.
2. ๋จ์๋์น(์ต๋น๊ฐ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ์ต๋น๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ฒ์ฃผํ ๋ณ์์์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค.
3. KNN ์๊ณ ๋ฆฌ์ฆ(KNNImputer) : ๊ฒฐ์ธก์น์ ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ(feature similarity)๋ฅผ ์ ์ฉํ์ฌ ๋์ฒดํ๋ค. ์ด์์น์ ๋ฏผ๊ฐํ๋ค๋ ๋จ์ ์ด ์กด์ฌํ๋ค.
4. Hot-deck imputation : ๋ค๋ฅธ ๋ณ์์์ ๋น์ทํ ๊ฐ์ ๊ฐ๋ ๋ฐ์ดํฐ์ค ํ๋๋ฅผ ๋๋ค ์ํ๋งํ์ฌ ๊ทธ ๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๊ฒฐ์ธก๊ฐ์ด ์กด์ฌํ๋ ๋ณ์๊ฐ ๊ฐ์ง์ ์๋ ๊ฐ์ ๋ฒ์๊ฐ ํ์ ๋์ด ์์๋ ์ ๋ฆฌํ๋ค. ๋ํ ๋๋คํ๊ฒ ๊ฐ์ ธ์จ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋ณ๋์ฑ์ ๋ํด ํ์ค์ค์ฐจ์ ์ ํ๋๊ฐ ์กฐ๊ธ ๋์์ง ์ ์๋ค.
5. Cold deck imputation : Hot-deck๊ณผ ์ ์ฌํ๊ฒ ๋ค๋ฅธ ๋ณ์์์ ๋น์ทํ ๊ฐ์ ๊ฐ๋ ๋ฐ์ดํฐ ์ค ํ๋๋ฅผ ์ ํํ์ฌ ๊ทธ ๊ฐ์ผ๋ก ๊ฒฐ์ธก์น๋ฅผ ๋์ฒดํ๋ค. ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ ๊ณผ์ ์์ ๋๋คํ๊ฒ ์ ํํ๋ ๊ฒ์ด ์๋๋ผ ์ด๋ค ๊ท์น์ ๊ฐ์ง๊ณ ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ค๋ ์ ์ด Hot-deck๊ณผ๋ ๋ค๋ฅด๋ค. ๋ฐ๋ผ์ random variation์ด ์ฌ๋ผ์ง๋ค.
6. Regression imputation : ํ๊ท๋ถ์์ ํตํด ๊ฒฐ์ธก๊ฐ์ ์์ธกํ์ฌ ๋์ฒดํ๋ค.
5. MICE(Multivariate Imputation by Chained Equation) : ๊ฒฐ์ธก์น๋ฅผ ์ฌ๋ฌ๋ฒ ๋์ฒดํ์ฌ ๋ถํ์ค์ฑ์ ์ฒดํฌํ๋ฉฐ ๊ฒฐ์ธก์น๋ฅผ ๋์ฒดํ๋ค.
๋
๊ฐ ๋ฐฉ๋ฒ์ ๋ํ ์์ธํ ์ฌ์ฉ๋ฐฉ๋ฒ์ ๋์ค์,,,
'๐ Machine Learning > ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python] ๊ฒฐ์ธก์น ์ค์๊ฐ์ผ๋ก ์ฑ์ฐ๊ธฐ (0) | 2022.09.17 |
---|---|
[Python] ๋ฐ์ดํฐ EDA๋ฅผ ํ๋ฒ์ ํ๋ ๋ฐฉ๋ฒ(pandas profiling) (0) | 2022.04.06 |
[Python] OverSampling/UnderSampling (0) | 2022.03.14 |