250x250
Link
๋‚˜์˜ GitHub Contribution ๊ทธ๋ž˜ํ”„
Loading data ...
Notice
Recent Posts
Recent Comments
๊ด€๋ฆฌ ๋ฉ”๋‰ด

Data Science LAB

[๋จธ์‹ ๋Ÿฌ๋‹/ML] ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ• ๋ณธ๋ฌธ

๐Ÿ›  Machine Learning/๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ

[๋จธ์‹ ๋Ÿฌ๋‹/ML] ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

ใ…… ใ…œ ใ…” ใ…‡ 2022. 6. 4. 15:27
728x90

๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ ๋‘๊ฐ€์ง€๋กœ ๋‚˜๋‰œ๋‹ค. 

1. ์‚ญ์ œ(Delete)

2. ๋Œ€์ฒด, ๋ณด๊ฐ„(Imputation)

 

 

1. ์‚ญ์ œ(Deletion)

๋จผ์ € ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹จ์ˆœํ•˜๊ฒŒ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋Š” ํ–‰์ด๋‚˜ ์—ด์„ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 

๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋Š” ์ „์ฒด ํ–‰์„ ์‚ญ์ œํ•œ๋‹ค. 

๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•ด๋‹น ์—ด์˜ 80% ์ด์ƒ์ด ๊ฒฐ์ธก์น˜๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉด ์ฃผ๋กœ ์‚ญ์ œํ•œ๋‹ค. 

 

 

2. ๋ณด๊ฐ„(Imputation)

1. ๋‹จ์ˆœ๋Œ€์น˜(์ค‘์•™๊ฐ’, ํ‰๊ท ) : ๊ฒฐ์ธก์น˜๋ฅผ ํ•ด๋‹น ์—ด์˜ ํ‰๊ท ์ด๋‚˜ ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 

2. ๋‹จ์ˆœ๋Œ€์น˜(์ตœ๋นˆ๊ฐ’) : ๊ฒฐ์ธก์น˜๋ฅผ ํ•ด๋‹น ์—ด์˜ ์ตœ๋นˆ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. 

3. KNN ์•Œ๊ณ ๋ฆฌ์ฆ˜(KNNImputer) : ๊ฒฐ์ธก์น˜์˜ ๊ฐ’์„ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฐ’(feature similarity)๋ฅผ ์ ์šฉํ•˜์—ฌ ๋Œ€์ฒดํ•œ๋‹ค. ์ด์ƒ์น˜์— ๋ฏผ๊ฐํ•˜๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌํ•œ๋‹ค. 

4. Hot-deck imputation : ๋‹ค๋ฅธ ๋ณ€์ˆ˜์—์„œ ๋น„์Šทํ•œ ๊ฐ’์„ ๊ฐ–๋Š” ๋ฐ์ดํ„ฐ์ค‘ ํ•˜๋‚˜๋ฅผ ๋žœ๋ค ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๊ทธ ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฒฐ์ธก๊ฐ’์ด ์กด์žฌํ•˜๋Š” ๋ณ€์ˆ˜๊ฐ€ ๊ฐ€์งˆ์ˆ˜ ์žˆ๋Š” ๊ฐ’์˜ ๋ฒ”์œ„๊ฐ€ ํ•œ์ •๋˜์–ด ์žˆ์„๋•Œ ์œ ๋ฆฌํ•˜๋‹ค. ๋˜ํ•œ ๋žœ๋คํ•˜๊ฒŒ ๊ฐ€์ ธ์˜จ ๊ฐ’์ด๊ธฐ ๋•Œ๋ฌธ์— ๋ณ€๋™์„ฑ์„ ๋”ํ•ด ํ‘œ์ค€์˜ค์ฐจ์˜ ์ •ํ™•๋„๊ฐ€ ์กฐ๊ธˆ ๋†’์•„์งˆ ์ˆ˜ ์žˆ๋‹ค. 

5. Cold deck imputation : Hot-deck๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ๋‹ค๋ฅธ ๋ณ€์ˆ˜์—์„œ ๋น„์Šทํ•œ ๊ฐ’์„ ๊ฐ–๋Š” ๋ฐ์ดํ„ฐ ์ค‘ ํ•˜๋‚˜๋ฅผ ์„ ํƒํ•˜์—ฌ ๊ทธ ๊ฐ’์œผ๋กœ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒดํ•œ๋‹ค. ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•˜๋Š” ๊ณผ์ •์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์–ด๋–ค ๊ทœ์น™์„ ๊ฐ€์ง€๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•œ๋‹ค๋Š” ์ ์ด Hot-deck๊ณผ๋Š” ๋‹ค๋ฅด๋‹ค. ๋”ฐ๋ผ์„œ random variation์ด ์‚ฌ๋ผ์ง„๋‹ค. 

6. Regression imputation : ํšŒ๊ท€๋ถ„์„์„ ํ†ตํ•ด ๊ฒฐ์ธก๊ฐ’์„ ์˜ˆ์ธกํ•˜์—ฌ ๋Œ€์ฒดํ•œ๋‹ค. 

5. MICE(Multivariate Imputation by Chained Equation) : ๊ฒฐ์ธก์น˜๋ฅผ ์—ฌ๋Ÿฌ๋ฒˆ ๋Œ€์ฒดํ•˜์—ฌ ๋ถˆํ™•์‹ค์„ฑ์„ ์ฒดํฌํ•˜๋ฉฐ ๊ฒฐ์ธก์น˜๋ฅผ ๋Œ€์ฒดํ•œ๋‹ค. 

 

๋

๊ฐ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•œ ์ž์„ธํ•œ ์‚ฌ์šฉ๋ฐฉ๋ฒ•์€ ๋‚˜์ค‘์—,,,

728x90
Comments