250x250
Link
๋‚˜์˜ GitHub Contribution ๊ทธ๋ž˜ํ”„
Loading data ...
Notice
Recent Posts
Recent Comments
๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก๐Ÿ›  Machine Learning/๋ฐ์ดํ„ฐ ์ „์ฒ˜๋ฆฌ (4)

Data Science LAB

[๋จธ์‹ ๋Ÿฌ๋‹/ML] ๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•

๊ฒฐ์ธก์น˜ ์ฒ˜๋ฆฌ ๋ฐฉ๋ฒ•์€ ํฌ๊ฒŒ ๋‘๊ฐ€์ง€๋กœ ๋‚˜๋‰œ๋‹ค. 1. ์‚ญ์ œ(Delete) 2. ๋Œ€์ฒด, ๋ณด๊ฐ„(Imputation) 1. ์‚ญ์ œ(Deletion) ๋จผ์ € ๋ฐ์ดํ„ฐ๋ฅผ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ๋‹จ์ˆœํ•˜๊ฒŒ ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋Š” ํ–‰์ด๋‚˜ ์—ด์„ ์‚ญ์ œํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๊ฒฐ์ธก์น˜๊ฐ€ ์กด์žฌํ•˜๋Š” ์ „์ฒด ํ–‰์„ ์‚ญ์ œํ•œ๋‹ค. ๋ฐ์ดํ„ฐ์…‹์—์„œ ํ•ด๋‹น ์—ด์˜ 80% ์ด์ƒ์ด ๊ฒฐ์ธก์น˜๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์œผ๋ฉด ์ฃผ๋กœ ์‚ญ์ œํ•œ๋‹ค. 2. ๋ณด๊ฐ„(Imputation) 1. ๋‹จ์ˆœ๋Œ€์น˜(์ค‘์•™๊ฐ’, ํ‰๊ท ) : ๊ฒฐ์ธก์น˜๋ฅผ ํ•ด๋‹น ์—ด์˜ ํ‰๊ท ์ด๋‚˜ ์ค‘์•™๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. 2. ๋‹จ์ˆœ๋Œ€์น˜(์ตœ๋นˆ๊ฐ’) : ๊ฒฐ์ธก์น˜๋ฅผ ํ•ด๋‹น ์—ด์˜ ์ตœ๋นˆ๊ฐ’์œผ๋กœ ๋Œ€์ฒดํ•˜๋Š” ๋ฐฉ๋ฒ•์œผ๋กœ ๋ฒ”์ฃผํ˜• ๋ณ€์ˆ˜์—์„œ ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค. 3. KNN ์•Œ๊ณ ๋ฆฌ์ฆ˜(KNNImputer) : ๊ฒฐ์ธก์น˜์˜ ๊ฐ’์„ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ฐ’(feature similarity)๋ฅผ ์ ์šฉํ•˜์—ฌ ๋Œ€์ฒดํ•œ๋‹ค. ์ด..

[Python] OverSampling/UnderSampling

๋ ˆ์ด๋ธ”์˜ ๋ถ„ํฌ๊ฐ€ ๋ถˆ๊ท ํ˜•ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ ์˜ˆ์ธก ์„ฑ๋Šฅ์— ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š”๋ฐ, ์ด๋Š” ์ด์ƒ์น˜ ๋ ˆ์ด๋ธ”์ด ์ •์ƒ ๋ ˆ์ด๋ธ”์˜ ๋ฐ์ดํ„ฐ ๊ฑด์ˆ˜์— ๋น„ํ•ด ๋„ˆ๋ฌด ์ ๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋Š” ํ˜„์ƒ์ด๋‹ค. ์ฆ‰, ์ด์ƒ ๋ ˆ์ด๋ธ”์˜ ๋ฐ์ดํ„ฐ๋Š” ๋งค์šฐ ์ ๊ธฐ ๋•Œ๋ฌธ์— ๋‹ค์–‘ํ•œ ์œ ํ˜•์„ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋Š” ๋ฐ˜๋ฉด ์ •์ƒ ๋ ˆ์ด๋ธ”์˜ ๋ฐ์ดํ„ฐ ๊ฑด์ˆ˜๋Š” ๋งค์šฐ ๋งŽ์•„ ์ผ๋ฐฉ์ ์œผ๋กœ ์ •์ƒ ๋ ˆ์ด๋ธ”์— ์น˜์šฐ์นœ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•ด ์ œ๋Œ€๋กœ๋œ ์ด์ƒ ๋ฐ์ดํ„ฐ ๊ฒ€์ถœ์ด ์–ด๋ ค์›Œ์ง„๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์ ์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง/์–ธ๋”์ƒ˜ํ”Œ๋ง์˜ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค. OverSampling ์ด์ƒ์น˜ ๋ ˆ์ด๋ธ”๊ณผ ๊ฐ™์ด ์ ์€ ๋ฐ์ดํ„ฐ ์…‹์„ ์ฆ์‹ํ•˜์—ฌ ํ•™์Šต์— ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ํ™•๋ณดํ•˜๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค. ๋™์ผํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹จ์ˆœํžˆ ์ฆ์‹์‹œํ‚ค๋ฉด ๊ณผ์ ํ•ฉ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์—, ์›๋ณธ ๋ฐ์ดํ„ฐ์˜ ํ”ผ์ฒ˜ ๊ฐ’๋“ค์„ ์กฐ๊ธˆ์”ฉ ๋ณ€๊ฒฝํ•˜์—ฌ ์ฆ์‹ํ•œ๋‹ค. ๋Œ€ํ‘œ์ ์ธ ์˜ค๋ฒ„์ƒ˜ํ”Œ๋ง ..