์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- ADP
- DBSCAN
- ํ์ด์ฌ
- ์๋ํด๋ผ์ฐ๋
- LDA
- ์ค๋ฒ์ํ๋ง
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- opencv
- ADsP
- t-test
- iloc
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ํ ์คํธ๋ถ์
- ํฌ๋กค๋ง
- ์ฃผ์ฑ๋ถ๋ถ์
- ๋์ํ๋ณธ
- numpy
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ์ธ๋์ํ๋ง
- PCA
- pandas
- ๊ตฐ์งํ
- Lambda
- datascience
- Python
- ๋ ๋ฆฝํ๋ณธ
- ๋ฐ์ดํฐ๋ถ์
- ๋น ๋ฐ์ดํฐ
- dataframe
๋ชฉ๋ก๐ Machine Learning (36)
Data Science LAB

2022.03.05 - [Python] PCA(Principal Component Analysis) [Python] PCA(Principal Component Analysis) PCA ๊ฐ์ PCA(Principal Component Analysis)๋ ๊ฐ์ฅ ๋ํ์ ์ธ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ผ๋ก ์ฌ๋ฌ ๋ณ์ ๊ฐ์ ์กด์ฌํ๋ ์๊ด๊ด๊ณ๋ฅผ ์ด์ฉํด ์ด๋ฅผ ๋ํํ๋ ์ฃผ์ฑ๋ถ(Principal Component)๋ฅผ ์ถ์ถํด ์ฐจ์์ ์ถ์ํ๋ ๊ธฐ๋ฒ์ด๋ค. suhye.tistory.com ์ง๋ ํฌ์คํ ์์ ๊ณต๋ถํ์๋ PCA๋ฅผ ๋ค๋ฅธ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ ์ค์ตํด ๋ณด๋ ค๊ณ ํ๋ค. ๋ฐ์ดํฐ์ ๋ค์ด๋ก๋ https://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients UCI Machine Lear..

PCA ๊ฐ์ PCA(Principal Component Analysis)๋ ๊ฐ์ฅ ๋ํ์ ์ธ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ผ๋ก ์ฌ๋ฌ ๋ณ์ ๊ฐ์ ์กด์ฌํ๋ ์๊ด๊ด๊ณ๋ฅผ ์ด์ฉํด ์ด๋ฅผ ๋ํํ๋ ์ฃผ์ฑ๋ถ(Principal Component)๋ฅผ ์ถ์ถํด ์ฐจ์์ ์ถ์ํ๋ ๊ธฐ๋ฒ์ด๋ค. PCA ์ฐจ์ ์ถ์๋ก ์ธํ ์ ๋ณด ์ ์ค์ ์ต์ํํ๊ธฐ ์ํด ๊ฐ์ฅ ๋์ ๋ถ์ฐ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ์ ์ถ์ ์ฐพ์ ์ด ์ถ์ผ๋ก ์ฐจ์์ ์ถ์ํ๋ค. ์ด๊ฒ์ด PCA์ ์ฃผ์ฑ๋ถ์ด ๋๋๋ฐ, ๋ถ์ฐ์ด ๋ฐ์ดํฐ์ ํน์ฑ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๊ฒ์ ์๋ฏธํ๋ค. ๋ฐ์ดํฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ์ดํ๋ฉด์ ์ ์ํ๊ณ , ์ด ์ดํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ํฌ์์ํค๋ ๊ฒ์ด๋ค. ํฌ์์์ผฐ์ ๋ ๋ฐ์ดํฐ์ ๊ณผ์ ํ๊ท ์ ๊ณฑ ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ์ฅ ์์ ์ดํ๋ฉด์ ์ฐพ๊ณ ํฌ์ ์ํค๋ ๊ณผ์ ์ ๊ทธ๋ฆผ์ ๋ํ๋ด์๋ค. PCA๋ ์ ์ผ ๋จผ์ ๊ฐ์ฅ ๋ฐ์ดํฐ ๋ณ๋์ฑ์ ๊ธฐ๋ฐ์ผ๋ก ์ฒซ ๋ฒ..

DBSCAN DBSCAN์ ๋ฐ๋ ๊ธฐ๋ฐ์ ๊ตฐ์งํ ๋ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๊ธฐํํ์ ์ผ๋ก ๋ณต์กํ ๊ฒฝ์ฐ์๋ ํจ๊ณผ์ ์ผ๋ก ๊ตฐ์งํํ ์ ์๋ค. ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ํ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋๋ ๊ฒฝ์ฐ, KMeans ๋ GMM์ ๊ตฐ์งํ๋ฅผ ์ ์ํํ์ง ๋ชปํ๋ค. ์ ์ค๋ก ์ฃผ๋ณ ์์ญ(epsilon) : ๊ฐ๋ณ ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ์ ์ค๋ก ๋ฐ๊ฒฝ์ ๊ฐ์ง๋ ์ํ์ ์์ญ ์ต์ ๋ฐ์ดํฐ ๊ฐ์(min points) : ๊ฐ๋ณ ๋ฐ์ดํฐ์ ์ฃผ๋ณ ์์ญ์ ํฌํจ๋๋ ํ ๋ฐ์ดํฐ์ ๊ฐ์ ์ ์ค๋ก ์ฃผ๋ณ ์์ญ ๋ด์ ํฌํจ๋๋ ์ต์ ๋ฐ์ดํฐ ๊ฐ์๋ฅผ ์ถฉ์กฑ์ํค๋๊ฐ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค. ํต์ฌ ํฌ์ธํธ(Core Point) : ์ฃผ๋ณ ์์ญ ๋ด์ ์ต์ ๋ฐ์ดํฐ ๊ฐ์ ์ด์์ ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฒฝ์ฐ, ํด๋น ๋ฐ์ดํฐ๋ฅผ ์๋ฏธ ..

GMM GMM ๊ตฐ์งํ๋ ๊ตฐ์งํ๋ฅผ ์ ์ฉํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๊ฐ์ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ ์งํฉ๋ค์ด ์์ฌ์ ์์ฑ๋ ๊ฒ์ด๋ผ๋ ๊ฐ์ ํ์ ๊ตฐ์งํ๋ฅผ ์ํํ๋ ๋ฐฉ์์ด๋ค. ๊ฐ์ฐ์์ ๋ถํฌ๋ ์ ๊ท ๋ถํฌ(Normal distribution)๋ผ๊ณ ๋ ํ๋ฉฐ, ์ข์ฐ ๋์นญํ์ ์ข ํํ์ด๋ค. GMM์ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ์ ์ ๊ท ๋ถํฌ๊ฐ ์์ธ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ์ฌ ์์ธ ๋ฐ์ดํฐ ๋ถํฌ์์ ๊ฐ๋ณ ์ ํ์ ์ ๊ท ๋ถํฌ๋ฅผ ์ถ์ถํ๋ค. ์ ์ฒด ๋ฐ์ดํฐ ์ ์ ์๋ก ๋ค๋ฅธ ์ ๊ท ๋ถํฌ ํํ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๊ฐ์ง ํ๋ฅ ๋ถํฌ ๊ณก์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ๊ฒ ์๋ก ๋ค๋ฅธ ์ ๊ท ๋ถํฌ์ ๊ธฐ๋ฐํ์ฌ ๊ตฐ์งํ๋ฅผ ์ํํ๋ ๊ฒ์ด GMM ๊ตฐ์งํ ๋ฐฉ์์ด๋ค. GMM์ ์ด์ฉํ iris ๋ฐ์ดํฐ์ ๊ตฐ์งํ from sklearn.datasets import load_iris from sklearn..

Mean Shift ํ๊ท ์ด๋(Mean Shift)์ KMeans์ ์ ์ฌํ๊ฒ ์ค์ฌ์ ๊ตฐ์ง์ ์ค์ฌ์ผ๋ก ์ง์์ ์ผ๋ก ์์ง์ด๋ฉด์ ๊ตฐ์งํ๋ฅผ ์ํํ๋ค. KMeans๋ ์ค์ฌ์ ์์๋ ๋ฐ์ดํฐ์ ํ๊ท ๊ฑฐ๋ฆฌ ์ค์ฌ์ผ๋ก ์ด๋ํ์ง๋ง, ํ๊ท ์ด๋์ ๋ฐ์ดํฐ๊ฐ ๋ชจ์ฌ ์๋ ๋ฐ๋๊ฐ ๊ฐ์ฅ ๋์ ๊ณณ์ผ๋ก ์ด๋์ํจ๋ค. ํ๊ท ์ด๋ ๊ตฐ์งํ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋๋ฅผ ์ด์ฉํ์ฌ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์ฐพ๋๋ค. ๊ตฐ์ง ์ค์ฌ์ ์ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ชจ์ฌ ์๋ ๊ณณ์ด๋ผ๋ ์๊ฐ์์ ์ฐฉ์ํ ๊ฒ์ด๋ฉฐ ์ด๋ฅผ ์ํด ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ด์ฉํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฃผ์ด์ง ๋ชจ๋ธ์ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ฐพ๊ธฐ ์ํด KDE(Kernel Density Estimation)๋ฅผ ์ด์ฉํ๋ค. ํน์ ๋ฐ์ดํฐ ๋ฐ๊ฒฝ ๋ด์ ๋ฐ์ดํฐ ๋ถํฌ ํ๋ฅ ๋ฐ๋๊ฐ ๊ฐ์ฅ ๋์ ๊ณณ์ผ๋ก ์ด๋ํ๊ธฐ ์ํด์ ์ฃผ๋ณ ๋ฐ์ดํฐ์์ ๊ฑฐ๋ฆฌ ๊ฐ์ KDE ํจ์์ ์ ..

Clustering Evaluation iris ๋ฐ์ดํฐ์ ์๋ ๊ฒฐ๊ณผ๊ฐ์ ํ์ข ์ ์๋ฏธํ๋ ํ๊น ๋ ์ด๋ธ์ด ์์ด ๊ตฐ์งํ๊ฐ ์ผ๋ง๋ ์ ์ด๋ฃจ์ด์ ธ ์๋ ์ง ํ๋จํ ์ ์์๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ ๊ตฐ์งํ ๋ฐ์ดํฐ์ ์๋ ํ๊น ๋ ์ด๋ธ์ด ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ ๋ด์ ์จ์ด ์๋ ๋ณ๋์ ๊ทธ๋ฃน์ ์ฐพ์ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๊ณ ๋, ๋์ผํ ๋ถ๋ฅ ๊ฐ์ ์ํ๋๋ผ๋ ๊ทธ ์์์ ๋ ์ธ๋ถํ๋ ๊ตฐ์งํ๋ฅผ ์ถ๊ตฌํ๊ฑฐ๋, ์๋ก ๋ค๋ฅธ ๋ถ๋ฅ๊ฐ์ ๋ฐ์ดํฐ๋ ๋ ๋์ ๊ตฐ์งํ ๋ ๋ฒจํ ๋ฑ์ ์์ญ์ ๊ฐ์ง๊ณ ์๋ค. ๋น์ง๋ํ์ต์ ํน์ฑ ์ ์ ํํ๊ฒ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ๋ ์ด๋ ต์ง๋ง, ๊ตฐ์งํ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฃจ์ฃ ๋ถ์์ ์ฌ์ฉํ๋ค. Silhouette analysis ์ค๋ฃจ์ฃ ๋ถ์์ด๋ ๊ฐ ๊ตฐ์ง ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ํจ์ก์ ์ผ๋ก ๋ถ๋ฆฌ๋์ด ์๋ ์ง๋ฅผ ๋ํ๋ธ๋ค. ํจ์จ์ ์ผ๋ก ๋ถ..