์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- pandas
- ์๋ํด๋ผ์ฐ๋
- ๊ตฐ์งํ
- ๋์ํ๋ณธ
- ํ ์คํธ๋ถ์
- PCA
- ADsP
- ๋ ๋ฆฝํ๋ณธ
- ํฌ๋กค๋ง
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- t-test
- DBSCAN
- ํ์ด์ฌ
- ADP
- ๋น ๋ฐ์ดํฐ
- datascience
- numpy
- ๋ฐ์ดํฐ๋ถ์
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ์ธ๋์ํ๋ง
- ์ฃผ์ฑ๋ถ๋ถ์
- ์ค๋ฒ์ํ๋ง
- opencv
- Lambda
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- LDA
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- iloc
- Python
- dataframe
๋ชฉ๋ก๐ Machine Learning/Clustering (5)
Data Science LAB
DBSCAN DBSCAN์ ๋ฐ๋ ๊ธฐ๋ฐ์ ๊ตฐ์งํ ๋ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๊ฐ๋จํ๊ณ ์ง๊ด์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ฐ์ดํฐ์ ๋ถํฌ๊ฐ ๊ธฐํํ์ ์ผ๋ก ๋ณต์กํ ๊ฒฝ์ฐ์๋ ํจ๊ณผ์ ์ผ๋ก ๊ตฐ์งํํ ์ ์๋ค. ์์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ์ํ์ ๋ฐ์ดํฐ ๋ถํฌ๋ฅผ ๋๋ ๊ฒฝ์ฐ, KMeans ๋ GMM์ ๊ตฐ์งํ๋ฅผ ์ ์ํํ์ง ๋ชปํ๋ค. ์ ์ค๋ก ์ฃผ๋ณ ์์ญ(epsilon) : ๊ฐ๋ณ ๋ฐ์ดํฐ๋ฅผ ์ค์ฌ์ผ๋ก ์ ์ค๋ก ๋ฐ๊ฒฝ์ ๊ฐ์ง๋ ์ํ์ ์์ญ ์ต์ ๋ฐ์ดํฐ ๊ฐ์(min points) : ๊ฐ๋ณ ๋ฐ์ดํฐ์ ์ฃผ๋ณ ์์ญ์ ํฌํจ๋๋ ํ ๋ฐ์ดํฐ์ ๊ฐ์ ์ ์ค๋ก ์ฃผ๋ณ ์์ญ ๋ด์ ํฌํจ๋๋ ์ต์ ๋ฐ์ดํฐ ๊ฐ์๋ฅผ ์ถฉ์กฑ์ํค๋๊ฐ์ ๋ฐ๋ผ ๋ฐ์ดํฐ ํฌ์ธํธ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค. ํต์ฌ ํฌ์ธํธ(Core Point) : ์ฃผ๋ณ ์์ญ ๋ด์ ์ต์ ๋ฐ์ดํฐ ๊ฐ์ ์ด์์ ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ง๊ณ ์์ ๊ฒฝ์ฐ, ํด๋น ๋ฐ์ดํฐ๋ฅผ ์๋ฏธ ..
GMM GMM ๊ตฐ์งํ๋ ๊ตฐ์งํ๋ฅผ ์ ์ฉํ๊ณ ์ ํ๋ ๋ฐ์ดํฐ๊ฐ ์ฌ๋ฌ ๊ฐ์ ๊ฐ์ฐ์์ ๋ถํฌ๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ ์งํฉ๋ค์ด ์์ฌ์ ์์ฑ๋ ๊ฒ์ด๋ผ๋ ๊ฐ์ ํ์ ๊ตฐ์งํ๋ฅผ ์ํํ๋ ๋ฐฉ์์ด๋ค. ๊ฐ์ฐ์์ ๋ถํฌ๋ ์ ๊ท ๋ถํฌ(Normal distribution)๋ผ๊ณ ๋ ํ๋ฉฐ, ์ข์ฐ ๋์นญํ์ ์ข ํํ์ด๋ค. GMM์ ๋ฐ์ดํฐ๋ฅผ ์ฌ๋ฌ๊ฐ์ ์ ๊ท ๋ถํฌ๊ฐ ์์ธ ๊ฒ์ผ๋ก ๊ฐ์ฃผํ์ฌ ์์ธ ๋ฐ์ดํฐ ๋ถํฌ์์ ๊ฐ๋ณ ์ ํ์ ์ ๊ท ๋ถํฌ๋ฅผ ์ถ์ถํ๋ค. ์ ์ฒด ๋ฐ์ดํฐ ์ ์ ์๋ก ๋ค๋ฅธ ์ ๊ท ๋ถํฌ ํํ๋ฅผ ๊ฐ์ง ์ฌ๋ฌ ๊ฐ์ง ํ๋ฅ ๋ถํฌ ๊ณก์ ์ผ๋ก ๊ตฌ์ฑ๋ ์ ์์ผ๋ฉฐ, ์ด๋ ๊ฒ ์๋ก ๋ค๋ฅธ ์ ๊ท ๋ถํฌ์ ๊ธฐ๋ฐํ์ฌ ๊ตฐ์งํ๋ฅผ ์ํํ๋ ๊ฒ์ด GMM ๊ตฐ์งํ ๋ฐฉ์์ด๋ค. GMM์ ์ด์ฉํ iris ๋ฐ์ดํฐ์ ๊ตฐ์งํ from sklearn.datasets import load_iris from sklearn..
Mean Shift ํ๊ท ์ด๋(Mean Shift)์ KMeans์ ์ ์ฌํ๊ฒ ์ค์ฌ์ ๊ตฐ์ง์ ์ค์ฌ์ผ๋ก ์ง์์ ์ผ๋ก ์์ง์ด๋ฉด์ ๊ตฐ์งํ๋ฅผ ์ํํ๋ค. KMeans๋ ์ค์ฌ์ ์์๋ ๋ฐ์ดํฐ์ ํ๊ท ๊ฑฐ๋ฆฌ ์ค์ฌ์ผ๋ก ์ด๋ํ์ง๋ง, ํ๊ท ์ด๋์ ๋ฐ์ดํฐ๊ฐ ๋ชจ์ฌ ์๋ ๋ฐ๋๊ฐ ๊ฐ์ฅ ๋์ ๊ณณ์ผ๋ก ์ด๋์ํจ๋ค. ํ๊ท ์ด๋ ๊ตฐ์งํ๋ ๋ฐ์ดํฐ์ ๋ถํฌ๋๋ฅผ ์ด์ฉํ์ฌ ๊ตฐ์ง์ ์ค์ฌ์ ์ ์ฐพ๋๋ค. ๊ตฐ์ง ์ค์ฌ์ ์ ๋ฐ์ดํฐ ํฌ์ธํธ๊ฐ ๋ชจ์ฌ ์๋ ๊ณณ์ด๋ผ๋ ์๊ฐ์์ ์ฐฉ์ํ ๊ฒ์ด๋ฉฐ ์ด๋ฅผ ์ํด ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ด์ฉํ๋ค. ์ผ๋ฐ์ ์ผ๋ก ์ฃผ์ด์ง ๋ชจ๋ธ์ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ฐพ๊ธฐ ์ํด KDE(Kernel Density Estimation)๋ฅผ ์ด์ฉํ๋ค. ํน์ ๋ฐ์ดํฐ ๋ฐ๊ฒฝ ๋ด์ ๋ฐ์ดํฐ ๋ถํฌ ํ๋ฅ ๋ฐ๋๊ฐ ๊ฐ์ฅ ๋์ ๊ณณ์ผ๋ก ์ด๋ํ๊ธฐ ์ํด์ ์ฃผ๋ณ ๋ฐ์ดํฐ์์ ๊ฑฐ๋ฆฌ ๊ฐ์ KDE ํจ์์ ์ ..
Clustering Evaluation iris ๋ฐ์ดํฐ์ ์๋ ๊ฒฐ๊ณผ๊ฐ์ ํ์ข ์ ์๋ฏธํ๋ ํ๊น ๋ ์ด๋ธ์ด ์์ด ๊ตฐ์งํ๊ฐ ์ผ๋ง๋ ์ ์ด๋ฃจ์ด์ ธ ์๋ ์ง ํ๋จํ ์ ์์๋ค. ํ์ง๋ง ๋๋ถ๋ถ์ ๊ตฐ์งํ ๋ฐ์ดํฐ์ ์๋ ํ๊น ๋ ์ด๋ธ์ด ์กด์ฌํ์ง ์๊ธฐ ๋๋ฌธ์, ๋ฐ์ดํฐ ๋ด์ ์จ์ด ์๋ ๋ณ๋์ ๊ทธ๋ฃน์ ์ฐพ์ ์๋ฏธ๋ฅผ ๋ถ์ฌํ๊ณ ๋, ๋์ผํ ๋ถ๋ฅ ๊ฐ์ ์ํ๋๋ผ๋ ๊ทธ ์์์ ๋ ์ธ๋ถํ๋ ๊ตฐ์งํ๋ฅผ ์ถ๊ตฌํ๊ฑฐ๋, ์๋ก ๋ค๋ฅธ ๋ถ๋ฅ๊ฐ์ ๋ฐ์ดํฐ๋ ๋ ๋์ ๊ตฐ์งํ ๋ ๋ฒจํ ๋ฑ์ ์์ญ์ ๊ฐ์ง๊ณ ์๋ค. ๋น์ง๋ํ์ต์ ํน์ฑ ์ ์ ํํ๊ฒ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ๋ ์ด๋ ต์ง๋ง, ๊ตฐ์งํ์ ์ฑ๋ฅ์ ํ๊ฐํ๋ ๋ํ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฃจ์ฃ ๋ถ์์ ์ฌ์ฉํ๋ค. Silhouette analysis ์ค๋ฃจ์ฃ ๋ถ์์ด๋ ๊ฐ ๊ตฐ์ง ๊ฐ์ ๊ฑฐ๋ฆฌ๊ฐ ์ผ๋ง๋ ํจ์ก์ ์ผ๋ก ๋ถ๋ฆฌ๋์ด ์๋ ์ง๋ฅผ ๋ํ๋ธ๋ค. ํจ์จ์ ์ผ๋ก ๋ถ..
KMeans Clustering์ด๋? ๊ฐ์ฅ ์์ฃผ ์ฌ์ฉ๋๋ ๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๋ฐ์ดํฐ์ ์ K๊ฐ์ ๊ตฐ์ง์ผ๋ก ๊ตฐ์งํํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์์์ ๊ตฐ์ง ์ค์ฌ์ ๊ฐ์(K)๋ฅผ ์ค์ ํ์ฌ ํด๋น ์ค์ฌ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ค. ๊ตฐ์ง ์ค์ฌ์ ์ ์ ํ๋ ๋ฐ์ดํฐ์ ํ๊ท ์ง์ ์ผ๋ก ์ด๋ํ๊ณ , ์ด๋๋ ์ค์ฌ์ ์์ ๋ค์ ๊ฐ๊น์ด ํฌ์ธํธ๋ฅผ ์ ํ, ๋ค์ ์ค์ฌ์ ์ ํ๊ท ์ง์ ์ผ๋ก ์ด๋ํ๋ ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ค. ๋์ด์ ์ค์ฌ์ ์ ์ด๋์ด ์์ ๋๊น์ง ๋ฐ๋ณต์ ๊ณ์ํ๋ค. KMeans Process 1. ๊ตฐ์งํ์ ๊ธฐ์ค์ด ๋๋ ์ค์ฌ์ ๊ตฌ์ฑํ๋ ค๋ ๊ตฐ์ง์ ๊ฐ์๋งํผ ์์์ ์์น์ ๊ฐ์ ธ๋ค ๋์ 2. ๊ฐ ๋ฐ์ดํฐ๋ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ณณ์ ์์นํ ์ค์ฌ์ ์ ์์ 3. ๊ฐ ๋ฐ์ดํฐ์ ์์์ด ๊ฒฐ์ ๋๋ฉด ๊ตฐ์ง ์ค์ฌ์ ์ ์์๋ ๋ฐ์ดํฐ์ ํ๊ท ์ค์ฌ์ผ๋ก ์ด๋ 4. ๋ฐ๋ ์ค์ฌ..