์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- ๋ฐ์ดํฐ๋ถ์
- pandas
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- Lambda
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- dataframe
- ๋ ๋ฆฝํ๋ณธ
- ํ์ด์ฌ
- ADP
- iloc
- ๊ตฐ์งํ
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- PCA
- opencv
- ์ฃผ์ฑ๋ถ๋ถ์
- Python
- ์ค๋ฒ์ํ๋ง
- t-test
- ๋น ๋ฐ์ดํฐ
- LDA
- ์ธ๋์ํ๋ง
- ํฌ๋กค๋ง
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ๋์ํ๋ณธ
- datascience
- DBSCAN
- numpy
- ADsP
- ํ ์คํธ๋ถ์
- ์๋ํด๋ผ์ฐ๋
๋ชฉ๋ก๐ Machine Learning (36)
Data Science LAB

๋ ์ด๋ธ์ ๋ถํฌ๊ฐ ๋ถ๊ท ํํ ๋ฐ์ดํฐ์ ์ ํ์ต์ํฌ ๋ ์์ธก ์ฑ๋ฅ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์๋๋ฐ, ์ด๋ ์ด์์น ๋ ์ด๋ธ์ด ์ ์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ๊ฑด์์ ๋นํด ๋๋ฌด ์ ๊ธฐ ๋๋ฌธ์ ๋ฐ์ํ๋ ํ์์ด๋ค. ์ฆ, ์ด์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ๋ ๋งค์ฐ ์ ๊ธฐ ๋๋ฌธ์ ๋ค์ํ ์ ํ์ ํ์ตํ์ง ๋ชปํ๋ ๋ฐ๋ฉด ์ ์ ๋ ์ด๋ธ์ ๋ฐ์ดํฐ ๊ฑด์๋ ๋งค์ฐ ๋ง์ ์ผ๋ฐฉ์ ์ผ๋ก ์ ์ ๋ ์ด๋ธ์ ์น์ฐ์น ํ์ต์ ์ํํด ์ ๋๋ก๋ ์ด์ ๋ฐ์ดํฐ ๊ฒ์ถ์ด ์ด๋ ค์์ง๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก ์ค๋ฒ์ํ๋ง/์ธ๋์ํ๋ง์ ๋ฐฉ๋ฒ์ด ์๋ค. OverSampling ์ด์์น ๋ ์ด๋ธ๊ณผ ๊ฐ์ด ์ ์ ๋ฐ์ดํฐ ์ ์ ์ฆ์ํ์ฌ ํ์ต์ ํ์ํ ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋์ผํ ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ ์ฆ์์ํค๋ฉด ๊ณผ์ ํฉ์ด ๋๊ธฐ ๋๋ฌธ์, ์๋ณธ ๋ฐ์ดํฐ์ ํผ์ฒ ๊ฐ๋ค์ ์กฐ๊ธ์ฉ ๋ณ๊ฒฝํ์ฌ ์ฆ์ํ๋ค. ๋ํ์ ์ธ ์ค๋ฒ์ํ๋ง ..

์๋ ํ์ธ์! ์ค๋์ Python์ ์ด์ฉํ์ฌ ๊ธฐ์ด ํต๊ณ๋์ ๊ตฌํ๋ ๋ฐฉ๋ฒ์ ๋ํด์ ํฌ์คํ ํด๋ณด๋ ค๊ณ ํฉ๋๋ค! ์ค์ฌ ํต๊ณ๋ : ๋ฐ์ดํฐ์ ์ค์ฌ ๊ฒฝํฅ์ ๋ํ๋ด๋ ์์น import numpy as np from scipy import stats x = [1,3,5,7,9] - ํ๊ท np.mean(x) - ์ค์๊ฐ np.median(x) - ์ต๋น๊ฐ stats.mode(x) ๋ณ๋ ํต๊ณ๋ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ ๋ํ๋ - ๋ฒ์ np.max(x) - np.min(x) - ํธ์ฐจ ๋ฐ ๋ณ๋ deviation = x - np.mean(x) variation = sum(deviation**2) variation - ๋ถ์ฐ np.var(x) - ํ์คํธ์ฐจ np.std(x) - ์ฌ๋ถ์์ #์ 1 ์ฌ๋ถ์์ np.quantile(x,0.25) ํํ ํต..

๊ทธ ๋์ ๋จธ์ ๋ฌ๋์ ๊ณต๋ถํ๋ฉด์ ์ถ์ฒ ์์คํ ์ ๋ํ ๊ณต๋ถ๋ ํ์ง ์์์๋๋ฐ ์ด๋ฒ ๊ธฐํ์ ๊ณต๋ถํด๋ณด๋ ค๊ณ ํ๋ค..!์ฒ์ ์ ํ๋ ๊ฑฐ๋ผ ์ ๊ธฐํ๊ธฐ๋ ํ๊ณ , ์ ํ๋ธ๋ ๋ทํ๋ฆญ์ค ๋ฑ๋ฑ ์ฌ๋ฌ ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ๋ค์ ๋ํด ๊ถ๊ธํ๊ฒ ๋ง์๋๋ฐ ์ฐจ๊ทผ์ฐจ๊ทผ ๊ณต๋ถํด๋ณด๋ ค๊ณ ํ๋ค...! ์ถ์ฒ ์์คํ ์ด๋? ์ถ์ฒ ์์คํ (ๆจ่ฆsystem)์ ์ ๋ณด ํํฐ๋ง (IF) ๊ธฐ์ ์ ์ผ์ข ์ผ๋ก, ํน์ ์ฌ์ฉ์๊ฐ ๊ด์ฌ์ ๊ฐ์ง๋งํ ์ ๋ณด (์ํ, ์์ , ์ฑ , ๋ด์ค, ์ด๋ฏธ์ง, ์น ํ์ด์ง ๋ฑ)๋ฅผ ์ถ์ฒํ๋ ๊ฒ์ด๋ค. ์ถ์ฒ ์์คํ ์๋ ํ์ ํํฐ๋ง ๊ธฐ๋ฒ์ ์ฃผ๋ก ์ฌ์ฉํ๋ค. ์์ ๋ถ๋งํฌ ์ฌ์ดํธ์์ ๋งํฌ๋ฅผ ์ฌ๋๋ค์๊ฒ ์ถ์ฒํ๊ณ ๋ฌด๋น๋ ์ฆ ๋ฐ์ดํฐ ์ธํธ์์ ์ํ๋ฅผ ์ถ์ฒํ๋ ๋ฐฉ๋ฒ๋ฑ์ด ์ด์ ์ํ๋ค. ์ ๋ณด ํํฐ๋ง ๋ง๋ค๊ธฐ - ์ํค๋ฐฑ๊ณผ, ์ฐ๋ฆฌ ๋ชจ๋์ ๋ฐฑ๊ณผ์ฌ์ ํธ์ง๊ธฐ๊ฐ ์ง๊ธ ๋ก๋๋ฉ๋๋ค. ๋ช ์ด ํ์๋ ์ด..

NMF ๊ฐ์ NMF๋ Truncated SVD์ ๊ฐ์ด ๋ฎ์ ๋ญํฌ๋ฅผ ํตํ ํ๋ ฌ ๊ทผ์ฌ ๋ฐฉ์์ ๋ณํ์ด๋ค. NMF๋ ์๋ณธ ํ๋ ฌ ๋ด์ ๋ชจ๋ ์์ ๊ฐ์ด ๋ชจ๋ 0 ์ด์์ด๋ผ๋๊ฒ ๋ณด์ฅ๋๋ฉด ์ข ๋ ๊ฐ๋จํ๊ฒ ๋ ๊ฐ์ ์์ ํ๋ ฌ๋ก ๋ถํด๋ ์ ์๋ ๊ธฐ๋ฒ์ ์ง์นญํ๋ค. 4×6 ์๋ณธ ํ๋ ฌ V๋ 4×2 ํ๋ ฌ W์ 2×6ํ๋ ฌ H๋ก ๊ทผ์ฌํด ๋ถํด๋ ์ ์๋ค. ํ๋ ฌ ๋ถํด(Matrix Factorization)๋ ์ผ๋ฐ์ ์ผ๋ก SVD์ ๊ฐ์ ํ๋ ฌ ๋ถํด ๊ธฐ๋ฒ์ ํต์นญํ๋ค. ์ด์ฒ๋ผ ํ๋ ฌ ๋ถํด๋ฅผ ํ๊ฒ ๋๋ฉด W์ Hํ๋ ฌ์ ๊ธธ๊ณ ๊ฐ๋ ํ๋ ฌW์ ์๊ณ ๋์ ํ๋ ฌ H๋ก ๋ถํด๋๋ค. ๋ถํด๋ ํ๋ ฌ์ ์ ์ฌ ์์๋ฅผ ํน์ฑ์ผ๋ก ๊ฐ์ง๊ฒ ๋๋๋ฐ, ๋ถํด ํ๋ ฌ W๋ ์๋ณธ ํ์ ๋ํด ์ด ์ ์ฌ ์์์ ๊ฐ์ด ์ผ๋ง๋ ๋๋์ง์ ๋์ํ๋ฉฐ, ๋ถํด ํ๋ ฌ H๋ ์ด ์ ์ฌ ์์๊ฐ ์๋ณธ ์ด๋ก ์ด๋ป๊ฒ ๊ตฌ..

SVD ๊ฐ์ SVD๋ PCA์ ๋น์ทํ๊ฒ ํ๋ ฌ ๋ถํด ๊ธฐ๋ฒ์ ์ด์ฉํ์ง๋ง, PCA๋ ์ ๋ฐฉํ๋ ฌ๋ง์ ๊ณ ์ ๋ฒกํฐ๋ก ๋ถํดํ๋ ๋ฐ๋ฉด, SVD๋ ํ๊ณผ ์ด์ด ๋ค๋ฅธ ๋ชจ๋ ํ๋ ฌ์ ์ ์ฉํ ์ ์๋ค. ์ผ๋ฐ์ ์ผ๋ก, SVD๋ m×n ํฌ๊ธฐ์ ํ๋ ฌ A๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ๋ถํดํ๋ ๊ฒ์ ์๋ฏธํ๋ค. SVD๋ ํน์ด๊ฐ ๋ถํด๋ผ๊ณ ๋ ๋ถ๋ฆฌ๋ฉฐ, ํ๋ ฌ U์ V์ ์ํ๋ ๋ฒกํฐ๋ ํน์ด๋ฒกํฐ์ด๋ค. ๋ชจ๋ ํน์ด๋ฒกํฐ๋ ์๋กํ๋ ์ฑ์ง์ ๊ฐ์ง๋ค. U : m×m ํฌ๊ธฐ์ ํ๋ ฌ, ์ญํ๋ ฌ์ด ๋์นญ ํ๋ ฌ ∑ : m×n ํฌ๊ธฐ์ ํ๋ ฌ, ๋น๋๊ฐ ์ฑ๋ถ์ด 0 V : n×nํฌ๊ธฐ์ ํ๋ ฌ, ์ญํ๋ ฌ์ด ๋์นญ V,U๋ ์ง๊ตํ๋ ฌ ๋๋คํ๋ ฌ ์์ฑ import numpy as np from numpy.linalg import svd np.random.seed(121) a = np.random.randn(4,4..

LDA ๊ฐ์ LDA๋ ์ ํ ํ๋ณ ๋ถ์๋ฒ์ผ๋ก, PCA์ ๋งค์ฐ ์ ์ฌํ๊ฒ ์ ๋ ฅ ๋ฐ์ดํฐ์ ์ ์ ์ฐจ์ ๊ณต๊ฐ์ ํฌ์ฌํด ์ฐจ์์ ์ถ์ํ๋ ๊ธฐ๋ฒ์ด๋ค. PCA์์ ์ฐจ์ด๋ LDA๋ ์ง๋ํ์ต์ ๋ถ๋ฅ์์ ์ฌ์ฉํ๊ธฐ ์ฝ๋๋ก ๊ฐ๋ณ ํด๋์ค๋ฅผ ๋ถ๋ณํ ์ ์๋ ๊ธฐ์ค์ ์ต๋ํ ์ ์งํ๋ฉด์ ์ฐจ์์ ์ถ์ํ๋ค. ๋ฐ๋ฉด PCA๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ ๊ฐ์ฅ ํฐ ์ถ์ ์ฐพ์์ง๋ง, LDA๋ ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ฒฐ์ ๊ฐ ํด๋์ค๋ฅผ ์ต๋ํ์ผ๋ก ๋ถ๋ฆฌํ ์ ์๋ ์ถ์ ์ฐพ๋๋ค. #์ฐธ๊ณ 2022.03.05 - [Python] PCA(Principal Component Analysis) [Python] PCA(Principal Component Analysis) PCA ๊ฐ์ PCA(Principal Component Analysis)๋ ๊ฐ์ฅ ๋ํ์ ์ธ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ผ๋ก ์ฌ๋ฌ ..