์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- t-test
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ๋น ๋ฐ์ดํฐ
- ํ ์คํธ๋ถ์
- datascience
- pandas
- ์๋ํด๋ผ์ฐ๋
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- dataframe
- ํ์ด์ฌ
- Python
- DBSCAN
- ๋ ๋ฆฝํ๋ณธ
- ์ฃผ์ฑ๋ถ๋ถ์
- ADsP
- ADP
- PCA
- LDA
- ์ธ๋์ํ๋ง
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ์ค๋ฒ์ํ๋ง
- ๋ฐ์ดํฐ๋ถ์
- ํฌ๋กค๋ง
- opencv
- ๊ตฐ์งํ
- numpy
- Lambda
- ๋์ํ๋ณธ
- iloc
๋ชฉ๋ก๐ Machine Learning/ํ ์คํธ ๋ถ์ (11)
Data Science LAB
๊ฐ์ฑ๋ถ์ ์ด๋? ๊ฐ์ฑ๋ถ์์ด๋ ๋ฌธ์์ ์ฃผ๊ด์ ์ธ ๊ฐ์ฑ/์๊ฒฌ/๊ฐ์ /๊ธฐ๋ถ ๋ฑ์ ํ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก, ์์ ๋ฏธ๋์ด๋ ์ฌ๋ก ์กฐ์ฌ, ์จ๋ผ์ธ ๋ฆฌ๋ทฐ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋๊ณ ์๋ค. ๋ฌธ์์ ๊ธ์๊ฐ ๋ํ๋ด๋ ์ฌ๋ฌ ์ฃผ๊ด์ ์ธ ๋จ์ด์ ๋ฌธ๋งฅ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฑ ์์น๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ์ด์ฉํ๋ค. ๊ฐ์ฑ ์์น๋ฅผ ๊ธ์ /๋ถ์ ์ง์๋ก ๊ตฌ๋ถ์ง์ด ๊ฐ ์ง์๋ฅผ ํฉ์ฐํ์ฌ ๊ธ์ ๋๋ ๋ถ์ ๊ฐ์ฑ์ ๊ฒฐ์ ํ๋ค. ๊ฐ์ฑ๋ถ์์ ํฌ๊ฒ ์ง๋ํ์ต๊ณผ ๋น์ง๋ ํ์ต ๋ฐฉ๋ฒ์ผ๋ก ๋๋๋ค. - ์ง๋ํ์ต : ํ์ต๋ฐ์ดํฐ์ ํ๊น ๋ ์ด๋ธ ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ์ฑ ๋ถ์ ํ์ต์ ์ํํ ๋ค ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค๋ฅธ ๋ฐ์ดํฐ์ ๊ฐ์ฑ์ ์์ธกํ๋ ๋ฐฉ๋ฒ - ๋น์ง๋ ํ์ต : 'Lexicon'์ด๋ผ๋ ๊ฐ์ฑ ์ดํ ์ฌ์ ์ ์ด์ฉํด ๊ฐ์ฑ ๋ถ์์ ์ํ ์ฉ์ด์ ๋ฌธ๋งฅ์ ๋ํ ์ ๋ณด๋ฅผ ํ์ ํด ๋ฌธ์์ ๊ธ์ /๋ถ์ ์ ํ๋จ ์ค๋์ ์ง๋ํ์ต..
์ฌ์ดํท๋ฐ ๋ด๋ถ์ ์์ ๋ฐ์ดํฐ์ธ 20 ๋ด์ค๊ทธ๋ฃน ๋ฐ์ดํฐ ์ ์ ํ์ฉํด ํ ์คํธ ๋ถ๋ฅ ์ค์ต์ ํด๋ณด๋ ค๊ณ ํ๋ค. ํ ์คํธ ๋ถ๋ฅ๋ ํ์ต ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ชจ๋ธ์ ํ์ต ์ํจ ํ ์ด ํ์ต ๋ชจ๋ธ์ ์ด์ฉํด ๋ค๋ฅธ ๋ฌธ์์ ๋ถ๋ฅ๋ฅผ ์์ธกํด ๋ณด๋ ค๊ณ ํ๋ค. Count๊ธฐ๋ฐ์ ๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ๊ณผ, TF-IDF๊ธฐ๋ฐ์ ๋ก์ง์คํฑ ํ๊ท๋ชจ๋ธ์ ๊ฐ๊ฐ ์์ฑํ ํ ๋น๊ตํด๋ณด๊ณ ํ์ดํผํ๋ผ๋ฏธํฐ ์กฐ์ ๊น์ง ํด๋ณด๋ ค๊ณ ํ๋ค( •ฬ ω •ฬ )โง 1. ํ ์คํธ ์ ๊ทํ fetch_20newsgroups()๋ ์ธํฐ๋ท์์ ๋ก์ปฌ ์ปดํจํฐ๋ก ๋จผ์ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ ํ, ๋ฉ๋ชจ๋ฆฌ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ก๋ฉํ๋ค. from sklearn.datasets import fetch_20newsgroups news_data = fetch_20newsgroups(subset = 'all', random_state ..
Bag of Words ๋ชจ๋ธ์ ๋ฌธ์๊ฐ ๊ฐ์ง ๋ชจ๋ ๋จ์ด(Words)๋ฅผ ๋ฌธ๋งฅ์ด๋ ์์์ ์๊ด์์ด ๋จ์ด์ ๋น๋ ๊ฐ์ ๋ฐ๋ผ ํผ์ฒ ๊ฐ์ ์ถ์ถํ๋ ๋ชจ๋ธ์ด๋ค. ๋ฌธ์ ๋ด์ ๋ชจ๋ ๋จ์ด๋ฅผ ํ๋ฒ์ ๋ดํฌ(Bag)์์ ๋ฃ์ ๋ค ํ๋ค์ด ์๋ ๋ค๋ ์๋ฏธ๋ก Bag of Words ๋ชจ๋ธ์ด๋ผ๊ณ ํ๋ค. BOW๋ชจ๋ธ์ ์ฝ๊ณ ๋น ๋ฅด๊ฒ ๋ชจ๋ธ์ ๊ตฌ์ถํ ์ ์๊ณ , ๋จ์ํ๊ฒ ๋จ์ด์ ๋น๋ ์์ ๊ธฐ๋ฐํ์ง๋ง, ๋ฌธ์์ ํน์ง์ ์ ๋ํ๋ผ ์ ์์ด ํ์ฉ๋๊ฐ ๋๋ค. ํ๊ณ์ - ๋ฌธ๋งฅ ์๋ฏธ ๋ฐ์ ๋ถ์กฑ : BOW๋ ๋จ์ด์ ์์๋ฅผ ๊ณ ๋ คํ์ง ์๊ธฐ ๋๋ฌธ์, ๋จ์ด์ ๋ฌธ๋งฅ์ ์ธ ์๋ฏธ๊ฐ ๋ฌด์๋๋ค. ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด n_gram๋ฑ ์ฌ๋ฌ ๊ธฐ๋ฒ์ ํ์ฉํ ์ ์์ง๋ง, ์ ํ์ ์ด๋ค. - ํฌ์ ํ๋ ฌ ๋ฌธ์ : BOW๋ก ํผ์ฒ ๋ฒกํฐํ๋ฅผ ์ํํ๋ฉด, ํฌ์ ํ๋ ฌ ํํ์ ๋ฐ์ดํฐ ์ ์ด ๋ง๋ค์ด์ง๊ธฐ ์ฝ๋ค. ๋ง..
ํ ์คํธ ์์ฒด๋ฅผ ๋ฐ๋ก ํผ์ฒ๋ก ๋ง๋ค ์ ์๊ธฐ ๋๋ฌธ์, ํ ์คํธ๋ฅผ ๊ฐ๊ณตํด์ฃผ๋ ์์ ์ด ํ์ํ๋ค. ํ ์คํธ ์ ๊ทํ๋ ํ ์คํธ๋ฅผ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ NLP ์ดํ๋ฆฌ์ผ์ด์ ์ ์ ๋ ฅ ๋ฐ์ดํฐ๋ก ์ฌ์ฉํ๊ธฐ ์ํด ํด๋ ์ง, ์ ์ , ํ ํฐํ, ์ด๊ทผ ๋ฑ์ ๋ค์ํ ํ ์คํธ ๋ฐ์ดํฐ์ ์ฌ์ ์์ ์ ์ํํ๋ ๊ฒ์ ์๋ฏธํ๋ค. ํด๋ ์ง(Cleansing) ํด๋ ์ง์ ํ ์คํธ์์ ๋ถ์์ ๋ฐฉํด๋๋ ๋ฌธ์๋ ๊ธฐํธ ๋ฑ์ ๋จผ์ ์ ๊ฑฐํ๋ ์์ ์ด๋ค. (XTML, XMLํ๊ทธ ๋ฑ) ํ ์คํธ ํ ํฐํ(Tokenization) - ๋ฌธ์ฅ ํ ํฐํ : ๋ฌธ์์์ ๋ฌธ์ฅ์ ๋ถ๋ฅ - ๋จ์ด ํ ํฐํ : ๋ฌธ์ฅ์์ ๋จ์ด๋ฅผ ํ ํฐ์ผ๋ก ๋ถ๋ฆฌ ์์ ๋๊ฐ์ง ์ข ๋ฅ๋ก ๋๋๋ค. ๋ฌธ์ฅ ํ ํฐํ ๋จผ์ , ๋ฌธ์ฅ ํ ํฐํ๋ ๋ฌธ์ฅ์ ๋ง์นจํ(.)๋ ๊ฐํ๋ฌธ์(\n) ๋ฑ ๋ฌธ์ฅ์ ๋ง์ง๋ง์ ๋ปํ๋ ๊ธฐํธ์ ๋ฐ๋ผ ๋ถ๋ฆฌํ๋ค. NLTK์์๋ ์ผ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bEgiQw/btrtxkKf8Ci/NZRaOF0PXsu7o8tXNQKvT1/img.png)
NLP VS ํ ์คํธ ๋ถ์ - NLP(National Language Processing) : ๋จธ์ ์ด ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ดํดํ๊ณ ํด์ํ๋ ๋ฐ ๋ ์ค์ ์ ๋๊ณ ๊ธฐ์ ๋ฐ์ (๋ฒ์ญ, ์ง์์๋ต ์์คํ ๋ฑ) - ํ ์คํธ ๋ถ์ : ๋น์ ํ ํ ์คํธ์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ์ข ๋ ์ค์ , ๋จธ์ ๋ฌ๋, ์ธ์ด ์ดํ, ํต๊ณ๋ฑ์ ํ์ฉํด ๋ชจ๋ธ ์๋ฆฝ ๋ฐ ์ ๋ณด ์ถ์ถ ํ ์คํธ ๋ถ์ ์ข ๋ฅ 1. ํ ์คํธ ๋ถ๋ฅ(Text Classification) : ๋ฌธ์๊ฐ ์ด๋ค ์ข ๋ฅ๋ ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋์ง ์์ธกํ๋ ๊ธฐ๋ฒ (ํน์ ๊ธฐ์ฌ๋ ๋ด์ค๊ฐ ์ด๋ค ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋ ์ง, ์คํธ๋ฉ์ผ ๊ฒ์ถ๋ฑ) 2. ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) : ํ ์คํธ์์ ๋ํ๋๋ ๊ฐ์ /ํ๋จ/๋ฏฟ์/์๊ฒฌ ๋ฑ์ ์ฃผ๊ด์ ์ธ ์์๋ฅผ ๋ถ์ํ๋ ๊ธฐ๋ฒ (์ ํ์ด๋ ์ํ์ ๋ํ ๋ฆฌ๋ทฐ, ์ฌ๋ก ์กฐ์ฌ ..