์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- PCA
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- datascience
- ์ค๋ฒ์ํ๋ง
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ํ์ด์ฌ
- Lambda
- iloc
- t-test
- dataframe
- ADsP
- ์๋ํด๋ผ์ฐ๋
- ๊ตฐ์งํ
- ์ธ๋์ํ๋ง
- DBSCAN
- ๋ ๋ฆฝํ๋ณธ
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ํฌ๋กค๋ง
- ADP
- opencv
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- LDA
- ๋น ๋ฐ์ดํฐ
- ํ ์คํธ๋ถ์
- ๋์ํ๋ณธ
- ์ฃผ์ฑ๋ถ๋ถ์
- Python
- numpy
- ๋ฐ์ดํฐ๋ถ์
- pandas
Data Science LAB
ํ ์คํธ ๋ถ์(Text Analytics) ๋ณธ๋ฌธ
ํ ์คํธ ๋ถ์(Text Analytics)
ใ ใ ใ ใ 2022. 2. 15. 18:53NLP VS ํ ์คํธ ๋ถ์
- NLP(National Language Processing) : ๋จธ์ ์ด ์ธ๊ฐ์ ์ธ์ด๋ฅผ ์ดํดํ๊ณ ํด์ํ๋ ๋ฐ ๋ ์ค์ ์ ๋๊ณ ๊ธฐ์ ๋ฐ์ (๋ฒ์ญ, ์ง์์๋ต ์์คํ ๋ฑ)
- ํ ์คํธ ๋ถ์ : ๋น์ ํ ํ ์คํธ์์ ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ๋ ๊ฒ์ ์ข ๋ ์ค์ , ๋จธ์ ๋ฌ๋, ์ธ์ด ์ดํ, ํต๊ณ๋ฑ์ ํ์ฉํด ๋ชจ๋ธ ์๋ฆฝ ๋ฐ ์ ๋ณด ์ถ์ถ
ํ ์คํธ ๋ถ์ ์ข ๋ฅ
1. ํ ์คํธ ๋ถ๋ฅ(Text Classification) : ๋ฌธ์๊ฐ ์ด๋ค ์ข ๋ฅ๋ ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋์ง ์์ธกํ๋ ๊ธฐ๋ฒ
(ํน์ ๊ธฐ์ฌ๋ ๋ด์ค๊ฐ ์ด๋ค ์นดํ ๊ณ ๋ฆฌ์ ์ํ๋ ์ง, ์คํธ๋ฉ์ผ ๊ฒ์ถ๋ฑ)
2. ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) : ํ ์คํธ์์ ๋ํ๋๋ ๊ฐ์ /ํ๋จ/๋ฏฟ์/์๊ฒฌ ๋ฑ์ ์ฃผ๊ด์ ์ธ ์์๋ฅผ ๋ถ์ํ๋ ๊ธฐ๋ฒ
(์ ํ์ด๋ ์ํ์ ๋ํ ๋ฆฌ๋ทฐ, ์ฌ๋ก ์กฐ์ฌ ๋ฑ)
3. ํ ์คํธ ์์ฝ(Summarization) : ํ ์คํธ์์ ์ค์ํ ์ฃผ์ ๋ ์ค์ฌ ์ฌ์ ์ถ์ถ
4. ํ ์คํธ ๊ตฐ์งํ(Clustering)์ ์ ์ฌ๋ ์ธก์ : ๋น์ทํ ์ ํ์ ๋ฌธ์์ ๋ํด ๊ตฐ์งํ ์ํ, ๋ฌธ์๋ค๊ฐ์ ์ ์ฌ๋๋ฅผ ์ธก์ ํด ๋น์ทํ ๋ฌธ์๋ผ๋ฆฌ ๋ชจ์ผ๊ธฐ
ํ ์คํธ ๋ถ์ ์ํ ํ๋ก์ธ์ค
1. ํ ์คํธ ์ ์ฒ๋ฆฌ : ํ ์คํธ๋ฅผ ํผ์ฒ๋ก ๋ง๋ค๊ธฐ ์ ์ ๋ฏธ๋ฆฌ ํด๋ ์ง, ๋/์๋ฌธ์ ๋ณ๊ฒฝ, ํน์๋ฌธ์ ์ญ์ , ๋จ์ด์ ํ ํฐํ, ์๋ฏธ์๋ ๋จ์ด ์ ๊ฑฐ, ์ด๊ทผ ์ถ์ถ ๋ฑ
2.. ํผ์ฒ ๋ฒกํฐํ/์ถ์ถ : ํ ์คํธ๋ฅผ word๊ธฐ๋ฐ์ ๋ค์์ ํผ์ฒ๋ก ์ถ์ถํ๊ณ , ์ด ํผ์ฒ์ ๋จ์ด ๋น๋์ ๊ฐ์ ์ซ์๊ฐ์ ๋ถ์ฌํ๋ฉด ํ ์คํธ๋ ๋จ์ด์ ์กฐํฉ์ธ ๋ฒกํฐ๊ฐ์ผ๋ก ํํ๋จ, ์ฌ์ ์ค๋น์์ ์ผ๋ก ๊ฐ๊ณต๋ ํ ์คํธ์์ ํผ์ฒ๋ฅผ ์ถ์ถํ๊ณ ์ฌ๊ธฐ์ ๋ฒกํฐ ๊ฐ ํ ๋น(BOW,Word2Vec ๋ฑ)
3. ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ์๋ฆฝ ๋ฐ ํ์ต/์์ธก/ํ๊ฐ : ํผ์ฒ ๋ฒกํฐํ๋ ๋ฐ์ดํฐ ์ ์ ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ์ ์ฉํด ํ์ต, ์์ธก, ํ๊ฐ๋ฅผ ์ํํ๋ค.
ํ์ด์ฌ ๊ธฐ๋ฐ์ ํ ์คํธ ๋ถ์ ํจํค์ง
- NLTK : ๊ฐ์ฅ ๋ํ์ ์ธ NLPํจํค์ง๋ก, NLP์ ๋๋ถ๋ถ์ ์ํํ ์ ์์ง๋ง ์๋๊ฐ ๋๋ฆฌ๊ณ , ๋์ฉ๋์ ๋ฐ์ดํฐ์ ์์๋ ์ ์๋ํ์ง ์์
- Gensim : ํ ํฝ ๋ชจ๋ธ๋ง์ ๊ฐ์ฅ ์ข์ ํจํค์ง๋ก, Word2Vec๋ ๊ตฌํ ๊ฐ๋ฅํ๋ค.
- SpaCy : ์ต๊ทผ ๊ฐ์ฅ ์ฃผ๋ชฉ๋ฐ๋ ํจํค์ง
๊ฐ์ธ์ ์ผ๋ก ํ๋ก์ ํธ๋ฅผ ์งํํ๊ฑฐ๋ ๊ณต๋ถํ ๋ ํ ์คํธ ๋ถ์์ด ๊ฐ์ฅ ์ด๋ ค์ ๋๋ฐ ์ฒ์๋ถํฐ ์ ๋๋ก ๊ณต๋ถํด ๋ณด๋ ค๊ณ ํ๋ค! ์ค๋ฅ์ ๋ช์์ ํ์ฐ์ ๊ฑฐ๋ฆฌ์ง๋ง ๊ทธ๋งํผ ๋ชจ๋ธ ์์ฑ ์ฑ๊ณตํ๋ฉด ํฌ์ด๊ฐ์ด,,,ใ
ํ์ดํ โ(โโกโ)
'๐ Machine Learning > ํ ์คํธ ๋ถ์' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[Python] ๊ฐ์ฑ๋ถ์ - ๋น์ง๋ ํ์ต (0) | 2022.02.20 |
---|---|
[Python] ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) - ์ง๋ํ์ต (0) | 2022.02.19 |
[Python] ๋ด์ค ๊ทธ๋ฃน ๋ถ๋ฅ (0) | 2022.02.19 |
[Python]Bag of Words(BOW) (0) | 2022.02.18 |
[Python]ํ ์คํธ ์ ์ฒ๋ฆฌ - ํ ์คํธ ์ ๊ทํ (0) | 2022.02.17 |