250x250
Link
๋‚˜์˜ GitHub Contribution ๊ทธ๋ž˜ํ”„
Loading data ...
Notice
Recent Posts
Recent Comments
๊ด€๋ฆฌ ๋ฉ”๋‰ด

Data Science LAB

ํ…์ŠคํŠธ ๋ถ„์„(Text Analytics) ๋ณธ๋ฌธ

๐Ÿ›  Machine Learning/ํ…์ŠคํŠธ ๋ถ„์„

ํ…์ŠคํŠธ ๋ถ„์„(Text Analytics)

ใ…… ใ…œ ใ…” ใ…‡ 2022. 2. 15. 18:53
728x90

NLP VS ํ…์ŠคํŠธ ๋ถ„์„

- NLP(National Language Processing) : ๋จธ์‹ ์ด ์ธ๊ฐ„์˜ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ํ•ด์„ํ•˜๋Š” ๋ฐ ๋” ์ค‘์ ์„ ๋‘๊ณ  ๊ธฐ์ˆ  ๋ฐœ์ „(๋ฒˆ์—ญ, ์งˆ์˜์‘๋‹ต ์‹œ์Šคํ…œ ๋“ฑ)

- ํ…์ŠคํŠธ ๋ถ„์„ : ๋น„์ •ํ˜• ํ…์ŠคํŠธ์—์„œ ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ถ”์ถœํ•˜๋Š” ๊ฒƒ์— ์ข€ ๋” ์ค‘์ , ๋จธ์‹ ๋Ÿฌ๋‹, ์–ธ์–ด ์ดํ–‰, ํ†ต๊ณ„๋“ฑ์„ ํ™œ์šฉํ•ด ๋ชจ๋ธ ์ˆ˜๋ฆฝ ๋ฐ ์ •๋ณด ์ถ”์ถœ

 

 

 

 


 

 

ํ…์ŠคํŠธ ๋ถ„์„ ์ข…๋ฅ˜

1. ํ…์ŠคํŠธ ๋ถ„๋ฅ˜(Text Classification) : ๋ฌธ์„œ๊ฐ€ ์–ด๋–ค ์ข…๋ฅ˜๋‚˜ ์นดํ…Œ๊ณ ๋ฆฌ์— ์†ํ•˜๋Š”์ง€ ์˜ˆ์ธกํ•˜๋Š” ๊ธฐ๋ฒ•

  (ํŠน์ • ๊ธฐ์‚ฌ๋‚˜ ๋‰ด์Šค๊ฐ€ ์–ด๋–ค ์นดํ…Œ๊ณ ๋ฆฌ์— ์†ํ•˜๋Š” ์ง€, ์ŠคํŒธ๋ฉ”์ผ ๊ฒ€์ถœ๋“ฑ)

 

 

 

2. ๊ฐ์„ฑ ๋ถ„์„(Sentiment Analysis) : ํ…์ŠคํŠธ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฐ์ •/ํŒ๋‹จ/๋ฏฟ์Œ/์˜๊ฒฌ ๋“ฑ์˜ ์ฃผ๊ด€์ ์ธ ์š”์†Œ๋ฅผ ๋ถ„์„ํ•˜๋Š” ๊ธฐ๋ฒ•

   (์ œํ’ˆ์ด๋‚˜ ์˜ํ™”์— ๋Œ€ํ•œ ๋ฆฌ๋ทฐ, ์—ฌ๋ก  ์กฐ์‚ฌ ๋“ฑ) 

 

 

 

3. ํ…์ŠคํŠธ ์š”์•ฝ(Summarization) : ํ…์ŠคํŠธ์—์„œ ์ค‘์š”ํ•œ ์ฃผ์ œ๋‚˜ ์ค‘์‹ฌ ์‚ฌ์ƒ ์ถ”์ถœ

 

 

 

 

4. ํ…์ŠคํŠธ ๊ตฐ์ง‘ํ™”(Clustering)์™€ ์œ ์‚ฌ๋„ ์ธก์ • : ๋น„์Šทํ•œ ์œ ํ˜•์˜ ๋ฌธ์„œ์— ๋Œ€ํ•ด ๊ตฐ์ง‘ํ™” ์ˆ˜ํ–‰, ๋ฌธ์„œ๋“ค๊ฐ„์˜ ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•ด ๋น„์Šทํ•œ ๋ฌธ์„œ๋ผ๋ฆฌ ๋ชจ์œผ๊ธฐ

 

 

 

 

 


 

ํ…์ŠคํŠธ ๋ถ„์„ ์ˆ˜ํ–‰ ํ”„๋กœ์„ธ์Šค

1. ํ…์ŠคํŠธ ์ „์ฒ˜๋ฆฌ : ํ…์ŠคํŠธ๋ฅผ ํ”ผ์ฒ˜๋กœ ๋งŒ๋“ค๊ธฐ ์ „์— ๋ฏธ๋ฆฌ ํด๋ Œ์ง•, ๋Œ€/์†Œ๋ฌธ์ž ๋ณ€๊ฒฝ, ํŠน์ˆ˜๋ฌธ์ž ์‚ญ์ œ, ๋‹จ์–ด์˜ ํ† ํฐํ™”, ์˜๋ฏธ์—†๋Š” ๋‹จ์–ด ์ œ๊ฑฐ, ์–ด๊ทผ ์ถ”์ถœ ๋“ฑ

 

 

 

2.. ํ”ผ์ฒ˜ ๋ฒกํ„ฐํ™”/์ถ”์ถœ : ํ…์ŠคํŠธ๋ฅผ word๊ธฐ๋ฐ˜์˜ ๋‹ค์ˆ˜์˜ ํ”ผ์ฒ˜๋กœ ์ถ”์ถœํ•˜๊ณ , ์ด ํ”ผ์ฒ˜์— ๋‹จ์–ด ๋นˆ๋„์ˆ˜ ๊ฐ™์€ ์ˆซ์ž๊ฐ’์„ ๋ถ€์—ฌํ•˜๋ฉด ํ…์ŠคํŠธ๋Š” ๋‹จ์–ด์˜ ์กฐํ•ฉ์ธ ๋ฒกํ„ฐ๊ฐ’์œผ๋กœ ํ‘œํ˜„๋จ, ์‚ฌ์ „ ์ค€๋น„์ž‘์—…์œผ๋กœ ๊ฐ€๊ณต๋œ ํ…์ŠคํŠธ์—์„œ ํ”ผ์ฒ˜๋ฅผ ์ถ”์ถœํ•˜๊ณ  ์—ฌ๊ธฐ์— ๋ฒกํ„ฐ ๊ฐ’ ํ• ๋‹น(BOW,Word2Vec ๋“ฑ)

 

 

 

 

3. ๋จธ์‹ ๋Ÿฌ๋‹ ๋ชจ๋ธ ์ˆ˜๋ฆฝ ๋ฐ ํ•™์Šต/์˜ˆ์ธก/ํ‰๊ฐ€ : ํ”ผ์ฒ˜ ๋ฒกํ„ฐํ™”๋œ ๋ฐ์ดํ„ฐ ์…‹์— ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ ๋ชจ๋ธ์„ ์ ์šฉํ•ด ํ•™์Šต, ์˜ˆ์ธก, ํ‰๊ฐ€๋ฅผ ์ˆ˜ํ–‰ํ•œ๋‹ค. 

 

 

 

 

 


 

 

ํŒŒ์ด์ฌ ๊ธฐ๋ฐ˜์˜ ํ…์ŠคํŠธ ๋ถ„์„ ํŒจํ‚ค์ง€

 

- NLTK : ๊ฐ€์žฅ ๋Œ€ํ‘œ์ ์ธ NLPํŒจํ‚ค์ง€๋กœ, NLP์˜ ๋Œ€๋ถ€๋ถ„์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์†๋„๊ฐ€ ๋Š๋ฆฌ๊ณ , ๋Œ€์šฉ๋Ÿ‰์˜ ๋ฐ์ดํ„ฐ์…‹์—์„œ๋Š” ์ž˜ ์ž‘๋™ํ•˜์ง€ ์•Š์Œ

 

 

 

 

 

- Gensim : ํ† ํ”ฝ ๋ชจ๋ธ๋ง์— ๊ฐ€์žฅ ์ข‹์€ ํŒจํ‚ค์ง€๋กœ, Word2Vec๋„ ๊ตฌํ˜„ ๊ฐ€๋Šฅํ•˜๋‹ค. 

 

 

- SpaCy : ์ตœ๊ทผ ๊ฐ€์žฅ ์ฃผ๋ชฉ๋ฐ›๋Š” ํŒจํ‚ค์ง€

 

 

 

 

 

 

๊ฐœ์ธ์ ์œผ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๊ฑฐ๋‚˜ ๊ณต๋ถ€ํ•  ๋•Œ ํ…์ŠคํŠธ ๋ถ„์„์ด ๊ฐ€์žฅ ์–ด๋ ค์› ๋Š”๋ฐ ์ฒ˜์Œ๋ถ€ํ„ฐ ์ œ๋Œ€๋กœ ๊ณต๋ถ€ํ•ด ๋ณด๋ ค๊ณ  ํ•œ๋‹ค! ์˜ค๋ฅ˜์˜ ๋Šช์—์„œ ํ—ˆ์šฐ์  ๊ฑฐ๋ฆฌ์ง€๋งŒ ๊ทธ๋งŒํผ ๋ชจ๋ธ ์ƒ์„ฑ ์„ฑ๊ณตํ•˜๋ฉด ํฌ์—ด๊ฐ์ด,,,ใ…Ž

ํ™”์ดํŒ…โœ(โ—”โ—กโ—”)

728x90
Comments