์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- iloc
- Python
- ๋ ๋ฆฝํ๋ณธ
- Lambda
- ๋ฐ์ดํฐ๋ถ์
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ๋น ๋ฐ์ดํฐ
- DBSCAN
- ํ์ด์ฌ
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- ์ฃผ์ฑ๋ถ๋ถ์
- ํฌ๋กค๋ง
- ๊ตฐ์งํ
- numpy
- ๋์ํ๋ณธ
- t-test
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ์ค๋ฒ์ํ๋ง
- ํ ์คํธ๋ถ์
- ADP
- pandas
- ์๋ํด๋ผ์ฐ๋
- dataframe
- ์ธ๋์ํ๋ง
- PCA
- LDA
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ADsP
- datascience
- opencv
๋ชฉ๋ก๐ Machine Learning/ํ ์คํธ ๋ถ์ (11)
Data Science LAB
๋๋์ด Konlpy๋ฅผ ์ค์นํด์ ์ฃผํผํฐ ๋ ธํธ๋ถ์์ ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค! https://suhye.tistory.com/entry/%E3%85%9C?category=1037658 [Python]KONLPy ์ค์น ๋ฐฉ๋ฒ ๋ฐ ์๋ฌ ํด๊ฒฐ ๋๋์ด๋๋์ด๋๋์ด! ์๋์ฝ๋ค์์ ์๋ฌ๋ฅผ ํด๊ฒฐํ๊ณ konlpy๋ฅผ ์คํํ ์ ์๊ฒ ๋์๋ค! konlpy ์คํ์ด ์๋ผ์ ํ๊ธ ํ ์คํธ ๋ถ์์ ์์ ๋ชปํ์๋๋ฐ ์ด์ ํ ์ ์๊ฒ ๋์๋ค(๊ฐ๊ฒฉ) Konlpy ์ค์น ๋ฐฉ๋ฒ 1. JA suhye.tistory.com ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฐ ๋ฐ์ดํฐ์ ๋ก๋ฉ import konlpy import pandas as pd train = pd.read_csv(r'C:\Users\Naver\ratings_train.txt',sep='\t') train.head() ๋จผ..
๋ฌธ์ ์ฌ์ด์ ์ ์ฌ๋ ์ธก์ ์ ์ฃผ๋ก ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ฅผ ์ฌ์ฉํ๋ค. ๋ฒกํฐ์ ํฌ๊ธฐ ๋ณด๋ค๋ ๋ฒกํฐ์ ์ํธ ๋ฐฉํฅ์ฑ์ด ์ผ๋ง๋ ์ ์ฌํ์ง์ ๊ธฐ๋ฐํ์ฌ ์ธก์ ํ๋ค. ๋ ๋ฒกํฐ์ ์ฌ์๊ฐ์ ๋ฐ๋ผ ์ํ ๊ด๊ณ๋ ์ ์ฌํ๊ฑฐ๋ ๊ด๋ จ์ด ์๊ฑฐ๋ ์์ ๋ฐ๋ ๊ด๊ณ๊ฐ ๋ ์ ์๋ค. ๋ ๋ฒกํฐ A,B์ ๋ด์ ๊ฐ์ ๋ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๊ฒํ ๊ฐ์ ์ฝ์ฌ์ธ ๊ฐ๋ ๊ฐ์ ๊ณฑํ ๊ฐ์ด๋ค. ๋ฐ๋ผ์ ์ ์ฌ๋(similarity)๋ ๋ค์๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ์ ๋ด์ ์ ์ด ๋ฒกํฐ ํฌ๊ธฐ์ ํฉ์ผ๋ก ๋๋ ๊ฒ์ด๋ค. ๋ ๋ํ์ด ๋ฐฐ์ด์ ๋ํ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ตฌํ๋ ํจ์ ์์ฑ import numpy as np def cos_similarity(v1,v2): dot_product = np.dot(v1,v2) l2_norm = (np.sqrt(sum(np.square(v1..
๋ฌธ์ ๊ตฐ์งํ๋? ๋น์ทํ ํ ์คํธ ๊ตฌ์ฑ์ ๋ฌธ์๋ฅผ ๊ตฐ์งํ(Clustering)ํ๋ ๊ฒ์ด๋ค. ๋์ผํ ๊ตฐ์ง์ ์ํ๋ ๋ฌธ์๋ฅผ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ์์์ผ๋ก ๋ถ๋ฅํ๋ ๊ฒ์ด์ง๋ง, ๋น์ง๋ํ์ต ๊ธฐ๋ฐ์ผ๋ก ๋์ํ๋ค๋ ์ ์ด ํ ์คํธ ๋ถ๋ฅ์๋ ๋ค๋ฅด๋ค. ๋ฐ์ดํฐ์ ๋ค์ด https://archive.ics.uci.edu/ml/datasets/Opinosis+Opinion+%26frasl%3B+Review UCI Machine Learning Repository: Opinosis Opinion ⁄ Review Data Set Opinosis Opinion ⁄ Review Data Set Download: Data Folder, Data Set Description Abstract: This dataset contains sentences ext..
Topic Modeling ํ ํฝ ๋ชจ๋ธ๋ง์ด๋ ๋ฌธ์ ์งํฉ์ ์จ์ด ์๋ ์ฃผ์ ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด๋ค. ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ํ ํฝ ๋ชจ๋ธ์ ์จ๊ฒจ์ง ์ฃผ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ ์ ์๋ ์ค์ฌ ๋จ์ด๋ฅผ ํจ์ถ์ ์ผ๋ก ์ถ์ถํด๋ธ๋ค. ํ ํฝ๋ชจ๋ธ๋ง์์๋ LDA(Latent Dirichlet Allocation)์ ์ฃผ๋ก ํ์ฉํ๋ค. ํํ ๋จธ์ ๋ฌ๋์์ ์ฌ์ฉํ๋ LDA(Linear Discriminant Analysis)์๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด๋ฏ๋ก ์ฃผ์ํด์ผํ๋ค. ๊ธฐ๋ณธ ๋ฐ์ดํฐ์ ์ธ 20๋ด์ค๊ทธ๋ฃน ๋ฐ์ดํฐ ์ ์ ์ด์ฉํ์ฌ ํ ํฝ๋ชจ๋ธ๋ง์ ์งํํด๋ณด๋ ค๊ณ ํ๋ค. 20๋ด์ค๊ทธ๋ฃน ๋ฐ์ดํฐ์ ์๋ 20๊ฐ์ง์ ์ฃผ์ ๋ฅผ ๊ฐ์ง ๋ด์ค๊ทธ๋ฃน์ ๋ฐ์ดํฐ๊ฐ ์๋๋ฐ, ๊ทธ ์ค 8๊ฐ์ ์ฃผ์ ๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ค ํ ์คํธ์ LDA ๊ธฐ๋ฐ์ ํ ํฝ ๋ชจ๋ธ๋ง์ ์ ์ฉํด๋ณด๋ ค๊ณ ํ๋ค. ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ก๋ฉ ํ ์นดํ ๊ณ ๋ฆฌ ์ถ์ถ f..
์ง๋ ํฌ์คํ ์์ WordNet๊ณผ SentiWordNet์ ๋ํด ๊ณต๋ถํ์์ผ๋ IMDB ์ํ ๊ฐ์ํ ๊ฐ์ฑ ๋ถ์์ SentiWordNet ๊ธฐ๋ฐ์ผ๋ก ์ํํด ๋ณด๋ ค๊ณ ํ๋ค. https://suhye.tistory.com/entry/%E3%85%87-1?category=1040378 [Python] ๊ฐ์ฑ๋ถ์ - ๋น์ง๋ ํ์ต ์ด์ ํฌ์คํ (์ง๋ํ์ต)์ ์ด์ด์ ๋น์ง๋ ํ์ต์ ๊ฐ์ฑ ๋ถ์๊น์ง ๊ณต๋ถํด ๋ณด๋ ค๊ณ ํ๋ค! https://suhye.tistory.com/entry/mn?category=1040378 [Python] ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) - ์ง๋ํ์ต ๊ฐ์ฑ๋ถ์ ์ด๋? ๊ฐ.. suhye.tistory.com ๊ฐ์ฑ ๋ถ์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋ฌธ์๋ฅผ ๋ฌธ์ฅ ๋จ์๋ก ๋ถํด 2. ๋ฌธ์ฅ์ ๋จ์ด ๋จ์๋ก ํ ํฐํ..
์ด์ ํฌ์คํ (์ง๋ํ์ต)์ ์ด์ด์ ๋น์ง๋ ํ์ต์ ๊ฐ์ฑ ๋ถ์๊น์ง ๊ณต๋ถํด ๋ณด๋ ค๊ณ ํ๋ค! https://suhye.tistory.com/entry/mn?category=1040378 [Python] ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) - ์ง๋ํ์ต ๊ฐ์ฑ๋ถ์ ์ด๋? ๊ฐ์ฑ๋ถ์์ด๋ ๋ฌธ์์ ์ฃผ๊ด์ ์ธ ๊ฐ์ฑ/์๊ฒฌ/๊ฐ์ /๊ธฐ๋ถ ๋ฑ์ ํ์ ํ๊ธฐ ์ํ ๋ฐฉ๋ฒ์ผ๋ก, ์์ ๋ฏธ๋์ด๋ ์ฌ๋ก ์กฐ์ฌ, ์จ๋ผ์ธ ๋ฆฌ๋ทฐ ๋ฑ ๋ค์ํ ๋ถ์ผ์์ ํ์ฉ๋๊ณ ์๋ค. ๋ฌธ์์ ๊ธ์๊ฐ ๋ํ suhye.tistory.com ๋น์ง๋ํ์ต ๊ธฐ๋ฐ ๊ฐ์ฑ ๋ถ์์ ์ฌ์ (Lexicon)์ ๊ธฐ๋ฐ์ผ๋ก ํ์ตํ๋ค. ๋๋ถ๋ถ์ ๊ฐ์ฑ ๋ถ์ ๋ฐ์ดํฐ์ ์ ๋ ์ด๋ธ์ ๊ฐ๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ Lexicon์ด ์ ์ฉํ๊ฒ ์ฌ์ฉ๋๋ค. Lexicon์ ๊ธ์ ๊ฐ์ฑ ๋๋ ๋ถ์ ๊ฐ์ฑ์ ์ ๋๋ฅผ ์๋ฏธํ๋ ์์น๋ฅผ ๊ฐ์ง..