์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- ํฌ๋กค๋ง
- Python
- LDA
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
- pandas
- ๋น ๋ฐ์ดํฐ
- opencv
- ๋ฐ์ดํฐ๋ถ์
- ADP
- ์ค๋ฒ์ํ๋ง
- ์ฃผ์ฑ๋ถ๋ถ์
- DBSCAN
- iloc
- ์๋ํด๋ผ์ฐ๋
- numpy
- PCA
- ์ธ๋์ํ๋ง
- dataframe
- ADsP
- ๋ ๋ฆฝํ๋ณธ
- Lambda
- datascience
- ๊ตฐ์งํ
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- ํ์ด์ฌ
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ํ ์คํธ๋ถ์
- ๋์ํ๋ณธ
- t-test
๋ชฉ๋ก๐ Machine Learning (36)
Data Science LAB

KMeans Clustering์ด๋? ๊ฐ์ฅ ์์ฃผ ์ฌ์ฉ๋๋ ๊ตฐ์งํ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก, ๋ฐ์ดํฐ์ ์ K๊ฐ์ ๊ตฐ์ง์ผ๋ก ๊ตฐ์งํํ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์์์ ๊ตฐ์ง ์ค์ฌ์ ๊ฐ์(K)๋ฅผ ์ค์ ํ์ฌ ํด๋น ์ค์ฌ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ฐ์ดํฐ๋ฅผ ์ ํํ๋ค. ๊ตฐ์ง ์ค์ฌ์ ์ ์ ํ๋ ๋ฐ์ดํฐ์ ํ๊ท ์ง์ ์ผ๋ก ์ด๋ํ๊ณ , ์ด๋๋ ์ค์ฌ์ ์์ ๋ค์ ๊ฐ๊น์ด ํฌ์ธํธ๋ฅผ ์ ํ, ๋ค์ ์ค์ฌ์ ์ ํ๊ท ์ง์ ์ผ๋ก ์ด๋ํ๋ ํ๋ก์ธ์ค๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ํํ๋ค. ๋์ด์ ์ค์ฌ์ ์ ์ด๋์ด ์์ ๋๊น์ง ๋ฐ๋ณต์ ๊ณ์ํ๋ค. KMeans Process 1. ๊ตฐ์งํ์ ๊ธฐ์ค์ด ๋๋ ์ค์ฌ์ ๊ตฌ์ฑํ๋ ค๋ ๊ตฐ์ง์ ๊ฐ์๋งํผ ์์์ ์์น์ ๊ฐ์ ธ๋ค ๋์ 2. ๊ฐ ๋ฐ์ดํฐ๋ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ณณ์ ์์นํ ์ค์ฌ์ ์ ์์ 3. ๊ฐ ๋ฐ์ดํฐ์ ์์์ด ๊ฒฐ์ ๋๋ฉด ๊ตฐ์ง ์ค์ฌ์ ์ ์์๋ ๋ฐ์ดํฐ์ ํ๊ท ์ค์ฌ์ผ๋ก ์ด๋ 4. ๋ฐ๋ ์ค์ฌ..
๋๋์ด Konlpy๋ฅผ ์ค์นํด์ ์ฃผํผํฐ ๋ ธํธ๋ถ์์ ์ฌ์ฉํ ์ ์๊ฒ ๋์๋ค! https://suhye.tistory.com/entry/%E3%85%9C?category=1037658 [Python]KONLPy ์ค์น ๋ฐฉ๋ฒ ๋ฐ ์๋ฌ ํด๊ฒฐ ๋๋์ด๋๋์ด๋๋์ด! ์๋์ฝ๋ค์์ ์๋ฌ๋ฅผ ํด๊ฒฐํ๊ณ konlpy๋ฅผ ์คํํ ์ ์๊ฒ ๋์๋ค! konlpy ์คํ์ด ์๋ผ์ ํ๊ธ ํ ์คํธ ๋ถ์์ ์์ ๋ชปํ์๋๋ฐ ์ด์ ํ ์ ์๊ฒ ๋์๋ค(๊ฐ๊ฒฉ) Konlpy ์ค์น ๋ฐฉ๋ฒ 1. JA suhye.tistory.com ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ฐ ๋ฐ์ดํฐ์ ๋ก๋ฉ import konlpy import pandas as pd train = pd.read_csv(r'C:\Users\Naver\ratings_train.txt',sep='\t') train.head() ๋จผ..

๋ฌธ์ ์ฌ์ด์ ์ ์ฌ๋ ์ธก์ ์ ์ฃผ๋ก ์ฝ์ฌ์ธ ์ ์ฌ๋(Cosine Similarity)๋ฅผ ์ฌ์ฉํ๋ค. ๋ฒกํฐ์ ํฌ๊ธฐ ๋ณด๋ค๋ ๋ฒกํฐ์ ์ํธ ๋ฐฉํฅ์ฑ์ด ์ผ๋ง๋ ์ ์ฌํ์ง์ ๊ธฐ๋ฐํ์ฌ ์ธก์ ํ๋ค. ๋ ๋ฒกํฐ์ ์ฌ์๊ฐ์ ๋ฐ๋ผ ์ํ ๊ด๊ณ๋ ์ ์ฌํ๊ฑฐ๋ ๊ด๋ จ์ด ์๊ฑฐ๋ ์์ ๋ฐ๋ ๊ด๊ณ๊ฐ ๋ ์ ์๋ค. ๋ ๋ฒกํฐ A,B์ ๋ด์ ๊ฐ์ ๋ ๋ฒกํฐ์ ํฌ๊ธฐ๋ฅผ ๊ฒํ ๊ฐ์ ์ฝ์ฌ์ธ ๊ฐ๋ ๊ฐ์ ๊ณฑํ ๊ฐ์ด๋ค. ๋ฐ๋ผ์ ์ ์ฌ๋(similarity)๋ ๋ค์๊ณผ ๊ฐ์ด ๋ ๋ฒกํฐ์ ๋ด์ ์ ์ด ๋ฒกํฐ ํฌ๊ธฐ์ ํฉ์ผ๋ก ๋๋ ๊ฒ์ด๋ค. ๋ ๋ํ์ด ๋ฐฐ์ด์ ๋ํ ์ฝ์ฌ์ธ ์ ์ฌ๋ ๊ตฌํ๋ ํจ์ ์์ฑ import numpy as np def cos_similarity(v1,v2): dot_product = np.dot(v1,v2) l2_norm = (np.sqrt(sum(np.square(v1..
๋ฌธ์ ๊ตฐ์งํ๋? ๋น์ทํ ํ ์คํธ ๊ตฌ์ฑ์ ๋ฌธ์๋ฅผ ๊ตฐ์งํ(Clustering)ํ๋ ๊ฒ์ด๋ค. ๋์ผํ ๊ตฐ์ง์ ์ํ๋ ๋ฌธ์๋ฅผ ๊ฐ์ ์นดํ ๊ณ ๋ฆฌ ์์์ผ๋ก ๋ถ๋ฅํ๋ ๊ฒ์ด์ง๋ง, ๋น์ง๋ํ์ต ๊ธฐ๋ฐ์ผ๋ก ๋์ํ๋ค๋ ์ ์ด ํ ์คํธ ๋ถ๋ฅ์๋ ๋ค๋ฅด๋ค. ๋ฐ์ดํฐ์ ๋ค์ด https://archive.ics.uci.edu/ml/datasets/Opinosis+Opinion+%26frasl%3B+Review UCI Machine Learning Repository: Opinosis Opinion ⁄ Review Data Set Opinosis Opinion ⁄ Review Data Set Download: Data Folder, Data Set Description Abstract: This dataset contains sentences ext..
Topic Modeling ํ ํฝ ๋ชจ๋ธ๋ง์ด๋ ๋ฌธ์ ์งํฉ์ ์จ์ด ์๋ ์ฃผ์ ๋ฅผ ์ฐพ์๋ด๋ ๊ฒ์ด๋ค. ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ํ ํฝ ๋ชจ๋ธ์ ์จ๊ฒจ์ง ์ฃผ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ ์ ์๋ ์ค์ฌ ๋จ์ด๋ฅผ ํจ์ถ์ ์ผ๋ก ์ถ์ถํด๋ธ๋ค. ํ ํฝ๋ชจ๋ธ๋ง์์๋ LDA(Latent Dirichlet Allocation)์ ์ฃผ๋ก ํ์ฉํ๋ค. ํํ ๋จธ์ ๋ฌ๋์์ ์ฌ์ฉํ๋ LDA(Linear Discriminant Analysis)์๋ ๋ค๋ฅธ ์๊ณ ๋ฆฌ์ฆ์ด๋ฏ๋ก ์ฃผ์ํด์ผํ๋ค. ๊ธฐ๋ณธ ๋ฐ์ดํฐ์ ์ธ 20๋ด์ค๊ทธ๋ฃน ๋ฐ์ดํฐ ์ ์ ์ด์ฉํ์ฌ ํ ํฝ๋ชจ๋ธ๋ง์ ์งํํด๋ณด๋ ค๊ณ ํ๋ค. 20๋ด์ค๊ทธ๋ฃน ๋ฐ์ดํฐ์ ์๋ 20๊ฐ์ง์ ์ฃผ์ ๋ฅผ ๊ฐ์ง ๋ด์ค๊ทธ๋ฃน์ ๋ฐ์ดํฐ๊ฐ ์๋๋ฐ, ๊ทธ ์ค 8๊ฐ์ ์ฃผ์ ๋ฅผ ์ถ์ถํ๊ณ , ์ด๋ค ํ ์คํธ์ LDA ๊ธฐ๋ฐ์ ํ ํฝ ๋ชจ๋ธ๋ง์ ์ ์ฉํด๋ณด๋ ค๊ณ ํ๋ค. ํ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ก๋ฉ ํ ์นดํ ๊ณ ๋ฆฌ ์ถ์ถ f..
์ง๋ ํฌ์คํ ์์ WordNet๊ณผ SentiWordNet์ ๋ํด ๊ณต๋ถํ์์ผ๋ IMDB ์ํ ๊ฐ์ํ ๊ฐ์ฑ ๋ถ์์ SentiWordNet ๊ธฐ๋ฐ์ผ๋ก ์ํํด ๋ณด๋ ค๊ณ ํ๋ค. https://suhye.tistory.com/entry/%E3%85%87-1?category=1040378 [Python] ๊ฐ์ฑ๋ถ์ - ๋น์ง๋ ํ์ต ์ด์ ํฌ์คํ (์ง๋ํ์ต)์ ์ด์ด์ ๋น์ง๋ ํ์ต์ ๊ฐ์ฑ ๋ถ์๊น์ง ๊ณต๋ถํด ๋ณด๋ ค๊ณ ํ๋ค! https://suhye.tistory.com/entry/mn?category=1040378 [Python] ๊ฐ์ฑ ๋ถ์(Sentiment Analysis) - ์ง๋ํ์ต ๊ฐ์ฑ๋ถ์ ์ด๋? ๊ฐ.. suhye.tistory.com ๊ฐ์ฑ ๋ถ์ ์์๋ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋ฌธ์๋ฅผ ๋ฌธ์ฅ ๋จ์๋ก ๋ถํด 2. ๋ฌธ์ฅ์ ๋จ์ด ๋จ์๋ก ํ ํฐํ..