250x250
Link
๋‚˜์˜ GitHub Contribution ๊ทธ๋ž˜ํ”„
Loading data ...
Notice
Recent Posts
Recent Comments
๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก๐Ÿ›  Machine Learning (36)

Data Science LAB

[Python] KMeans Clustering(K-ํ‰๊ท  ๊ตฐ์ง‘ํ™”)

KMeans Clustering์ด๋ž€? ๊ฐ€์žฅ ์ž์ฃผ ์‚ฌ์šฉ๋˜๋Š” ๊ตฐ์ง‘ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ, ๋ฐ์ดํ„ฐ์…‹์„ K๊ฐœ์˜ ๊ตฐ์ง‘์œผ๋กœ ๊ตฐ์ง‘ํ™”ํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค. ์ž„์˜์˜ ๊ตฐ์ง‘ ์ค‘์‹ฌ์  ๊ฐœ์ˆ˜(K)๋ฅผ ์„ค์ •ํ•˜์—ฌ ํ•ด๋‹น ์ค‘์‹ฌ์— ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋ฐ์ดํ„ฐ๋ฅผ ์„ ํƒํ•œ๋‹ค. ๊ตฐ์ง‘ ์ค‘์‹ฌ์ ์€ ์„ ํƒ๋œ ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท  ์ง€์ ์œผ๋กœ ์ด๋™ํ•˜๊ณ , ์ด๋™๋œ ์ค‘์‹ฌ์ ์—์„œ ๋‹ค์‹œ ๊ฐ€๊นŒ์šด ํฌ์ธํŠธ๋ฅผ ์„ ํƒ, ๋‹ค์‹œ ์ค‘์‹ฌ์ ์„ ํ‰๊ท  ์ง€์ ์œผ๋กœ ์ด๋™ํ•˜๋Š” ํ”„๋กœ์„ธ์Šค๋ฅผ ๋ฐ˜๋ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค. ๋”์ด์ƒ ์ค‘์‹ฌ์ ์˜ ์ด๋™์ด ์—†์„ ๋•Œ๊นŒ์ง€ ๋ฐ˜๋ณต์„ ๊ณ„์†ํ•œ๋‹ค. KMeans Process 1. ๊ตฐ์ง‘ํ™”์˜ ๊ธฐ์ค€์ด ๋˜๋Š” ์ค‘์‹ฌ์„ ๊ตฌ์„ฑํ•˜๋ ค๋Š” ๊ตฐ์ง‘์˜ ๊ฐœ์ˆ˜๋งŒํผ ์ž„์˜์˜ ์œ„์น˜์— ๊ฐ€์ ธ๋‹ค ๋†“์Œ 2. ๊ฐ ๋ฐ์ดํ„ฐ๋Š” ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ณณ์— ์œ„์น˜ํ•œ ์ค‘์‹ฌ์ ์— ์†Œ์† 3. ๊ฐ ๋ฐ์ดํ„ฐ์˜ ์†Œ์†์ด ๊ฒฐ์ •๋˜๋ฉด ๊ตฐ์ง‘ ์ค‘์‹ฌ์ ์„ ์†Œ์†๋œ ๋ฐ์ดํ„ฐ์˜ ํ‰๊ท  ์ค‘์‹ฌ์œผ๋กœ ์ด๋™ 4. ๋ฐ”๋€ ์ค‘์‹ฌ..

[Python] ๋ฌธ์„œ ์œ ์‚ฌ๋„

๋ฌธ์„œ ์‚ฌ์ด์˜ ์œ ์‚ฌ๋„ ์ธก์ •์€ ์ฃผ๋กœ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„(Cosine Similarity)๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ ๋ณด๋‹ค๋Š” ๋ฒกํ„ฐ์˜ ์ƒํ˜ธ ๋ฐฉํ–ฅ์„ฑ์ด ์–ผ๋งˆ๋‚˜ ์œ ์‚ฌํ•œ์ง€์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ธก์ •ํ•œ๋‹ค. ๋‘ ๋ฒกํ„ฐ์˜ ์‚ฌ์ž‡๊ฐ์— ๋”ฐ๋ผ ์ƒํ™” ๊ด€๊ณ„๋Š” ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๊ด€๋ จ์ด ์—†๊ฑฐ๋‚˜ ์•„์˜ˆ ๋ฐ˜๋Œ€ ๊ด€๊ณ„๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ๋‘ ๋ฒกํ„ฐ A,B์˜ ๋‚ด์  ๊ฐ’์€ ๋‘ ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๋ฅผ ๊ฒ‚ํ•œ ๊ฐ’์— ์ฝ”์‚ฌ์ธ ๊ฐ๋„ ๊ฐ’์„ ๊ณฑํ•œ ๊ฐ’์ด๋‹ค. ๋”ฐ๋ผ์„œ ์œ ์‚ฌ๋„(similarity)๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‘ ๋ฒกํ„ฐ์˜ ๋‚ด์ ์„ ์ด ๋ฒกํ„ฐ ํฌ๊ธฐ์˜ ํ•ฉ์œผ๋กœ ๋‚˜๋ˆˆ ๊ฒƒ์ด๋‹ค. ๋‘ ๋„˜ํŒŒ์ด ๋ฐฐ์—ด์— ๋Œ€ํ•œ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„ ๊ตฌํ•˜๋Š” ํ•จ์ˆ˜ ์ƒ์„ฑ import numpy as np def cos_similarity(v1,v2): dot_product = np.dot(v1,v2) l2_norm = (np.sqrt(sum(np.square(v1..

[Python] ํ† ํ”ฝ ๋ชจ๋ธ๋ง (20 ๋‰ด์Šค๊ทธ๋ฃน)

Topic Modeling ํ† ํ”ฝ ๋ชจ๋ธ๋ง์ด๋ž€ ๋ฌธ์„œ ์ง‘ํ•ฉ์— ์ˆจ์–ด ์žˆ๋Š” ์ฃผ์ œ๋ฅผ ์ฐพ์•„๋‚ด๋Š” ๊ฒƒ์ด๋‹ค. ๋จธ์‹ ๋Ÿฌ๋‹ ๊ธฐ๋ฐ˜์˜ ํ† ํ”ฝ ๋ชจ๋ธ์€ ์ˆจ๊ฒจ์ง„ ์ฃผ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š” ์ค‘์‹ฌ ๋‹จ์–ด๋ฅผ ํ•จ์ถ•์ ์œผ๋กœ ์ถ”์ถœํ•ด๋‚ธ๋‹ค. ํ† ํ”ฝ๋ชจ๋ธ๋ง์—์„œ๋Š” LDA(Latent Dirichlet Allocation)์„ ์ฃผ๋กœ ํ™œ์šฉํ•œ๋‹ค. ํ”ํžˆ ๋จธ์‹ ๋Ÿฌ๋‹์—์„œ ์‚ฌ์šฉํ•˜๋Š” LDA(Linear Discriminant Analysis)์™€๋Š” ๋‹ค๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋ฏ€๋กœ ์ฃผ์˜ํ•ด์•ผํ•œ๋‹ค. ๊ธฐ๋ณธ ๋ฐ์ดํ„ฐ์…‹์ธ 20๋‰ด์Šค๊ทธ๋ฃน ๋ฐ์ดํ„ฐ ์…‹์„ ์ด์šฉํ•˜์—ฌ ํ† ํ”ฝ๋ชจ๋ธ๋ง์„ ์ง„ํ–‰ํ•ด๋ณด๋ ค๊ณ  ํ•œ๋‹ค. 20๋‰ด์Šค๊ทธ๋ฃน ๋ฐ์ดํ„ฐ์…‹์—๋Š” 20๊ฐ€์ง€์˜ ์ฃผ์ œ๋ฅผ ๊ฐ€์ง„ ๋‰ด์Šค๊ทธ๋ฃน์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋Š”๋ฐ, ๊ทธ ์ค‘ 8๊ฐœ์˜ ์ฃผ์ œ๋ฅผ ์ถ”์ถœํ•˜๊ณ , ์ด๋“ค ํ…์ŠคํŠธ์— LDA ๊ธฐ๋ฐ˜์˜ ํ† ํ”ฝ ๋ชจ๋ธ๋ง์„ ์ ์šฉํ•ด๋ณด๋ ค๊ณ  ํ•œ๋‹ค. ํ•„์š”ํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋กœ๋”ฉ ํ›„ ์นดํ…Œ๊ณ ๋ฆฌ ์ถ”์ถœ f..