[Python]Bag of Words(BOW)

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python]Bag of Words(BOW) 본문

🛠 Machine Learning/텍스트 분석

[Python]Bag of Words(BOW)

ㅅ ㅜ ㅔ ㅇ 2022. 2. 18. 13:10

728x90

Bag of Words 모델은 문서가 가진 모든 단어(Words)를 문맥이나 순서에 상관없이 단어의 빈도 값에 따라 피처 값을 추출하는 모델이다. 문서 내의 모든 단어를 한번에 봉투(Bag)안에 넣은 뒤 흔들어 섞는 다는 의미로 Bag of Words 모델이라고 한다.

BOW모델은 쉽고 빠르게 모델을 구축할 수 있고, 단순하게 단어의 빈도 수에 기반하지만, 문서의 특징을 잘 나타낼 수 있어 활용도가 높다.

한계점

- 문맥 의미 반영 부족 : BOW는 단어의 순서를 고려하지 않기 때문에, 단어의 문맥적인 의미가 무시된다. 이를 보완하기 위해 n_gram등 여러 기법을 활용할 수 있지만, 제한적이다.

- 희소 행렬 문제 : BOW로 피처 벡터화를 수행하면, 희소 행렬 형태의 데이터 셋이 만들어지기 쉽다. 많은 문서에서 단어를 추출하면 매우 많은 단어가 컬럼으로 만들어지기 때문에 단어가 문서마다 나타나지 않는 경우가 많다.

대규모의 컬럼으로 구성된 행렬에서 대부분의 값이 0으로 이루어진 행렬을 희소 행렬이라고 하는데, 희소 행렬은 머신러닝의 알고리즘 수행 시간과 예측 성능을 떨어뜨린다.

피처 벡터화

머신러닝 알고리즘에서는 숫자형 데이터를 입력받기 때문에, 텍스트 데이터는 머신러닝 알고리즘에 바로 입력할 수 없다. 따라서 특정 의미를 가지는 숫자 값인 벡터 값으로 변환해야 하는데, 이러한 변환을 피처 벡터화라고 한다.

각 문서의 텍스트를 단어로 추출해 피처로 할당하고, 각 단어의 발생 빈도 값을 피처에 부여해 각 문서를 이 단어 피처의 발생 빈도 값으로 구성된 벡터를 만드는 기법이다.

BOW 모델에서 피처 벡터화를 수행하는 것은 모든 문서에서 모든 단어를 컬럼형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 셋 모델로 변경하는 것이다.

- 카운트 기반의 벡터화 : 단어 피처에 값을 부여할 때, 각 문서에서 해당 단어가 나타나는 횟수(Count)를 부여하는 경우

(문서의 특징보다는 언어의 특성상 자주 사용되는 단어에 높은 값을 부여하는 단점)

- TF-IDF(Term Frequency - Inverse Document Frequency) : 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주지만, 모든 문서에서 자주 나타나는 단어에 대해서는 패널티를 부여하는 방식이다.

=> 문서마다 텍스트가 길고, 문서가 많은 경우에는 카운트 방식보다는 TF-IDF방식이 유리!

사이킷런에서의 Count(CountVectorizer)

카운트 기반의 벡터화를 구현한 클래스, 소문자 일괄 변환, 토큰화, 스탑워드 필터링까지 수행 가능

파라미터 명	파라미터 설명
max_df	너무 높은 빈도수의 단어 피처 제외
min_df	너무 낮은 빈도수의 단어 피처 제외
max_features	추출하는 피처의 개수 제한(정수값)
stop_words	스톱워드로 지정된 단어는 추출에서 제외
n_gram_range	n_gram의 범위 설정 (범위 최소, 범위 최대)
analyzer	피처 추출을 수행할 단위 지정(default = 'word')
token_pattern	정규 표현식 패턴 지정
tokenizer	토큰화를 별도의 커스텀 함수로 이용시 지정

CountVectorizer를 이용해 피처 벡터화를 하기 위한 방법은 다음과 같다.

1. 사전 데이터 가공 : 문자를 소문자로 변경하는 등 사전 작업 수행

2. 토큰화 : 디폴트로 단어 기준으로 n_gram_range를 반영해 각 단어 토큰화

3. 텍스트 정규화 : Stop Words 필터링만 수행

4. 피처 벡터화 : max_df, min_df 등의 파라미터를 반영하여 토큰화된 단어들을 피처 추출 후 벡터 값 적용

희소 행렬 - COO형식

COO(Coordinate : 좌표) 형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식이다.

파이썬에서는 희소 행렬 반환을 위해 주로 Scipy를 이용한다.

Scipy의 sparse를 이용해 희소 행렬 변환을 COO형식으로 해보려고 한다.

import numpy as np
from scipy import sparse

#array 생성
dense = np.array([[3,0,1],[0,2,0]])


#0이 아닌 데이터 추출
data = np.array([3,1,2])

#행과 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])


#sparse패키지의 coo_matrix를 이용해 COO형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data,(row_pos,col_pos)))

#toarray를 이용해 밀집 형태의 행렬로 출력
sparse_coo.toarray()

원래의 데이터 행렬로 추출됨을 확인

희소 행렬 - CSR 형식

반복적인 위치 데이터를 사용하는 COO형식의 단점 보완

0이 아닌 데이터 배열과 열 위치 배열, 행 위치 배열의 고유한 값의 시작 위치 배열을 csr_matrix의 생성 파라미터로 입력하면 csr방식으로 변환할 수 있다.

from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])


#0이 아닌 데이터 추출
data2 = np.array([1,5,1,4,3,2,5,6,4,2,7,8,1])

#행과 열 위치를 각각 array로 생성
row_pos = np.array([0,0,1,1,1,1,1,2,2,3,4,4,5])
col_pos = np.array([2,5,0,1,3,4,5,1,3,0,3,5,0])

#COO형식으로 변환
sparse_coo = sparse.coo_matrix((data2,(row_pos,col_pos)))

#행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0,2,7,9,10,12,13])

#CSR형식으로 변환
sparse_csr = sparse.csr_matrix((data2,col_pos,row_pos_ind))

print("COO : \n",sparse_coo.toarray())
print("CSR : \n",sparse_csr.toarray())

실제 사용시에는 밀집 행렬을 생성 파라미터로 입력하면, COO나 CSR 희소 행렬로 생성할 수 있다.

dense3 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

print("COO : \n",coo.toarray())
print("CSR : \n",csr.toarray())

728x90

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] 감성분석 - 비지도 학습 (0)	2022.02.20
[Python] 감성 분석(Sentiment Analysis) - 지도학습 (0)	2022.02.19
[Python] 뉴스 그룹 분류 (0)	2022.02.19
[Python]텍스트 전처리 - 텍스트 정규화 (0)	2022.02.17
텍스트 분석(Text Analytics) (0)	2022.02.15

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments

Data Science LAB

[Python]Bag of Words(BOW) 본문

[Python]Bag of Words(BOW)

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

티스토리툴바