[Python] 뉴스 그룹 분류

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

관리 메뉴

Data Science LAB

[Python] 뉴스 그룹 분류 본문

🛠 Machine Learning/텍스트 분석

[Python] 뉴스 그룹 분류

ㅅ ㅜ ㅔ ㅇ 2022. 2. 19. 15:09

728x90

사이킷런 내부의 예제 데이터인 20 뉴스그룹 데이터 셋을 활용해 텍스트 분류 실습을 해보려고 한다.

텍스트 분류는 학습 데이터를 통해 모델을 학습 시킨 후 이 학습 모델을 이용해 다른 문서의 분류를 예측해 보려고 한다.

Count기반의 로지스틱 회귀모델과, TF-IDF기반의 로지스틱 회귀모델을 각각 생성한 후 비교해보고

하이퍼파라미터 조정까지 해보려고 한다( •̀ ω •́ )✧

1. 텍스트 정규화

fetch_20newsgroups()는 인터넷에서 로컬 컴퓨터로 먼저 데이터를 받은 후, 메모리로 데이터를 로딩한다.

from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset = 'all', random_state = 156)

#어떤 key값을 가지고 있는지 확인
print(news_data.keys())

fillenames는 fetch_20newsgroups API가 인터넷에서 내려받아 로컬 컴퓨터에 저장하는 디렉터리와 파일명을 지칭

import pandas as pd

print("target 클래스의 값과 분포도 : \n",pd.Series(news_data.target).value_counts().sort_index())
print("target 클래스의 이름들 : \n",news_data.target_names)

Target클래스의 값은 0-19(20개)까지로 분포되어있음

print(news_data.data[0])

불러온 데이터 중 가장 첫번째 데이터 하나만 확인해 본 결과,

제목, 작성자, 소속, 이메일, 기사 내용 등 다양한 정보를 가지고 있음

모든 피처를 포함해 머신러닝 알고리즘을 진행하면 높은 성능을 가지게 됨 -> 기사 내용만을 이용해 텍스트 분석 진행

학습용/테스트용 데이터의 내용만을 추출

#학습용 데이터의 내용만 추출
train_news = fetch_20newsgroups(subset = 'train', remove=('headers','footers','quotes'),random_state=156)

X_train = train_news.data
y_train = train_news.target

#테스트 데이터의 내용만 추출
test_news = fetch_20newsgroups(subset = 'test',remove=('headers','footers','quotes'),random_state=156)

X_test = test_news.data
y_test = test_news.target

print("학습 데이터 크기 : {}".format(len(train_news.data)))
print("테스트 데이터 크기 : {}".format(len(test_news.data)))

학습 데이터는 11314개의 뉴스그룹 문서가 리스트 형태로 주어지고,

테스트 데이터는 7532개의 뉴스그룹 문서가 리스트 형태로 주어진 것을 확인할 수 있음

피처 벡터화 변환과 머신러닝 모델 학습, 예측, 평가(Count기반)

from sklearn.feature_extraction.text import CountVectorizer

#피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

#학습데이터로 생성된 CountVectirizer를 이용해 테스트 데이터 피처 벡터화 변환
X_test_cnt_vect = cnt_vect.transform(X_test)


print("학습 데이터 CountVectorizer Shape : ",X_train_cnt_vect.shape)

학습데이터를 CountVectorizer로 피처를 추출한 결과, 11314개의 문서에서 단어가 101631개로 만들어짐

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

#로지스틱회귀분석으로 학습
lr = LogisticRegression()
lr.fit(X_train_cnt_vect,y_train)

#예측
lr_pred = lr.predict(X_test_cnt_vect)

#평가 
print('CountVectorized Logistic Regression 예측 정확도 : {0:3f}'.format(accuracy_score(y_test,lr_pred)))

피처 벡터화된 데이터에 로지스틱 회귀를 적용해 뉴스그룹을 분류한 결과,

accuracy_score는 0.607로 나타남

피처 벡터화 변환과 머신러닝 모델 학습, 예측, 평가(Count기반)

from sklearn.feature_extraction.text import TfidfVectorizer

#TF-IDF 벡터화 적용
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)


#로지스틱회귀 적용
lr = LogisticRegression()
lr.fit(X_train_tfidf_vect,y_train)
pred = lr.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 예측 정확도 : {0:3f}'.format(accuracy_score(y_test,pred)))

TF-IDF 의 accuracy_score는 0.674로 Count기반보다 좀 더 높은 것을 확인할 수 있었다.

#stop words 필터링 추가 후, n_gram을 (1,2)로 변경
tfidf_vect = TfidfVectorizer(stop_words='english',ngram_range = (1,2),max_df = 300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr = LogisticRegression()
lr.fit(X_train_tfidf_vect,y_train)

pred = lr.predict(X_test_tfidf_vect)
print("TF-IDF 로지스틱 회귀의 예측 정확도 : {0:.3f}".format(accuracy_score(y_test,pred)))

stop words필터링을 추가한 후 ngram_range를 (1,2)로 설정하였더니, accuracy_score가 0.692까지 높아졌다!

GridSearch 실행

from sklearn.model_selection import GridSearchCV

#최적 C값 도출 튜닝 수행 및 CV는 3 폴드 셋 진행

params = {'C':[0.01,0.1,1,5,10]}
grid_cv_lr = GridSearchCV(lr,param_grid = params,cv=3, scoring = 'accuracy',verbose=1)
grid_cv_lr.fit(X_train_tfidf_vect,y_train)
print("로지스틱 회귀의 best C Parameter : ",grid_cv_lr.best_params_)

#최적 C값으로 학습된 grid_cv로 예측 및 정확도 평가
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print("TF-IDF Vectorized Logistic Regression의 정확도 : {0:3f}".format(accuracy_score(y_test,pred)))

최적 파라미터 C는 10으로 나타났으며, 로지스틱회귀의 정확도는 0.701까지 상승한 것을 확인할 수 있다.

사이킷런 파이프라인 사용 및 GridSearchCV와의 결합

from sklearn.pipeline import Pipeline

#TfidfVecorizer 객체를 tfidf_vect로, 로지스틱 회귀 객체를 lr로 생성하는 pipeline

pipeline = Pipeline([('tfidf_vect',TfidfVectorizer(stop_words = 'english',ngram_range = (1,2),max_df=300)),
                    ('lr',LogisticRegression(C=10))])
                    
                    
                    
pipeline.fit(X_train,y_train)
pred = pipeline.predict(X_test)
print("pipeline을 통한 Logistic Regression의 예측 정확도 : {0:.3f}".format(accuracy_score(y_test,pred)))

사이킷런의 Pipeline 클래스를 사용하면 피처 벡터화와 머신러닝 알고리즘 학습, 예측을 한 번에 진행할 수 있다.

Pipeline을 이용하면 데이터의 전처리와 머신러닝 학습 과정을 통일된 API 기반에서 처리할 수 있어 더 직관적인 머신러닝 모델 코드를 생성할 수 있다. 또한 대용량 데이터의 피처 벡터화를 별도 데이터로 저장하지 않기 때문에 수행시간을 좀 더 절약할 수 있다.

별도의 TfidfVectorizer와 LogisticRegression의 fit(), transform(), predict()를 수행할 필요가 없다.

from sklearn.pipeline import Pipeline

pipeline = Pipeline([('tfidf_vect',TfidfVectorizer(stop_words='english')),
                    ('lr',LogisticRegression())])

#Pipeline의 각각의 객체 변수에 언더바(_) 2개를 연달아 붙여 GridSearchCV에 사용될 파라미터,하이퍼파라미터 이름과 값 설정
params = {'tfidf_vect__ngram_range':[(1,1),(1,2),(1,3)],
         'tfidf_vect__max_df': [100,300,700],
         'lr__C':[1,5,10]}


#GridSearchCV의 생성자에 Estimator가 아닌 Pipeline객체 입력
grid_cv_pipe = GridSearchCV(pipeline,param_grid=params,cv=3,scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train,y_train)
print(grid_cv_pipe.best_params_,grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test,pred)))

728x90

저작자표시 (새창열림)

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] 감성분석 - 비지도 학습 (0)	2022.02.20
[Python] 감성 분석(Sentiment Analysis) - 지도학습 (0)	2022.02.19
[Python]Bag of Words(BOW) (0)	2022.02.18
[Python]텍스트 전처리 - 텍스트 정규화 (0)	2022.02.17
텍스트 분석(Text Analytics) (0)	2022.02.15

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments

Data Science LAB

[Python] 뉴스 그룹 분류 본문

[Python] 뉴스 그룹 분류

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

티스토리툴바