[Python] 한글 텍스트 처리 - 네이버 영화 평점 감성 분석

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python] 한글 텍스트 처리 - 네이버 영화 평점 감성 분석 본문

🛠 Machine Learning/텍스트 분석

[Python] 한글 텍스트 처리 - 네이버 영화 평점 감성 분석

ㅅ ㅜ ㅔ ㅇ 2022. 2. 26. 19:59

728x90

드디어 Konlpy를 설치해서 주피터 노트북에서 사용할 수 있게 되었다!

https://suhye.tistory.com/entry/%E3%85%9C?category=1037658

[Python]KONLPy 설치 방법 및 에러 해결

드디어드디어드디어! 아나콘다에서 에러를 해결하고 konlpy를 실행할 수 있게 되었다! konlpy 실행이 안돼서 한글 텍스트 분석을 아예 못했었는데 이제 할 수 있게 되었다(감격) Konlpy 설치 방법 1. JA

suhye.tistory.com

라이브러리 및 데이터셋 로딩

import konlpy
import pandas as pd

train = pd.read_csv(r'C:\Users\Naver\ratings_train.txt',sep='\t')
train.head()

먼저 탭(\t)로 칼럼을 분리하고, 데이터프레임 형식으로 데이터를 불러온다.

train['label'].value_counts()

학습 데이터 셋의 0과 1의 label 값이 각각 75173, 74827로 거의 동일하게 분포되어있는 것을 확인함

import re
train = train.fillna(' ')


train['document'] = train['document'].apply(lambda x : re.sub(r"\d+"," ",x))


test = pd.read_csv(r"C:\Users\suhye\Desktop\Machine Learning\Naver\ratings_test.txt",sep='\t')
test = test.fillna(' ')
test['document'] = test['document'].apply(lambda x : re.sub(r"\d+"," ",x))

#id컬럼 삭제 수행
train.drop('id',axis=1,inplace=True)
test.drop('id',axis=1, inplace=True)

정규 표현식을 이용하여 숫자를 공백으로 변경하고,

테스트 데이터 셋을 로딩하고 동일하게 null과 숫자를 공백으로 변환하였다.

문장을 형태소 단어 형태로 토큰화하여 list 객체 반환

from konlpy.tag import Twitter

twitter = Twitter()

def tw_tokenizer(text):
    tokens_ko = twitter.morphs(text)
    return tokens_ko

Twitter 클래스는 SNS 분석에 적합하다.

Twitter의 morphs() 메서드를 이용하면 입력 인자로 들어온 문장을 형태소 단어 형태로 토큰화하여 리스트 형태로 반환시켜준다.

TF-IDF 모델 생성

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

#Twitter 객체의 morphs()객체를 이용한 tokenizer 사용
tfidf_vect = TfidfVectorizer(tokenizer = tw_tokenizer,ngram_range=(1,2),min_df=3,max_df=0.9)
tfidf_matrix_train = tfidf_vect.fit_transform(train['document'])

사이킷런의 TfidfVectorizer를 이용하여 TF-IDF 피처 모델을 생성하였다.

lr = LogisticRegression()
params = {'C':[1,3.5,4.5,5.5,10]}
grid = GridSearchCV(lr,param_grid=params,cv=3,scoring='accuracy',verbose=1)
grid.fit(tfidf_matrix_train,train['label'])
print("best params : {}".format(grid.best_params_))
print("best score : {:.3f}".format(grid.best_score_))

로지스틱 회귀분석을 이용하여 분류 기반의 감성 분석을 수행하였다.

정확도 향상을 위해 GridSearch까지 해주면

from sklearn.metrics import accuracy_score

#TfidfVectorizer를 이용해 테스트 데이터를 TF-IDF 값으로 피처 변환
tfidf_matrix_test = tfidf_vect.transform(test['document'])

#classifier는 최적 classifier를 이용
best_estimator = grid.best_estimator_
preds = best_estimator.predict(tfidf_matrix_test)

print("Logistic Regression 정확도 : ",accuracy_score(test['label'],preds))

728x90

저작자표시 (새창열림)

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] 문서 유사도 (0)	2022.02.25
[Python] 문서 군집화 (0)	2022.02.24
[Python] 토픽 모델링 (20 뉴스그룹) (0)	2022.02.22
[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석 (0)	2022.02.21
[Python] 감성분석 - 비지도 학습 (0)	2022.02.20

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments

Data Science LAB

[Python] 한글 텍스트 처리 - 네이버 영화 평점 감성 분석 본문

[Python] 한글 텍스트 처리 - 네이버 영화 평점 감성 분석

라이브러리 및 데이터셋 로딩

문장을 형태소 단어 형태로 토큰화하여 list 객체 반환

TF-IDF 모델 생성

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

티스토리툴바