[Python] 감성 분석(Sentiment Analysis)

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python] 감성 분석(Sentiment Analysis) - 지도학습 본문

🛠 Machine Learning/텍스트 분석

[Python] 감성 분석(Sentiment Analysis) - 지도학습

ㅅ ㅜ ㅔ ㅇ 2022. 2. 19. 15:10

728x90

감성분석 이란?

감성분석이란 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로, 소셜미디어나 여론조사, 온라인 리뷰 등 다양한 분야에서 활용되고 있다. 문서의 글자가 나타내는 여러 주관적인 단어와 문맥을 기반으로 감성 수치를 계산하는 방법을 이용한다. 감성 수치를 긍정/부정 지수로 구분지어 각 지수를 합산하여 긍정 또는 부정 감성을 결정한다.

감성분석은 크게 지도학습과 비지도 학습 방법으로 나뉜다.

- 지도학습 : 학습데이터와 타깃 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성을 예측하는 방법

- 비지도 학습 : 'Lexicon'이라는 감성 어휘 사전을 이용해 감성 분석을 위한 용어와 문맥에 대한 정보를 파악해 문서의 긍정/부정을 판단

오늘은 지도학습을 이용한 감성분석을 해보려고 한다! （￣︶￣）↗　

데이터셋 다운

https://www.kaggle.com/c/word2vec-nlp-tutorial/data

Bag of Words Meets Bags of Popcorn | Kaggle

www.kaggle.com

먼저, 캐글에서 데이터 셋을 다운받아준다.

예제 실습

1. 데이터셋 불러오기 및 데이터 확인

import pandas as pd

review_df = pd.read_csv(r"C:\Users\suhye\Desktop\Kaggle\1.Popcorn\labeledTrainData.tsv\labeledTrainData.tsv",header=0,sep="\t")
review_df.head()

불러온 데이터 셋을 확인해 보니 id, sentiment(1-긍정적 평가, 2- 부정적 평가), review로 이루어져 있는 것을 확인할 수 있었다.

print(review_df['review'][0])

첫번째 영화 리뷰 텍스트를 확인해 본 결과,

<br /> 태그가 존재하는 것을 확인할 수 있었다.

HTML형식에서 추출했기 때문이다!

2. 문자열로 변환

import re

#<br> html 태그는 replace 함수로 공백으로 전환
review_df['review'] = review_df['review'].str.replace('<br />', ' ')

#파이썬의 정규 표현식 모듈인 re를 이용해 영어 문자열이 아닌 문자는 모두 공백으로 변환
review_df['review'] = review_df['review'].apply(lambda x : re.sub("[^a-zA-Z]"," ",x))

replace함수를 이용하여 html 태그를 공백으로 바꿔주었다.

또한 영어가 아닌 특수 문자 등은 피처로써의 의미가 없기 때문에 공백으로 변호나해주었다.

[^a-zA-A]는 영어 대, 소문자가 아닌 모든 문자를 찾는 것이다.

3. train/test 데이터로 분할

from sklearn.model_selection import train_test_split

class_df = review_df['sentiment']
feature_df = review_df.drop(['id','sentiment'],axis=1,inplace=False)

X_train,X_test,y_train,y_test = train_test_split(feature_df,class_df,test_size=0.3,random_state=156)

print("Train data shape : ",X_train.shape)
print("Test data shape : ",X_test.shape)

train_test_split 모듈을 이용하여 데이터 셋을 훈련데이터와 테스트 데이터로 분할해 주었다.

Train 데이터에는 17500개, Test 데이터에는 7500개의 데이터가 있는 것을 확인

4. 모델 생성(ConVectorizer)

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

#스톱워드는 english, ngram 은 (1,2)로 설정해 CountVectorization 수행
pipeline = Pipeline([('cnt_vect',CountVectorizer(stop_words='english',ngram_range=(1,2))),
                    ('lr',LogisticRegression(C=10))])


#Pipeline을 이용해 fit,predict
pipeline.fit(X_train['review'],y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:,1]

print("예측 정확도 : {0:.4f} ".format(accuracy_score(y_test,pred)))
print("ROC-AUC : {0:.4f}".format(roc_auc_score(y_test,pred_probs)))

리뷰 텍스트를 피처 벡터화한 후, 분류 알고리즘을 적용하여 예측 성능을 측정해 보았다.

Pipeline 객체를 이용하여 피처 벡터화와 로지스틱회귀모델을 한번에 수행하였다.

예측정확도와 ROC는 각각 0.89, 0.95로 높게 측정되었다.

TfidfVectorizer

#count와 동일한 조건으로 실행
pipeline = Pipeline([('tfidf_vect',TfidfVectorizer(stop_words='english',ngram_range=(1,2))),
                    ('lr',LogisticRegression(C=10))])


pipeline.fit(X_train['review'],y_train)
pred = pipeline.predict(X_test['review'])
pred_probs = pipeline.predict_proba(X_test['review'])[:,1]

print("예측 정확도 : {0:.4f} ".format(accuracy_score(y_test,pred)))
print("ROC-AUC : {0:.4f}".format(roc_auc_score(y_test,pred_probs)))

Count벡터와 동일한 조건으로 Tfidf벡터를 이용한 모델도 생성해 보았는데,

예측 정확도와 ROC모두 조금씩 증가한 것을 확인할 수 있었다.

728x90

저작자표시 (새창열림)

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석 (0)	2022.02.21
[Python] 감성분석 - 비지도 학습 (0)	2022.02.20
[Python] 뉴스 그룹 분류 (0)	2022.02.19
[Python]Bag of Words(BOW) (0)	2022.02.18
[Python]텍스트 전처리 - 텍스트 정규화 (0)	2022.02.17

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments