[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석 본문

🛠 Machine Learning/텍스트 분석

[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석

ㅅ ㅜ ㅔ ㅇ 2022. 2. 21. 10:57

728x90

지난 포스팅에서 WordNet과 SentiWordNet에 대해 공부하였으니 IMDB 영화 감상평 감성 분석을 SentiWordNet 기반으로 수행해 보려고 한다.

https://suhye.tistory.com/entry/%E3%85%87-1?category=1040378

[Python] 감성분석 - 비지도 학습

이전 포스팅(지도학습)에 이어서 비지도 학습의 감성 분석까지 공부해 보려고 한다! https://suhye.tistory.com/entry/mn?category=1040378 [Python] 감성 분석(Sentiment Analysis) - 지도학습 감성분석 이란? 감..

suhye.tistory.com

감성 분석 순서는 다음과 같다.

1. 문서를 문장 단위로 분해

2. 문장을 단어 단위로 토큰화 한 뒤 품사 태깅

3. 품사 태깅된 단어 기반으로 synset 객체와 senti_synset 객체 생성

4.Senti_synset에서 긍정, 부정의 감성지수를 구하고 이를 모두 합산하여, 특정 값 이상일 때 긍정, 아닐 때에는 부정 감성으로 결정

SentiWordNet

품사 태깅 내부 함수 생성

from nltk.corpus import wordnet as wn

def penn_to_wn(tag):
    if tag.startswith('J'):
        return wn.ADJ
    elif tag.startswith('N'):
        return wn.NOUN
    elif tag.startswith('R'):
        return wn.ADV
    elif tag.startswith('V'):
        return wn.VERB

필요한 라이브러리를 불러온 후, NLTK의 PennTreebank Tag를 기반으로 WordNet의 품사 Tag으로 변환해 주는 함수를 생성한다.

문장 ⇨ 단어 ⇨ 품사 태깅 후 SentiSynset 클래스 생성 후 Polarity Score 합산 함수 생성

from nltk.stem import WordNetLemmatizer
from nltk.corpus import sentiwordnet as swn
from nltk import sent_tokenize, word_tokenize, pos_tag


def swn_polarity(text):
    #감성 지수 초기화
    sentiment = 0.0
    tokens_count = 0
    
    lemmatizer = WordNetLemmatizer()
    raw_sentences = sent_tokenize(text)
    
    #분해된 문장별로 단어 토큰 -> 품사 태깅 후 sentiSynset 생성 -> 감성 지수 합산
    for raw_sentence in raw_sentences:
        #NLTK 기반의 품사 태깅 문장 추출
        tagged_sentence = pos_tag(word_tokenize(raw_sentence))
        for word, tag in tagged_sentence:
            
            #WordNet 기반 품사 태깅과 어근 추출
            wn_tag = penn_to_wn(tag)
            if wn_tag not in (wn.NOUN,wn.ADJ,wn.ADV):
                continue
            lemma = lemmatizer.lemmatize(word,pos=wn_tag)
            if not lemma:
                continue
                    #어근을 추출한 단어와 WordNet 기반 품사 태깅을 입력하여 Synset 객체를 생성
            synsets = wn.synsets(lemma, pos=wn_tag)
            if not synsets:
                continue
                    #sentiwordnet의 감성 단어 분석으로 감성 synset 추출
                    #모든 단어에 대해 긍정 감성 지수는 +로, 부정 감성 지수는 -로 합산하여 감성 지수 계산
            synset = synsets[0]
            swn_synset = swn.senti_synset(synset.name())
            sentiment += (swn_synset.pos_score() - swn_synset.neg_score())
            tokens_count += 1
                    
            
    if not tokens_count:
        return 0
            
            
            
    #총 score가 0이상이면 긍정 1, 그렇지 않으면 부정 0 반환
    if sentiment >= 0:
        return 1
            
    return 0

IMDB 감상평의 개별 문서에 swn_polarity(text)함수 적용

review_df['preds'] = review_df['review'].apply(lambda x : swn_polarity(x))
y_target = review_df['sentiment'].values
preds = review_df['preds'].values

감성 분석 성능 예측

from sklearn.metrics import accuracy_score, confusion_matrix, precision_score
from sklearn.metrics import recall_score,f1_score, roc_auc_score
import numpy as np

print("confusion matrix : ",confusion_matrix(y_target,preds))
print("정확도 : {:.3f} ".format(accuracy_score(y_target,preds)))
print("정밀도 : {:.3f}".format(precision_score(y_target,preds)))
print("재현율 : {:.3f}".format(recall_score(y_target,preds)))

정확도와 정밀도, 재현율이 0.6-0.7사이를 보이기 때문에 높지는 않다.

VADER

VADER는 소셜 미디어의 감성 분석 용도로 만들어진 룰 기반의 Lexicon이다. SentimentInetensityAnalyzer 클래스를 이용하여 쉽게 감성 분석을 제공한다.

앞의 포스팅에서 nltk.download('all')을 수행해 주었으므로 따로 설치 코드는 실행하지 않았다.

이번 포스팅에서는 간단하게 revew_df의 감상평 중 하나만 감성 분석을 수행해 보고자 한다.

VADER는 지속적으로 버전이 업데이트 되기 때문에 설치한 버전에 따라 결과가 다르게 출력될 수 있다.

from nltk.sentiment.vader import SentimentIntensityAnalyzer

senti_analyzer = SentimentIntensityAnalyzer()
senti_scores = senti_analyzer.polarity_scores(review_df['review'][0])
print(senti_scores)

SentimentIntensityAnalyzer 객체를 생성한 뒤 문서별로 polarity_scores()메서드를 호출하면 손쉽게 감성 점수를 구할 수 있다.

'neg' : 부정 감성 지수

'neu' : 중립적인 감성 지수

'pos' : 긍정 감성 지수

'compound' : neg, neu, pos 지수를 적절하게 조합하여 -1~1 사이의 감성 지수를 표현한 값

def vader_polarity(review,threshold=0.1):
    analyzer = SentimentIntensityAnalyzer()
    scores = analyzer.polarity_scores(review)
    
    #compound에 기반하여 threshold 입력값 보다 크면 1, 아니면 0 반환
    agg_score = scores['compound']
    final_sentiment = 1 if agg_score>= threshold else 0
    return final_sentiment



#apply lambda 식을 이용하여 레코드 별 vader_polarity() 수행 후 결과 'vader_preds'에 저장
review_df['vader_preds'] = review_df['review'].apply(lambda x: vader_polarity(x,0.1))
y_target = review_df['sentiment'].values
vader_preds = review_df['vader_preds'].values

print("Confusion matrix : ",confusion_matrix(y_target,vader_preds))
print("정확도 : {:.3f} ".format(accuracy_score(y_target,vader_preds)))
print("정밀도 : {:.3f}".format(precision_score(y_target,vader_preds)))
print("재현율 : {:.3f}".format(recall_score(y_target,vader_preds)))

vader_polarity()함수는 입력 파라미터로 영화 감상평 텍스트와 긍정/부정을 결정하는 임계값을 가진다.

SentimentIntensityAnalyzer 객체의 polarity_scores()메서드를 호출하여 감성 결과를 반환한다.

정확도가 SentiWordNet으로 향상되었으며 재현율은 0.851로 많이 향상되었다.

728x90

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] 문서 군집화 (0)	2022.02.24
[Python] 토픽 모델링 (20 뉴스그룹) (0)	2022.02.22
[Python] 감성분석 - 비지도 학습 (0)	2022.02.20
[Python] 감성 분석(Sentiment Analysis) - 지도학습 (0)	2022.02.19
[Python] 뉴스 그룹 분류 (0)	2022.02.19

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments

Data Science LAB

[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석 본문

[Python] SentiWordNet, VADER을 이용한 영화 감상평 감성 분석

SentiWordNet

품사 태깅 내부 함수 생성

문장 ⇨ 단어 ⇨ 품사 태깅 후 SentiSynset 클래스 생성 후 Polarity Score 합산 함수 생성

IMDB 감상평의 개별 문서에 swn_polarity(text)함수 적용

감성 분석 성능 예측

VADER

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

티스토리툴바