[Python]텍스트 전처리 - 텍스트 정규화

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

관리 메뉴

Data Science LAB

[Python]텍스트 전처리 - 텍스트 정규화 본문

🛠 Machine Learning/텍스트 분석

[Python]텍스트 전처리 - 텍스트 정규화

ㅅ ㅜ ㅔ ㅇ 2022. 2. 17. 12:39

728x90

텍스트 자체를 바로 피처로 만들 수 없기 때문에, 텍스트를 가공해주는 작업이 필요하다.

텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 어플리케이션의 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다.

클렌징(Cleansing)

클렌징은 텍스트에서 분석에 방해되는 문자나 기호 등을 먼저 제거하는 작업이다. (XTML, XML태그 등)

텍스트 토큰화(Tokenization)

- 문장 토큰화 : 문서에서 문장을 분류

- 단어 토큰화 : 문장에서 단어를 토큰으로 분리

위의 두가지 종류로 나뉜다.

문장 토큰화

먼저, 문장 토큰화는 문장의 마침표(.)나 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리한다.

NLTK에서는 일반적으로 sent_tokenize를 이용해 토큰화를 한다.

3개의 문장으로 이루어진 데이터를 문장으로 각각 분리해보려고 한다.

from nltk import sent_tokenize
import nltk
nltk.download('punkt')

nltk.download('punkt')을 이용하면 마침표, 개행문자 등의 데이터 셋을 다운 받을 수 있다.

#3개의 문장으로된 문서를 문장으로 분류
text_sample = "The Matrix is everywhere its all around us, here even in this room.\
                You can see it out your window or on your television. \
                You feel it when you go to work, or go to chuarch or pay your taxes."
sentences = sent_tokenize(text = text_sample)
print(type(sentences),len(sentences))
print(sentences)

sent_tokenize()는 각각 문장으로 구성된 list객체를 반환해 준다. 반환된 list객체가 문장으로된 문자열을 갖고 있는 것을 확인할 수 있다.

단어 토큰화

단어 토큰화(Word Tokenization)는 문장을 단어로 토큰화 하는 것이다. 일반적으로 콤마(,)나 마침표(.), 공백으로 단어를 분리한다. 정규 표현식을 이용해서 다양한 유형으로 토큰화를 할 수도 있다.

NLTK에서 기본으로 제공하는 word_tokenize()를 이용해 단어 토큰화를 해보려고 한다.

from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)

print(type(words),len(words))
print(words)

예시로 아무 문장이나 sentence에 넣고, word_tokenize()를 이용해 단어 토큰화를 해본 결과,

리스트에 15개의 단어로 나뉘어서 저장된 것을 확인할 수 있었다.

이번에는 문장 토큰화와 단어 토큰화를 합쳐 문서의 모든 단어를 토큰화 해보려고 한다.

아까 예제에서 예시로 넣은 3개의 문장으로 된 text_sample을 이용해 문장별로 단어 토큰화를 적용한다.

from nltk import word_tokenize,sent_tokenize

#여러 문장으로된 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    #문장별로 분리 토큰
    sentences = sent_tokenize(text)
    
    #분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    
    return word_tokens  
 
 #여러문장에 대해 문장별 단어 토큰화
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

먼저, 문장 토큰화를 수행한 후 단어 토큰화를 수행하는 함수를 생성하여 text_sample에 적용한 결과,

문장별로 단어 토큰화가 잘 이루어진 것을 확인할 수 있었다.

문장 토큰화를 먼저 진행하였으므로, 리스트에 객체 3개가 내포되어 출력되었다.

스톱워드제거

스톱 워드(stop word)는 분석할 때 의미가 없는 단어를 의미한다.

영어에서 is, the, a 등 문장을 구성하는 필수 문법 요소이지만 문맥적으로는 큰 의미가 없는 단어들이다.

이러한 단어들은 문장에 자주 등장하기 때문에 제거하지 않으면 중요한 단어로 인지될 수 있다.

먼저, NLTK에서 stopwords목록을 다운받는다.

(nltk.download()를 하면 nltk에서 다운받을 수 있는 목록이 모두 다운되기 때문에 안에 꼭 다운받고자 하는 것을 입력해야한다!)

import nltk
nltk.download('stopwords')

다운로드가 완료되면 NLTK에서 영어의 경우 stopwords가 몇 개 있는 지 알아본 후, 그중 20개만 확인해 본다.

print("영어 stop words 개수 :",len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

NLTK에서 영어의 stop words는 179개 이며, i,me,my등이 포함되어져 있는 것을 알 수 있다.

words_token리스트에 대해 stopwords를 필터링으로 제거해 분석에 의미있는 단어만을 추출해 보자면

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []

#3개의 문장별로 얻은 word_tokens_list에 대해 stopwords제거
for sentence in word_tokens:
    filltered_words = []
    
    #개별 문장별로 토큰화된 문장 list에 대해 stopwords 제거
    for word in sentence:
        
        #소문자로 모두 변환
        word = word.lower()
        
        #토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filltered_words.append(word)
            
    all_tokens.append(filltered_words)
    
    
print(all_tokens)

3개의 문장에서 is, this같은 스톱워드가 필터링을 통해 제거됐음을 확인할 수 있음

Stemming/Lemmatization

영어의 경우, 현재/과거, 3인칭일 때 등 여러 조건에 따라 단어의 형태가 변화한다. 따라서 단어의 원형을 찾아 분석을 진행해야 한다.

Stemming과 Lemmatization 모두 단어의 원형을 찾는 목적을 가지고 있지만, Lemmatization이 더 정교하며 의미론적인 기반에서 단어의 원형을 찾는다.

Stemming의 경우, 단어의 원형으로 변형 시 일반적이거나 단순한 방법을 사용하여 일부 철자가 훼손된 단어 어근을 추출해내는 경향이 있고, Lemmatization은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 추출해내는 경향이 있다.

NLTK에서는 다양한 stemmer를 제공한다. 대표적인 Stemmer에는 Porter, Lancaster, Snowball Stemmer가 있다.

또한 Lemmatization을 위해서는 WordNetLemmatizer를 제공한다.

먼저, NLTK의 LancasterStemmer를 이용해 보면, 진행형, 3인칭 단수, 과거형에 따른 동사, 비교 등 형용사의 변화에 따라 더 단순하게 원형 단어를 찾아준다.

from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work 단어를 입력하면, 진행형, 3인칭 단수, 과거형 모두 원형 단어인 'work'를 제대로 찾아내지만,

amuse 의 경우, 'e'가 빠진 'amus'를 출력해 낸다.

또한 형용사인 happy의 경우, 원형인 'happy'와 'happiest'를 제대로 출력해 내지만,

fancy의 경우 'fant','fanciest'를 출력해 내는 것을 확인할 수 있다.

이번에는 비교적 정확한 WordNetLemmatizer를 이용해 Lemmatization을 해보려고 한다.

일반적으로 Lemmatization은 보다 정확한 원형 단어 추출을 위해 단어의 품사를 입력해줘야한다.

from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

LancasterStemmer보다 정확하게 단어를 출력해 내는 것을 확인할 수 있다.

728x90

저작자표시 (새창열림)

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

[Python] 감성분석 - 비지도 학습 (0)	2022.02.20
[Python] 감성 분석(Sentiment Analysis) - 지도학습 (0)	2022.02.19
[Python] 뉴스 그룹 분류 (0)	2022.02.19
[Python]Bag of Words(BOW) (0)	2022.02.18
텍스트 분석(Text Analytics) (0)	2022.02.15

'🛠 Machine Learning/텍스트 분석' Related Articles

Comments

Data Science LAB

[Python]텍스트 전처리 - 텍스트 정규화 본문

[Python]텍스트 전처리 - 텍스트 정규화

문장 토큰화

단어 토큰화

'🛠 Machine Learning > 텍스트 분석' 카테고리의 다른 글

티스토리툴바