[텍스트마이닝] Word2Vec Modeling 실습

[텍스트마이닝] Word2Vec Modeling 실습
/category/Ability%20%F0%9F%8C%B1/Python

2023. 1. 30. 17:14

Word2Vec 이론

one-hot encoding은 단어를 벡터로 나타낼 때 총 단어 수만큼의 길이의 벡터에서 다른 모든 값은 0으로 하고 단어 번호에 해당하는 원소만 1로 표시한다. '토끼', '도서관', '물' 3 단어만 있고 순서대로 1~3번이라면 토끼는(1,0,0), 도서관은(0,1,0), 물은(0,0,1)로 나태난다. 단어의 의미를 고려하지 않으며 벡터의 길이가 총 단어 수가 되므로 희박한 형태가 된다.

이를 해결하기 위해 단어의 의미를 고려하여 조밀한 차원에 단어를 벡터로 표현하는 것을 단어 임베딩이라고 한다. 단어 임베딩은 단어의 의미를 효과적으로 표현하기 때문에 one-hot encoding보다 학습 성능을 높일 수 있다. 단어 임베딩의 종류에는 LSA, Word2Vec, GloVe, FastText 등이 있다.

http://doc.mindscale.kr/km/unstructured/11.html

11. 단어 임베딩 전통적으로 자연어 처리에서는 단어를 의미나 발음을 무시하고 각각을 개별적인 기호로 취급한다. 단어를 벡터로 나타낼 때는 총 단어 수만큼의 길이의 벡터에서 다른 모든 값

doc.mindscale.kr

Word2Vec은 단어를 벡터로 변환해 준다. 저차원 벡터를 가지고 다차원 공간에 벡터화해서 유사성을 표현할 수 있다.

하지만 문맥의 표현은 안 된다. 즉, 단어(모양)의 출현이지 단어(의미)의 출현은 아니다.

Word2Vec, Word to vector, 워드투벡터란?

엄청나게 유용하면서도 별로인 W2V에 대해서 알아보도록 합시다. 영어를 왜 중간에 많이 넣었냐면.. 실무에선 영어쓰니까..? 우리가 강대국이었으면.. 한글자료가 훨 많았을텐데 흐규흐규 출처: E

luv-n-interest.tistory.com

(위에 첨부된 블로그들의 글을 정리하여 작성했습니다)

Word2Vec Modeling 실습

1. 패키지 및 데이터 파일 불러오기

- 패키지 불러오기

import pandas as pd
import re

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer

from gensim.models import Word2Vec
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

- 파일 불러오기

en_data =  pd.read_csv('wos_ai_.csv', encoding='euc-kr')
en_data_abstract = en_data['ABSTRACT']

3. 데이터 전처리

- 빈 데이터셋 준비

en_doc = []
en_word_joined = []
en_word = []

- 문자면 - 대신 공백 넣기

for doc in en_data_abstract :  
    if type(doc) != float : 
        en_doc.append(doc.replace("-"," "))

- 불용어, 어간추출 사전 정의

en_stopwords = set(stopwords.words("english"))
en_stemmer = PorterStemmer()

- 알파벳만 남기기, 소문자화, 토큰화, 불용어 제거, 어간추출

for doc in en_doc :
    en_alphabet= re.sub(r"[^a-zA-Z]+", " ", str(doc)) 
    en_tokenized = word_tokenize(en_alphabet.lower()) 
    en_stopped = [ w for w in en_tokenized if w not in en_stopwords] 
    en_stemmed = [en_stemmer.stem(w) for w in en_stopped]
    en_word_joined.append(' '.join(en_stemmed))
    en_word.append(en_stemmed)

3. word2Vec 분석 및 word 좌표 확인

- Word2Vec 실시

en_w2v_model = Word2Vec(en_word, vector_size=300, window=20, min_count=10, workers=4)

Word2Vec 하이퍼파라미터

vector_size : 워드 벡터의 크기 (임베딩 된 벡터의 차원) -> Word2Vec, Doc2Vec의 경우 차원 사이즈를 300~500 사이로 하는 것이 결과가 깔끔하게 나온다고 구글이 제안했다.
window : 컨텍스트 윈도우 크기 (고려할 앞뒤 단어)
min_count : 단어 최소 빈도 수 제한
workers : 학습을 위한 프로세스 수 (동시에 처리할 작업 수)

- 모델 결과값 확인

print(en_w2v_model.wv['algorithm'])

모델 결과에서 단어의 상대 차원 값 확인

(6 * 50 => 300차원)

print(en_w2v_model.wv.most_similar('learn'))

wv.most_similar() : 가장 유사한 단어 추출

print(en_w2v_model.wv.most_similar(['learn', 'deep']))

두 단어의 조합과 가장 가까운 300차원에서 위치가 유사도로 계산된다.

print(en_w2v_model.wv.similarity('deep', 'learn'))

wv.similarity : 두 word vector의 유사도 비교

4. TSNE 로 차원 축소 후 시각화

def tsne_plot(model) :
    labels = [] # 이름
    tokens = [] # 좌표값
    
    for word in model.wv.vocab :
        tokens.append(model[word])
        labels.append(word)
        
    tsne_modle = TSNE(perplexity=30, n_components=2, init='random', n_iter=250, random_state=23)
    new_valus = tsne_model.fit_transform(tokens)
    
    x = []
    y = []
    for value in new_values :
        x.append(value[0])
        y.append(value[1])
        
    plt.figure(figsize = (16,16))
    for i in range(len(x)) :
        plt.scatter(x[i], y[i])
        plt.annotate(labels[i],
                    xy = (x[i], y[i]),
                    xytext =( 5,2),
                    textcoords = 'offset points',
                    ha = 'right',
                    va = 'bottom')
    plt.show()

TSNE

TSNE는 고차원 데이터를 시각화하는 도구이다. 시각화가 편리한 2차원이나 3차원으로 차원 축소를 진행한 후, 실제 feature가 아닌 축소된 주성분을 기준으로 분포를 간접적으로 시각화한다.

TSNE 하이퍼파라미터

n_components : 임베딩 공간의 차원
perplexity : 학습에 영향을 주는 점들의 개수 조절
init : 초기화 메서드
n_iter : 최적화의 최대 반복 횟수
random_state : 난수 생성기 결정

- 그래프

tsne_plot(en_w2v_model)

300차원의 그림을 2차원으로 압축한 그래프로 주차원에 의해 단어들이 몰려있는 것처럼 보인다.

area, defin, two ... 아웃라이어, 즉 이상치 값으로 관계가 약한 단어들이다. 특정 논문에만 쓰였다고 해석할 수 있다.

참고강의 : 동아대 INSPIRE - python 텍스트마이닝 22강 Word2Vec Modeling 실습

저작자표시 비영리 변경금지

'Ability 🌱 > Python' 카테고리의 다른 글

[텍스트마이닝] 한글 Word Clustering (0)	2023.02.13
[텍스트마이닝] LDA와 Topic Modeling 개념 및 활용 (1)	2023.01.16
[텍스트마이닝] 감정점수를 계산하여 Sentiment Analysis 후 시각화 하기 (0)	2023.01.06
[텍스트마이닝] 조바이든 대통령 취임식 연설문 전처리 후 워드클라우드 그리기 (0)	2022.12.30
[Python] pandas 함수 (0)	2022.04.21

InYoung.log

CATEGORIES