[텍스트마이닝] 한글 Word Clustering

[텍스트마이닝] 한글 Word Clustering
/category/Ability%20%F0%9F%8C%B1/Python

2023. 2. 13. 06:57

한글 Word Clustering

1. 패키지 및 데이터 파일 불러오기

- 패키지 불러오기

import pickle

from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import dendrogram, ward
from sklearn.metrics.pairwise import cosine_similarity 

from matplotlib import font_manager
import matplotlib.pyplot as plt

- 데이터 파일 불러오기

with open('ko_stopped_join.bin','rb') as fp :
    ko_word_joined = pickle.load(fp)

사전에 저장해둔 전처리를 거친 한글 문서 파일을 불러온다.
이때 단어들이 하나의 문장처럼 나열된 형태 자료여야 한다.

● with 문
파일 입출력 구문을 하나의 with 구문으로 묶어서 사용
with expression as target : suite

2. TFIDF의 DTM / TDM 만들기

- ko_tfidf_vectorizer에 TfidifVectorizer 사용 선언

ko_tfidf_vectorizer = TfidfVectorizer()

TF: 하나의 문서에서 특정 단어(Term)의 등장 빈도(Frequency)
IDF: 특정 단어가 등장한 문서(Document)의 빈도(Frequency)의 역수(Inverse)

- 데이터를 학습시키고, TDM 형태로 변환

ko_tfidf_dtm = ko_tfidf_vectorizer.fit_transform(ko_word_joined)
ko_tfidf_tdm = ko_tfidf_dtm.T

- 이름 가져오기

ko_tfidf_tdm_word = ko_tfidf_vectorizer.get_feature_names()

● get_feature_names(): 인덱스에서 이름 가져옴

- 코사인 거리 계산

ko_tfidf_dist = 1-cosine_similarity(ko_tfidf_tdm)

● cosine_similarity() : 코사인 유사도 측정
같은 방향(0°) 1 / 완전히 반대 방향 (180°) -1 / 서로 독립적(90°) 0
-> 유사할 수록 1에 가까움

● 1 - cosine_similarity() : 코사인 거리 계산
같은 방향(0°) 0 / 완전히 반대 방향(180°) 2 /서로 독립적(90°) 1
-> 군집 분석을 위해서는 거리의 개념이 필요함
다를 수록 숫자가 커지고, 가까울 수록 작은 값 구하도록 1 에서 cosine_similarity 빼줌

3. 군집분석 수행

- 군집 수 설정

k = 5

- K-means 적용

ko_kmeans_model = KMeans(n_clusters=k, init='k-means++', max_iter=10, n_init=10, random_state=777).fit(ko_tfidf_tdm)

KMeans 하이퍼파라미터

n_cluster : 클러스터의 수(k) 설정
init : 초기화 메소드 (기본값 k-means++)
max_iter : 반복 실행하는 최대 횟수
n_init : 초기 중심위치 시도 횟수

- 군집 정렬

order_centroids = ko_kmeans_model.cluster_centers_.argsort()[:, ::-1] #오름차순

.cluster_centers_ : 좌표값 확인
argsort() : 인덱스를 리스트 형태로 반환

- 단어와 라벨 붙이기

ko_kmeans_model_word_label = ko_kmeans_model.labels_ 
word_dict = dict(zip(ko_tfidf_tdm_word, ko_kmeans_model_word_label))

각 군집에 속해 있는 라벨을 저장하고, 각각의 단어의 이름이 저장된 tdm 자료와 연결하여(zip) 사전화한다.
이 단어가 몇 번째 단어인지 매칭하는 작업이다. 라벨이 ID와 같은 역할을 하게 된다.

- 단어 군집화

for i in range(k) :
    word_cluster = [k for k, v in word_dict.items() if v == i]
    print('* cluster {}', format(i))
    print('Words: {}\n'.format(' '.join(str(x) for x in word_cluster)))

for문을 통해 n번째 문서가 군집에 어떤 단어가 있는지 확인한다.
군집별로 정리하여 군집 번호, 군집별로 조인된 단어들을 나열한다.

4. 덴드로그램 시각화

- ward 연결법 사용, 매트릭스 형태로 만들기

ko_linkage_matrix = ward(ko_tfidf_dist)
ko_linkage_matrix.shape
ko_linkage_matrix

1 - cosine_similarity로 계산한 거리를 ward의 군집간의 연결 방법을 사용하여 하나의 매트릭스로 만든다.
2585개의 단어에 대해 4개의 군집으로 나눠진다.

● ward 연결법
연결될 수 있는 군집 조합을 만들고, 군집 내 편차들의 제곱합을 기준으로 오차 제곱합을 측정하여
최소 제곱합을 가지게 되는 군집끼리 연결하는 방법

- 폰트 경로 설정

ko_font_location = "C:/Windows/Fonts/malgun.ttf"
ko_font_name = font_manager.FontProperties(fname=ko_font_location).get_name()
plt.rcParams['font.family'] = ko_font_name

한글의 경우 폰트 경로를 윈도우 폰트로 설정하여 폰트 깨짐을 방지해야 한다.

- 덴드로그램 그리기

fig, ax = plt.subplots(figsize=(100,60))
plt.title('Clustering Dendrogram')
plt.ylabel('Distance')
plt.xlabel('Words')
ax = dendrogram(ko_linkage_matrix, leaf_font_size=10, leaf_rotation=50, orientation='top', labels=ko_tfidf_tdm_word)
plt.show()

덴드로그램의 경우 위에서 분석한 군집분석 결과와 100% 일치하지 않는다.
전반적인 단어의 묶임 현상을 보기 위한 그림으로 경향 전달의 목적이다.
따라서 덴드로그램을 가지고 어떤 군집들이 묶여있는지를 하나씩 파악하는 것은 불가능하다.

참고강의 : 동아대 INSPIRE - python 텍스트마이닝 28강 한글 Word Clustering

저작자표시 비영리 변경금지

'Ability 🌱 > Python' 카테고리의 다른 글

[텍스트마이닝] Word2Vec Modeling 실습 (0)	2023.01.30
[텍스트마이닝] LDA와 Topic Modeling 개념 및 활용 (1)	2023.01.16
[텍스트마이닝] 감정점수를 계산하여 Sentiment Analysis 후 시각화 하기 (0)	2023.01.06
[텍스트마이닝] 조바이든 대통령 취임식 연설문 전처리 후 워드클라우드 그리기 (0)	2022.12.30
[Python] pandas 함수 (0)	2022.04.21

InYoung.log

CATEGORIES