Ability ๐ฑ/Python


ํ๊ธ Word Clustering 1. ํจํค์ง ๋ฐ ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ - ํจํค์ง ๋ถ๋ฌ์ค๊ธฐ import pickle from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from scipy.cluster.hierarchy import dendrogram, ward from sklearn.metrics.pairwise import cosine_similarity from matplotlib import font_manager import matplotlib.pyplot as plt - ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ with open('ko_stopped_join.bin','rb') as fp : ko..


Word2Vec ์ด๋ก one-hot encoding์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ผ ๋ ์ด ๋จ์ด ์๋งํผ์ ๊ธธ์ด์ ๋ฒกํฐ์์ ๋ค๋ฅธ ๋ชจ๋ ๊ฐ์ 0์ผ๋ก ํ๊ณ ๋จ์ด ๋ฒํธ์ ํด๋นํ๋ ์์๋ง 1๋ก ํ์ํ๋ค. 'ํ ๋ผ', '๋์๊ด', '๋ฌผ' 3 ๋จ์ด๋ง ์๊ณ ์์๋๋ก 1~3๋ฒ์ด๋ผ๋ฉด ํ ๋ผ๋(1,0,0), ๋์๊ด์(0,1,0), ๋ฌผ์(0,0,1)๋ก ๋ํ๋๋ค. ๋จ์ด์ ์๋ฏธ๋ฅผ ๊ณ ๋ คํ์ง ์์ผ๋ฉฐ ๋ฒกํฐ์ ๊ธธ์ด๊ฐ ์ด ๋จ์ด ์๊ฐ ๋๋ฏ๋ก ํฌ๋ฐํ ํํ๊ฐ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด์ ์๋ฏธ๋ฅผ ๊ณ ๋ คํ์ฌ ์กฐ๋ฐํ ์ฐจ์์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๊ฒ์ ๋จ์ด ์๋ฒ ๋ฉ์ด๋ผ๊ณ ํ๋ค. ๋จ์ด ์๋ฒ ๋ฉ์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ๊ธฐ ๋๋ฌธ์ one-hot encoding๋ณด๋ค ํ์ต ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค. ๋จ์ด ์๋ฒ ๋ฉ์ ์ข ๋ฅ์๋ LSA, Word2Vec, GloVe, F..


Topic Modeling ๋ฌธ์๋ฅผ ์ด๋ฃจ๊ณ ์๋ ํค์๋๋ค์ ๋ฐํ์ผ๋ก ๋ฌธ์์์ ์ฃผ์ (Topic)๋ฅผ ๋์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํต๊ณ์ ๋ถ์๋ฐฉ๋ฒ์ด๋ค. ๋น์ ํ ํ ์คํธ ๋ถ์์ ๋ง์ด ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค. ์ฃผ์ ๋ณ ํค์๋ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ์ด์ง ๋ฌธ์์์ ๋ฐ๊ฒฌ๋ ํค์๋ ๋ถํฌ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ ํด๋น ๋ฌธ์์ ์ฌ์ฉ๋ ์ฃผ์ ๋ค์ ์ถ์ ํ๊ณ ๋ฌธ์๋ค์ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ๋ค. ๋ํ, ๋ฌธ์๋ค์ด ์ด๋ค ์ฃผ์ ๋ค์ ํจ๊ป ๋ค๋ฃจ๊ณ ์์์ง ์์ธก์ด ๊ฐ๋ฅํ๊ณ ์๊ฐ์ ๋ฐ๋ผ ์ฃผ์ ๋ค์ ๋ํฅ ํ์ ๊ณผ ์ ๊ท ๋ฌธ์๊ฐ ์ด๋ ์ฃผ์ ์ ๋ํ ๊ฒ์ธ์ง ๋ฑ์ ์ถ์ ํ ์ ์๋ค. ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น (Latent Dirichlet Allocation : LDA) > ๊ฐ๋ ๋๋ฆฌํด๋ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์ฃผ์ด์ง ๋ฌธ์์ ์จ๊ฒจ์ ธ ์๋ ์ฃผ์ ๋ค์ ์ถ๋ก ํ๋ ํ๋ฅ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ์ด..


๊ฐ์ ๋ถ์ (Sentiment Analysis) 1. ํจํค์ง ๋ฐ ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ - ํจํค์ง ๋ถ๋ฌ์ค๊ธฐ import pandas as pd from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import PorterStemmer import re - ํ์ผ ๋ถ๋ฌ์ค๊ธฐ file = pd.read_csv('wos_ai_.csv', encoding='utf-8') file 2. ์ด๋ก/์ฐ๋ ๊ตฌ๋ถ ๋ฐ ๋ฐ์ดํฐ์ ์ค๋น - ์ด๋ก / ์ฐ๋ ๊ตฌ๋ถ data = file.ABSTRACT year = file.YEAR - ๋น ๋ฐ์ดํฐ์ ์ค๋น doc_set = [] words = [] wordsForSentiment = [] 3..


์กฐ ๋ฐ์ด๋ ๋ํต๋ น ์ทจ์์ ์ฐ์ค๋ฌธ ์๋ํด๋ผ์ฐ๋ Python์ ์ด์ฉํ์ฌ ์กฐ ๋ฐ์ด๋ ๋ํต๋ น ์ทจ์์ ์ฐ์ค๋ฌธ์ ํ ์คํธ ๋ถ์ํด ๋ณด์์ต๋๋ค. ์๋ ํ์ผ์ ์ ๊ฐ ์ค์ต์ ์ฌ์ฉํ ์์ด ์๋ฌธ ํ ์คํธ ์๋ฃ์ ๋๋ค. csv ํ์ผ์ ๊ฒฝ์ฐ ์์ ์ ์ด์ฉํด ๋ง์นจํ ๊ธฐ์ค์ผ๋ก ํ ์คํธ๋ฅผ ๋๋์๊ณ , ๊ทธ ์ธ ์ ์ฒ๋ฆฌ๋ ๋ชจ๋ ํ์ด์ฌ์ ํ์ฉํ์ต๋๋ค. 1. ๋ฐ์ดํฐ ์ค๋น - ํจํค์ง ๋ถ๋ฌ์ค๊ธฐ import pandas as pd import numpy as np import sklearn # ํน์ง ์ถ์ถ import re # ์ ๊ท์ from nltk.tokenize import word_tokenize # ๋จ์ด ํ ํฐํ from nltk.corpus import stopwords # ๋ถ์ฉ์ด from nltk.stem import PorterStemmer # ์ด..

pandas ํจ์ - ์๋ฃ๊ตฌ์กฐ ๋ฐ ๋ฐ์ดํฐ ๋ถ์/์ฒ๋ฆฌ๋ฅผ ์ํ ํ์ด์ฌ ํจํค์ง - ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์๋๋ ์๋ฃ ๊ตฌ์กฐ์ธ series์ data frame ์ฌ์ฉ import pandas as pd from pandas import Series, DataFrame Sereis - index์ value์ ํํ๋ฅผ ๊ฐ๊ณ ์๋ pandas ์๋ฃ ๊ตฌ์กฐ - series๋ index์ value๋ก ๊ตฌ์ฑ๋๋ค๋ ์ ์์ value๋ง ๊ฐ๋ ๋ฆฌ์คํธ์ ๊ตฌ๋ถ๋จ - index๋ ๊ธฐ๋ณธ๊ฐ์ผ๋ก 0,1,2,3... ์ผ๋ก ์๋ ์์ฑ a=Series([1,3,5,7]) a.values # ๊ฐ a.indext # ์ธ๋ฑ์ค # indext ๋ณ๊ฒฝ a2 = pd.Series([1,3,5,7], index=['a','b','c','d']) DataFrame - ์..

ํ์ด์ฌ ์๋ฃ ์ ํ ์ ํ ์์ ์ซ์ํ ์ ์ Integer 123, -48, 0 ์ค์ Float 3.14, -5.98, 8.0 ๋ฌธ์ํ String 'Hello', "world" ๋ฆฌ์คํธ List [1,2,3,4,5], [a,b,c,d,e] ํํ Tuple (1,2,3,4,5), (a,b,c,d,e,) ์งํฉ Set set("hello"), set([1,2,3]) ์ฌ์ Dictionary {'hello' : 'world', 'python' : 'programming'} ๋ ผ๋ฆฌ/๋ถ๋ฆฐ Boolean True or False ์ซ์ํ number - ์ซ์ ํํ๋ก ๊ตฌ์ฑ๋ ์๋ฃํ - ์ ์ํ, ์ค์ํ, 8์ง์, 16์ง์ ๋ฑ์ด ์์ ๋ฌธ์ํ string - ๋ฌธ์, ๋จ์ด ๋ฑ์ผ๋ก ๊ตฌ์ฑ๋ ์๋ฃํ - ๋จ์ผ ์ธ์ฉ ํ์ '' ๋ฐ ์ด์ค ์ธ์ฉ ..


์ ๊ฐ ์ฐธ๊ณ ํ๋ ์ฑ ์ ์ ๋๋ค. - ์ฌ์ค ์ ๋ ๋ฐฐ์๊ฐ๋ ๊ณผ์ ์ด๋ผ ์์ผ๋ก ์ฌ๋ฆฌ๋ ๊ธ์์ ํ๋ฆฐ ๊ฒ์ด ์๋ค๋ฉด ์ธ์ ๋ ํผ๋๋ฐฑ ์ฃผ์ธ์. ํ๋ก๊ทธ๋๋ฐ ์ธ์ด๋ ์ปดํจํฐ์์ ์๋ํ๋ ์ํํธ์จ์ด๋ฅผ ๋ง๋๋ ๋๊ตฌ ์ฆ, ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ๊ธฐ๊ณ์ด๋๋๋ค. ํ๋ก๊ทธ๋๋ฐ ์ธ์ด์๋ c/c++, Java, HTML, PHP ๋ฑ ์ฌ๋ฌ ์ข ๋ฅ๊ฐ ์๋๋ฐ ๊ทธ์ค ์ด๋ณด์๋ ๋ฐฐ์ฐ๊ธฐ ์ฌ์ด ํ์ด์ฌ์ ๋ํด ์์๋ณด์์! - ํ์ด์ฌ์ ํน์ง์ ๊ฐ๋ตํ ์ค๋ช ํ์๋ฉด 1. ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๋ก ํ์ธํ ์ ์์ด ์ฌ์ฉํ๊ธฐ ์ฌ์ด ํธ 2. ์คํ ์์ค๋ผ ๋ฌด๋ฃ๋ก ์ฌ์ฉํ ์ ์๊ณ ๋ค์ํ ์ธ๋ถ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค์ ๋ฌด๋ฃ๋ก ์ ๊ณต 3. ์ฌ๋ฌผ์ธํฐ๋ท๊ณผ ์ฐ๋์ด ์ ๋๋ฉฐ, ์น ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด ๋น ๋ฅธ ์น ํ๊ฒฝ์ ๊ตฌ์ถํ ์ ์์ - ์ด๋ ๊ฒ ์ฅ์ ์ด ๋ง์ ํ์ด์ฌ, ํจ๊ป ๋ค์ด๋ก๋๋ฅผ ํด๋ณผ๊น์?! https://www...