Ability ๐ฑ
๋ฐ์ดํฐ ์๋น์๋ ๋ฐ์ดํฐ์ ์ก์ธ์คํด์ผ ํ๋ ์กฐ์ง ๋ด ์ฌ๋ ๋๋ ์ ํ๋ฆฌ์ผ์ด์ ์ผ๋ก ์ ์ํ ์ ์์ต๋๋ค. ๋ฐ์ดํฐ ์์ง๋์ด๊ฐ ์ํํ๋ ๋ชจ๋ ์์ ์ ๋ฐ์ดํฐ ์๋น์๊ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ ์ฉํ๊ณ ์ฝ๊ฒ ์ก์ธ์คํ ์ ์๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ ์ ํ ๋๊ตฌ๋ฅผ ํตํด ์ ์ ํ ๋ฐ์ดํฐ ์๋น์์๊ฒ ์ ์ ํ ๋ฐ์ดํฐ๋ฅผ ์ ์์ ์ ๊ณตํ์ฌ ๊ธฐ์ ์ด ์ ๋ณด์ ๊ทผ๊ฑฐํ ์์ฌ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๋๋ก ํ๋ ๊ฒ์ ๋๋ค. ์ด ์ฅ์์๋ ๋ค์ ์ฃผ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๋ฐ์ดํฐ ๋ฏผ์ฃผํ์ ์ํฅ ์ดํด ๋ฐ์ดํฐ ์๊ฐํ๋ก ๋น์ฆ๋์ค ์ฌ์ฉ์์ ์๊ตฌ ์ถฉ์กฑ ๊ตฌ์กฐํ๋ ๋ณด๊ณ ๋ก ๋ฐ์ดํฐ ๋ถ์๊ฐ์ ์๊ตฌ ์ฌํญ ์ถฉ์กฑ ๋ฐ์ดํฐ ๊ณผํ์ ๋ฐ ML ๋ชจ๋ธ์ ์๊ตฌ ์ฌํญ ์ถฉ์กฑ 1. ๋ฐ์ดํฐ ๋ฏผ์ฃผํ์ ์ํฅ ์ดํด ๋ฐ์ดํฐ ๋ฏผ์ฃผํ๋ ์ฆ๊ฐํ๋ ์ฌ์ฉ์๋ฅผ ์ํ ๋ฐ์ดํฐ์ ์ ๊ทผ์ฑ์ ์๊ธฐ์ ์ ํ๊ณ ๋น์ฉ ํจ์จ์ด ๋์ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐํํจ์ผ๋ก์จ ๋๋ถ..
ํ๋ ์บํผํ ๋ฐ์ดํฐ ์์ง ๊ธฐ๊ฐ : 2010๋ 12์ 17์ผ ~ 2023๋ 1์ 4์ผ ์์ง ๋๊ตฌ : google-play-scraper ๋ถ์ ๋๊ตฌ : ํ ์คํฐ ๋ฐ์ดํฐ ๊ฐ์ : 3324๊ฐ ๋ฐ์ดํฐ ์์ฑ : reviewId, userName, userImage, content, score, thumbsUpCount, reviewCreatedVerision, at, replyContent, repliedAt ๋ฐ์ดํฐ ์์ฑ ์ค๋ช reviewId : ๊ฐ์ธ๋ณ ์๋ณ ๋ฆฌ๋ทฐ ์์ด๋ userName : ๋๋ค์ userImage : ํ๋กํ ์ฌ์ง url content : ๋ฆฌ๋ทฐ ๋ด์ฉ score : ๋ณ์ (1~5) thumbsUpCount : ์ฌ์ฉ์ n๋ช ์ด ์ด ๋ฆฌ๋ทฐ๊ฐ ์ ์ฉํ๋ค๊ณ ํ๊ฐํจ reviewCreatedVersion : ์์ฑ๋ ๋ฆฌ..
ํ๊ธ Word Clustering 1. ํจํค์ง ๋ฐ ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ - ํจํค์ง ๋ถ๋ฌ์ค๊ธฐ import pickle from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.cluster import KMeans from scipy.cluster.hierarchy import dendrogram, ward from sklearn.metrics.pairwise import cosine_similarity from matplotlib import font_manager import matplotlib.pyplot as plt - ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ with open('ko_stopped_join.bin','rb') as fp : ko..
๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ์ ์ฌ๋ฌ ์์ค์์ ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ต์ ํ ๋ฐ ๋ณํํ๋ฉฐ ๋ฐ์ดํฐ ์๋น์๊ฐ ์ฌ์ฉํ ์ ์๋๋ก ํ๋ ํ๋ก์ธ์ค์ ๋๋ค. ๋ฐ์ดํฐ ์์ง๋์ด๋ง ์ญํ ์ ์ค์ํ ๊ธฐ๋ฅ์ ์ด๋ฌํ ํ์ดํ๋ผ์ธ์ ์ค๊ณํ๊ฑฐ๋ ์ค๊ณํ๋ ๋ฅ๋ ฅ์ ๋๋ค. ์ด ์ฅ์์๋ ๋ค์ ์ฃผ์ ๋ฅผ ๋ค๋ฃน๋๋ค. ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ์ค๊ณ ์์ ์ ๊ทผ ๋ฐ์ดํฐ ์๋น์ ์๋ณ ๋ฐ ์๊ตฌ ์ฌํญ ์ดํด ๋ฐ์ดํฐ ์์ค ์๋ณ ๋ฐ ๋ฐ์ดํฐ ์์ง ๋ฐ์ดํฐ ๋ณํ ๋ฐ ์ต์ ํ ์๋ณ ๋ฐ์ดํฐ ๋งํธ์ ๋ฐ์ดํฐ ๋ก๋ ํ์ดํธ๋ณด๋ ์ธ์ ๋ง๋ฌด๋ฆฌ 1. ๋ฐ์ดํฐ ํ์ดํ๋ผ์ธ ์ํคํ ์ฒ ์ ๊ทผ ์๋ก์ด ๋ฐ์ดํฐ ์์ง๋์ด๋ง ํ๋ก์ ํธ๋ฅผ ์์ํ ๋ ํํ ๋ณผ ์ ์๋ ์ค์๋ ๋ชจ๋ ์์ ์ ํ ๋ฒ์ ์ํํ์ฌ ๋ชจ๋ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ํฌํจํ๋ ์๋ฃจ์ ์ ๋ง๋๋ ๊ฒ์ ๋๋ค. ๋ณด๋ค ๋์ ์ ๊ทผ๋ฒ์ ๊ตฌ์ฒด์ ์ธ ์ฌ์ฉ ์ฌ๋ก๋ฅผ ์๋ณํ๊ณ , ๊ทธ ํ๋์ ๊ฒฐ๊ณผ์ ..
Word2Vec ์ด๋ก one-hot encoding์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ํ๋ผ ๋ ์ด ๋จ์ด ์๋งํผ์ ๊ธธ์ด์ ๋ฒกํฐ์์ ๋ค๋ฅธ ๋ชจ๋ ๊ฐ์ 0์ผ๋ก ํ๊ณ ๋จ์ด ๋ฒํธ์ ํด๋นํ๋ ์์๋ง 1๋ก ํ์ํ๋ค. 'ํ ๋ผ', '๋์๊ด', '๋ฌผ' 3 ๋จ์ด๋ง ์๊ณ ์์๋๋ก 1~3๋ฒ์ด๋ผ๋ฉด ํ ๋ผ๋(1,0,0), ๋์๊ด์(0,1,0), ๋ฌผ์(0,0,1)๋ก ๋ํ๋๋ค. ๋จ์ด์ ์๋ฏธ๋ฅผ ๊ณ ๋ คํ์ง ์์ผ๋ฉฐ ๋ฒกํฐ์ ๊ธธ์ด๊ฐ ์ด ๋จ์ด ์๊ฐ ๋๋ฏ๋ก ํฌ๋ฐํ ํํ๊ฐ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด์ ์๋ฏธ๋ฅผ ๊ณ ๋ คํ์ฌ ์กฐ๋ฐํ ์ฐจ์์ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๊ฒ์ ๋จ์ด ์๋ฒ ๋ฉ์ด๋ผ๊ณ ํ๋ค. ๋จ์ด ์๋ฒ ๋ฉ์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํํํ๊ธฐ ๋๋ฌธ์ one-hot encoding๋ณด๋ค ํ์ต ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค. ๋จ์ด ์๋ฒ ๋ฉ์ ์ข ๋ฅ์๋ LSA, Word2Vec, GloVe, F..
Topic Modeling ๋ฌธ์๋ฅผ ์ด๋ฃจ๊ณ ์๋ ํค์๋๋ค์ ๋ฐํ์ผ๋ก ๋ฌธ์์์ ์ฃผ์ (Topic)๋ฅผ ๋์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํต๊ณ์ ๋ถ์๋ฐฉ๋ฒ์ด๋ค. ๋น์ ํ ํ ์คํธ ๋ถ์์ ๋ง์ด ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค. ์ฃผ์ ๋ณ ํค์๋ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ์ด์ง ๋ฌธ์์์ ๋ฐ๊ฒฌ๋ ํค์๋ ๋ถํฌ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ ํด๋น ๋ฌธ์์ ์ฌ์ฉ๋ ์ฃผ์ ๋ค์ ์ถ์ ํ๊ณ ๋ฌธ์๋ค์ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ๋ค. ๋ํ, ๋ฌธ์๋ค์ด ์ด๋ค ์ฃผ์ ๋ค์ ํจ๊ป ๋ค๋ฃจ๊ณ ์์์ง ์์ธก์ด ๊ฐ๋ฅํ๊ณ ์๊ฐ์ ๋ฐ๋ผ ์ฃผ์ ๋ค์ ๋ํฅ ํ์ ๊ณผ ์ ๊ท ๋ฌธ์๊ฐ ์ด๋ ์ฃผ์ ์ ๋ํ ๊ฒ์ธ์ง ๋ฑ์ ์ถ์ ํ ์ ์๋ค. ์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น (Latent Dirichlet Allocation : LDA) > ๊ฐ๋ ๋๋ฆฌํด๋ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์ฃผ์ด์ง ๋ฌธ์์ ์จ๊ฒจ์ ธ ์๋ ์ฃผ์ ๋ค์ ์ถ๋ก ํ๋ ํ๋ฅ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ์ด..
๊ฐ์ ๋ถ์ (Sentiment Analysis) 1. ํจํค์ง ๋ฐ ๋ฐ์ดํฐ ํ์ผ ๋ถ๋ฌ์ค๊ธฐ - ํจํค์ง ๋ถ๋ฌ์ค๊ธฐ import pandas as pd from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import PorterStemmer import re - ํ์ผ ๋ถ๋ฌ์ค๊ธฐ file = pd.read_csv('wos_ai_.csv', encoding='utf-8') file 2. ์ด๋ก/์ฐ๋ ๊ตฌ๋ถ ๋ฐ ๋ฐ์ดํฐ์ ์ค๋น - ์ด๋ก / ์ฐ๋ ๊ตฌ๋ถ data = file.ABSTRACT year = file.YEAR - ๋น ๋ฐ์ดํฐ์ ์ค๋น doc_set = [] words = [] wordsForSentiment = [] 3..
ํ๋์บํผํ ๊ตฌ๊ธ ํ๋ ์ด์คํ ์ด ๋ฆฌ๋ทฐ๋ ๋ชจ๋ฌ ์๋์ฐ๋ฅผ ํตํด ์ ๊ณต๋๋ค ๋ธ๋ผ์ฐ์ ์์ ๋ ์ด์ด๊ฐ ๊น๋ ค ์๊ณ ์คํฌ๋กค ํ ๋๋ง๋ค ์๋ก์ด ๋ฆฌ๋ทฐ๋ฅผ ๋ณด์ฌ์ฃผ๋ ๋ฌดํ ์คํฌ๋กค ํํ์ด๋ค ๋ฐ๋ผ์ URL์ด ๋ณํ์์ด ๊ทธ๋๋ก ํ์ด์ง๋๋ฉฐ, ๋ค์ ํ์ด์ง๋ก ๋์ด๊ฐ ์ ์๋ ๋ฒํผ๋ ์๋ค -> ์ด ๋ถ๋ถ์ด ๋ฐ์ดํฐ ํฌ๋กค๋ง ๋ณต์ก๋๋ฅผ ์์ง ์์น์์ผฐ๋ค Uipath๋ก ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ ํฌ๋กค๋ง RPA ๋๊ตฌ ์ค ํ๋์ธ Uipath๋ฅผ ์ด์ฉํ์ฌ ๊ตฌ๊ธ ํ๋ ์ด์คํ ์ด ๋ฆฌ๋ทฐ ๋ฐ์ดํฐ๋ฅผ ํฌ๋กค๋งํ๋ค โ Uipath ํฌ๋กค๋ง ํ๋ก์ธ์ค Flow chart โก๏ธ ํ ์ด๋ธ ์ถ์ถ โก๏ธ ์์ ์ ์ฅ 1๏ธโฃ Main Sequence์ Flow chart ์ถ๊ฐ(Flow chart๋ฅผ ๋ฐํ์ผ๋ก ์์ ) 2๏ธโฃ ํ ์ด๋ธ ์ถ์ถ 2-1. ์ถ๊ฐ๋ Flow chart์ Sequence ์ถ๊ฐ ํ ์์๋ ธ๋๋ก ์ง์ 2-..