[ํ ์คํธ๋ง์ด๋] LDA์ Topic Modeling ๊ฐ๋ ๋ฐ ํ์ฉ
Topic Modeling
๋ฌธ์๋ฅผ ์ด๋ฃจ๊ณ ์๋ ํค์๋๋ค์ ๋ฐํ์ผ๋ก ๋ฌธ์์์ ์ฃผ์ (Topic)๋ฅผ ๋์ถํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ ํต๊ณ์ ๋ถ์๋ฐฉ๋ฒ์ด๋ค.
๋น์ ํ ํ ์คํธ ๋ถ์์ ๋ง์ด ์ฌ์ฉ๋๊ณ ์์ผ๋ฉฐ ๋ค์ํ ์ข ๋ฅ์ ๋ฐ์ดํฐ์๋ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
์ฃผ์ ๋ณ ํค์๋ ๋ถํฌ๋ฅผ ๋ฐํ์ผ๋ก ์ฃผ์ด์ง ๋ฌธ์์์ ๋ฐ๊ฒฌ๋ ํค์๋ ๋ถํฌ๋ฅผ ๋ถ์ํจ์ผ๋ก์จ ํด๋น ๋ฌธ์์ ์ฌ์ฉ๋ ์ฃผ์ ๋ค์ ์ถ์ ํ๊ณ ๋ฌธ์๋ค์ ์ฃผ์ ๋ณ๋ก ๋ถ๋ฅํ๋ค. ๋ํ, ๋ฌธ์๋ค์ด ์ด๋ค ์ฃผ์ ๋ค์ ํจ๊ป ๋ค๋ฃจ๊ณ ์์์ง ์์ธก์ด ๊ฐ๋ฅํ๊ณ ์๊ฐ์ ๋ฐ๋ผ ์ฃผ์ ๋ค์ ๋ํฅ ํ์ ๊ณผ ์ ๊ท ๋ฌธ์๊ฐ ์ด๋ ์ฃผ์ ์ ๋ํ ๊ฒ์ธ์ง ๋ฑ์ ์ถ์ ํ ์ ์๋ค.
์ ์ฌ ๋๋ฆฌํด๋ ํ ๋น (Latent Dirichlet Allocation : LDA)
> ๊ฐ๋
๋๋ฆฌํด๋ ๋ถํฌ๋ฅผ ์ด์ฉํ์ฌ ์ฃผ์ด์ง ๋ฌธ์์ ์จ๊ฒจ์ ธ ์๋ ์ฃผ์ ๋ค์ ์ถ๋ก ํ๋ ํ๋ฅ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋๋ฆฌํด๋ ๋ถํฌ(Dirichlet distribution)๋ ์ฐ์ ํ๋ฅ ๋ถํฌ์ ํ๋๋ก, ๐์ฐจ์์ ์ค์ ๋ฒกํฐ ์ค ๋ฒกํฐ์ ์์๊ฐ ์์์ด๋ฉฐ ๋ชจ๋ ์์๋ฅผ ๋ํ ๊ฐ์ด 1์ธ ๊ฒฝ์ฐ (์ด๋ฅผ ๐-1์ฐจ์ ๋จ์ฒด๋ผ๊ณ ํ๋ค)์ ๋ํด ํ๋ฅ ๊ฐ์ด ์ ์๋๋ ๋ถํฌ์ด๋ค.
-> ๋ฐ๋ผ์ LDA์ ํ ๋น์ ์ดํฉ์ 1์ด ๋๋ค.
๊ฐ ์ฃผ์ ์์ ๋์ถํ ์ ์๋ ๋จ์ด๋ค์ ํ๋ฅ ๋ถํฌ๋ฅผ ์๊ณ ์์ ๋, ๋ฌด์์ ๊ณผ์ ์ ์ํด ๋ฌธ์๊ฐ ์์ฑ๋ ์ ์๋ค๊ณ ๊ฐ์ ํ๋ ๋ชจํ์ด๋ค. ํ๋์ ๋ฌธ์๋ ์ฌ๋ฌ ์ฃผ์ ๋ก ๊ตฌ์ฑ๋๊ณ , ๋ฌธ์์ ์ฃผ์ ๋ถํฌ์ ๋ฐ๋ผ ๋จ์ด์ ๋ถํฌ๊ฐ ๊ฒฐ์ ๋๋ค๋ ๊ฐ์ ํ์ ๋จ์ ๋ฌธ์๊ฐ ์์ฑ๋๋ค.
๋ฌธ์ ์ ์ฒด์ ์ฃผ์ , ๊ฐ ๋ฌธ์๋ณ ์ฃผ์ ๋น์จ, ๊ทธ๋ฆฌ๊ณ ๊ฐ ์ฃผ์ ์ ํฌํจ๋ ๋จ์ด๋ค์ ๋ถํฌ๋ฅผ ํ์ ํ๋ค.
LDA๋ ๋จ์ด ์ฐ์์ด ํ๋ฅ ์ ์ผ๋ก ์ฐ๊ด์ด ๋์ ๊ฒ๋ค๋ผ๋ฆฌ ๋ฌถ์ด์ค๋ค.
ํ ํฝ์ ์ ๋ชฉ์ ์ ํด์ฃผ์ง ์๊ธฐ ๋๋ฌธ์, ์ฌ์ฉ์์ ๋ค์ด๋ฐ ๊ณผ์ ์ด ํ์ํ๋ค.
์์ ์์์์๋ Arts, Budgets, Children, Education์ด ์ด์ ํด๋นํ๋ค.
> ์๋ฆฌ
์ ์ฒด ๋ฌธ์ ์งํฉ์ k๊ฐ์ ์ฃผ์ ๋ก ํํ์ด ๊ฐ๋ฅํ๋ค๊ณ ํ ๋, ๊ฐ๊ฐ์ ์ฃผ์ ์ ๋ํ ๋จ์ด ๋ถํฌ(๐ท๐)๋ฅผ ๋๋ฆฌํด๋ ๋ถํฌ ๐ท๋ก ์ ์ํ๋ค. ์ดํ ๊ฐ ๋จ์ ๋ฌธ์์์ ๋ํ๋๋ ๊ฐ๋ณ ์ฃผ์ ์ ๋น์จ ๋ถํฌ(๐ฝd)๋ฅผ ๋๋ฆฌํด๋ ๋ถํฌ α๋ก ์ ์ํ ํ ๊ฐ๊ฐ์ ๋จ์ด์ ๋ํด ์ฃผ์ ๋น์จ๋ก๋ถํฐ ์ฃผ์ ๋ฅผ ๋ฐฐ์ ํ๊ณ , ๊ฐ๋ณ ์ฃผ์ ์ ๋จ์ด ๋ถํฌ์์ ๋จ์ด๋ฅผ ๋ฐฐ์ ํ๋ค.
α, β ์ฃผ์ ์ ์(k)๋ ์ฌ์ ๊ฒฐ์ ์ด ๋์ด์ผ ํ๋ฉฐ, α, β๊ฐ์ด 1์ ์๋ ดํ ์๋ก ๋ฌธ์ ์งํฉ์ ๋ง์ ์ฃผ์ ๊ฐ ํฌํจ๋๊ณ , ์ฃผ์ ์ ๋ง์ ๋จ์ด๊ฐ ํฌํจ๋๋ค.
๊ฐ ๋ ธ๋ : ํ๋ฅ ๋ณ์
D :๋ชจ๋ ๋ฌธ์์ ๋ํด ๋ฐ๋ณต
K : ๋ชจ๋ ํ ํฝ์ ๋ํด ๋ฐ๋ณต
N : ๋ชจ๋ D์ ๋ํด ์ ์ฉ๋๋ฉด์ ๋์์ ๊ฐ ๋ฌธ์์ ๋ชจ๋ ๋จ์ด๋ค์ ๋ํด ๋ฐ๋ณต๋๋ค
α : ๋๋ฆฌํด๋ ํ์ดํผ ํผ๋ผ๋ฏธํฐ
n : ํ ํฝ ํ๋ผ๋ฏธํฐ
z(d,n) : d๋ฒ์งธ ๋ฌธ์์ n๋ฒ์งธ ๋จ์ด๊ฐ ์ถ์ถ๋ ํ ํฝ
w(d,n) : d๋ฒ์งธ ๋ฌธ์์ n๋ฒ์งธ ๋จ์ด
๊ฐ๊ฒฉ์ด ์ด์ดํ ์๋ก ์ ๊ตํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ ์ ์์ผ๋ฉฐ, ๊ฐ๊ฒฉ์ด ํด ์๋ก ํ๋ฅ ์ ์ผ๋ก ํฐ ๊ฐ์ ๊ฐ์ง๋ค.
์ฐธ๊ณ ์๋ฃ
๋์๋ INSPIRE - python ํ ์คํธ๋ง์ด๋ 14๊ฐ Sentiment Analysis ์ค์ต
https://blog.naver.com/tmfl1447/222762259015
'Ability ๐ฑ > Python' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํ ์คํธ๋ง์ด๋] ํ๊ธ Word Clustering (0) | 2023.02.13 |
---|---|
[ํ ์คํธ๋ง์ด๋] Word2Vec Modeling ์ค์ต (0) | 2023.01.30 |
[ํ ์คํธ๋ง์ด๋] ๊ฐ์ ์ ์๋ฅผ ๊ณ์ฐํ์ฌ Sentiment Analysis ํ ์๊ฐํ ํ๊ธฐ (0) | 2023.01.06 |
[ํ ์คํธ๋ง์ด๋] ์กฐ๋ฐ์ด๋ ๋ํต๋ น ์ทจ์์ ์ฐ์ค๋ฌธ ์ ์ฒ๋ฆฌ ํ ์๋ํด๋ผ์ฐ๋ ๊ทธ๋ฆฌ๊ธฐ (0) | 2022.12.30 |
[Python] pandas ํจ์ (0) | 2022.04.21 |