Topic Modeling

๋ฌธ์„œ๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ๋Š” ํ‚ค์›Œ๋“œ๋“ค์„ ๋ฐ”ํƒ•์œผ๋กœ ๋ฌธ์„œ์—์„œ ์ฃผ์ œ(Topic)๋ฅผ ๋„์ถœํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ํ†ต๊ณ„์  ๋ถ„์„๋ฐฉ๋ฒ•์ด๋‹ค.

๋น„์ •ํ˜• ํ…์ŠคํŠธ ๋ถ„์„์— ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์œผ๋ฉฐ ๋‹ค์–‘ํ•œ ์ข…๋ฅ˜์˜ ๋ฐ์ดํ„ฐ์—๋„ ์ ์šฉ ๊ฐ€๋Šฅํ•˜๋‹ค.

 

์ฃผ์ œ๋ณ„ ํ‚ค์›Œ๋“œ ๋ถ„ํฌ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ฃผ์–ด์ง„ ๋ฌธ์„œ์—์„œ ๋ฐœ๊ฒฌ๋œ ํ‚ค์›Œ๋“œ ๋ถ„ํฌ๋ฅผ ๋ถ„์„ํ•จ์œผ๋กœ์จ ํ•ด๋‹น ๋ฌธ์„œ์— ์‚ฌ์šฉ๋œ ์ฃผ์ œ๋“ค์„ ์ถ”์ •ํ•˜๊ณ  ๋ฌธ์„œ๋“ค์„ ์ฃผ์ œ๋ณ„๋กœ ๋ถ„๋ฅ˜ํ•œ๋‹ค. ๋˜ํ•œ, ๋ฌธ์„œ๋“ค์ด ์–ด๋–ค ์ฃผ์ œ๋“ค์„ ํ•จ๊ป˜ ๋‹ค๋ฃจ๊ณ  ์žˆ์„์ง€ ์˜ˆ์ธก์ด ๊ฐ€๋Šฅํ•˜๊ณ  ์‹œ๊ฐ„์— ๋”ฐ๋ผ ์ฃผ์ œ๋“ค์˜ ๋™ํ–ฅ ํŒŒ์•…๊ณผ ์‹ ๊ทœ ๋ฌธ์„œ๊ฐ€ ์–ด๋Š ์ฃผ์ œ์— ๋Œ€ํ•œ ๊ฒƒ์ธ์ง€ ๋“ฑ์„ ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.

 

 

 

์ž ์žฌ ๋””๋ฆฌํด๋ ˆ ํ• ๋‹น (Latent Dirichlet Allocation : LDA)

> ๊ฐœ๋…

๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ๋ฅผ ์ด์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ๋ฌธ์„œ์— ์ˆจ๊ฒจ์ ธ ์žˆ๋Š” ์ฃผ์ œ๋“ค์„ ์ถ”๋ก ํ•˜๋Š” ํ™•๋ฅ ๋ชจ๋ธ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด๋‹ค.

๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ(Dirichlet distribution)๋Š” ์—ฐ์† ํ™•๋ฅ ๋ถ„ํฌ์˜ ํ•˜๋‚˜๋กœ, ๐’Œ์ฐจ์›์˜ ์‹ค์ˆ˜ ๋ฒกํ„ฐ ์ค‘ ๋ฒกํ„ฐ์˜ ์š”์†Œ๊ฐ€ ์–‘์ˆ˜์ด๋ฉฐ ๋ชจ๋“  ์š”์†Œ๋ฅผ ๋”ํ•œ ๊ฐ’์ด 1์ธ ๊ฒฝ์šฐ (์ด๋ฅผ ๐’Œ-1์ฐจ์› ๋‹จ์ฒด๋ผ๊ณ  ํ•œ๋‹ค)์— ๋Œ€ํ•ด ํ™•๋ฅ ๊ฐ’์ด ์ •์˜๋˜๋Š” ๋ถ„ํฌ์ด๋‹ค.
-> ๋”ฐ๋ผ์„œ LDA์˜ ํ• ๋‹น์˜ ์ดํ•ฉ์€ 1์ด ๋œ๋‹ค.

 

๊ฐ ์ฃผ์ œ์—์„œ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋‹จ์–ด๋“ค์˜ ํ™•๋ฅ  ๋ถ„ํฌ๋ฅผ ์•Œ๊ณ  ์žˆ์„ ๋•Œ, ๋ฌด์ž‘์œ„ ๊ณผ์ •์— ์˜ํ•ด ๋ฌธ์„œ๊ฐ€ ์ƒ์„ฑ๋  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜๋Š” ๋ชจํ˜•์ด๋‹ค. ํ•˜๋‚˜์˜ ๋ฌธ์„œ๋Š” ์—ฌ๋Ÿฌ ์ฃผ์ œ๋กœ ๊ตฌ์„ฑ๋˜๊ณ , ๋ฌธ์„œ์˜ ์ฃผ์ œ ๋ถ„ํฌ์— ๋”ฐ๋ผ ๋‹จ์–ด์˜ ๋ถ„ํฌ๊ฐ€ ๊ฒฐ์ •๋œ๋‹ค๋Š” ๊ฐ€์ • ํ•˜์— ๋‹จ์œ„ ๋ฌธ์„œ๊ฐ€ ์ƒ์„ฑ๋œ๋‹ค.

 

๋ฌธ์„œ ์ „์ฒด์˜ ์ฃผ์ œ, ๊ฐ ๋ฌธ์„œ๋ณ„ ์ฃผ์ œ ๋น„์œจ, ๊ทธ๋ฆฌ๊ณ  ๊ฐ ์ฃผ์ œ์— ํฌํ•จ๋  ๋‹จ์–ด๋“ค์˜ ๋ถ„ํฌ๋ฅผ ํŒŒ์•…ํ•œ๋‹ค.

 

 

 

LDA๋Š” ๋‹จ์–ด ์“ฐ์ž„์ด ํ™•๋ฅ ์ ์œผ๋กœ ์—ฐ๊ด€์ด ๋†’์€ ๊ฒƒ๋“ค๋ผ๋ฆฌ ๋ฌถ์–ด์ค€๋‹ค.

ํ† ํ”ฝ์˜ ์ œ๋ชฉ์„ ์ •ํ•ด์ฃผ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ์‚ฌ์šฉ์ž์˜ ๋„ค์ด๋ฐ ๊ณผ์ •์ด ํ•„์š”ํ•˜๋‹ค.

์œ„์˜ ์˜ˆ์‹œ์—์„œ๋Š” Arts, Budgets, Children, Education์ด ์ด์— ํ•ด๋‹นํ•œ๋‹ค.

 

 

> ์›๋ฆฌ

์ „์ฒด ๋ฌธ์„œ ์ง‘ํ•ฉ์„ k๊ฐœ์˜ ์ฃผ์ œ๋กœ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ํ•  ๋•Œ, ๊ฐ๊ฐ์˜ ์ฃผ์ œ์— ๋Œ€ํ•œ ๋‹จ์–ด ๋ถ„ํฌ(๐œท๐’Œ)๋ฅผ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ ๐œท๋กœ ์ •์˜ํ•œ๋‹ค. ์ดํ›„ ๊ฐ ๋‹จ์œ„ ๋ฌธ์„œ์—์„œ ๋‚˜ํƒ€๋‚˜๋Š” ๊ฐœ๋ณ„ ์ฃผ์ œ์˜ ๋น„์œจ ๋ถ„ํฌ(๐œฝd)๋ฅผ ๋””๋ฆฌํด๋ ˆ ๋ถ„ํฌ α๋กœ ์ •์˜ํ•œ ํ›„ ๊ฐ๊ฐ์˜ ๋‹จ์–ด์— ๋Œ€ํ•ด ์ฃผ์ œ ๋น„์œจ๋กœ๋ถ€ํ„ฐ ์ฃผ์ œ๋ฅผ ๋ฐฐ์ •ํ•˜๊ณ , ๊ฐœ๋ณ„ ์ฃผ์ œ์˜ ๋‹จ์–ด ๋ถ„ํฌ์—์„œ ๋‹จ์–ด๋ฅผ ๋ฐฐ์ •ํ•œ๋‹ค.

α, β ์ฃผ์ œ์˜ ์ˆ˜(k)๋Š” ์‚ฌ์ „ ๊ฒฐ์ •์ด ๋˜์–ด์•ผ ํ•˜๋ฉฐ, α, β๊ฐ’์ด 1์— ์ˆ˜๋ ดํ• ์ˆ˜๋ก ๋ฌธ์„œ ์ง‘ํ•ฉ์— ๋งŽ์€ ์ฃผ์ œ๊ฐ€ ํฌํ•จ๋˜๊ณ , ์ฃผ์ œ์— ๋งŽ์€ ๋‹จ์–ด๊ฐ€ ํฌํ•จ๋œ๋‹ค.

 

 

 

๊ฐ ๋…ธ๋“œ : ํ™•๋ฅ  ๋ณ€์ˆ˜

 

D :๋ชจ๋“  ๋ฌธ์„œ์— ๋Œ€ํ•ด ๋ฐ˜๋ณต

K : ๋ชจ๋“  ํ† ํ”ฝ์— ๋Œ€ํ•ด ๋ฐ˜๋ณต

N : ๋ชจ๋“  D์— ๋Œ€ํ•ด ์ ์šฉ๋˜๋ฉด์„œ ๋™์‹œ์— ๊ฐ ๋ฌธ์„œ์˜ ๋ชจ๋“  ๋‹จ์–ด๋“ค์— ๋Œ€ํ•ด ๋ฐ˜๋ณต๋œ๋‹ค

 

α : ๋””๋ฆฌํด๋ ˆ ํ•˜์ดํผ ํผ๋ผ๋ฏธํ„ฐ

n : ํ† ํ”ฝ ํŒŒ๋ผ๋ฏธํ„ฐ

 

z(d,n) : d๋ฒˆ์งธ ๋ฌธ์„œ์˜ n๋ฒˆ์งธ ๋‹จ์–ด๊ฐ€ ์ถ”์ถœ๋œ ํ† ํ”ฝ

w(d,n) : d๋ฒˆ์งธ ๋ฌธ์„œ์˜ n๋ฒˆ์งธ ๋‹จ์–ด

 

๊ฐ„๊ฒฉ์ด ์ด˜์ด˜ํ•  ์ˆ˜๋ก ์ •๊ตํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ์œผ๋ฉฐ, ๊ฐ„๊ฒฉ์ด ํด ์ˆ˜๋ก ํ™•๋ฅ ์ ์œผ๋กœ ํฐ ๊ฐ’์„ ๊ฐ€์ง„๋‹ค.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


์ฐธ๊ณ ์ž๋ฃŒ

๋™์•„๋Œ€ INSPIRE - python ํ…์ŠคํŠธ๋งˆ์ด๋‹ 14๊ฐ• Sentiment Analysis ์‹ค์Šต

https://blog.naver.com/tmfl1447/222762259015

 

 

 

 

 

 

 

๋ฐ˜์‘ํ˜•

BELATED ARTICLES

more