텍스트마이닝 기법과 ARIMA 모형을 활용한 배달의 민족 앱 리뷰 분석
텍스트마이닝 기법과 ARIMA 모형을 활용한 배달의 민족 앱 리뷰 분석
정 지 훈1·정 혜 인2·이 준 기3*
디지털콘텐츠학회논문지 Journal of Digital Contents Society Vol. 22, No. 2, pp. 291-299
Feb. 2021
연구 배경
모바일 애플리케이션 시장의 성장과 함께 앱 스토어 상에서 발생하는 사용자 리뷰의 수도 증가하고 있다.
모바일 애플리케이션의 사용자 리뷰는 애플리케이션에 대한 즉각적인 사용자 경험을 재구성한 사용자들의 직접적인 피드백으로, 서비스의 품질을 개선하고 누락된 기능을 보완하는 데 유용한 정보를 제공한다. 개발자들이 이러한 정보를 적시에 인식하고 행동을 취하기 위하여 사용자 리뷰로부터 필요한 정보를 획득하는 과정은 서비스 운영에 매우 중요하다.
하지만, 사용자 리뷰는 빠르고 정확하게 대응하기 어려운 특성을 가지고 있다.
① 양이 매우 많다.
매일 다량으로 발생하는 리뷰를 모두 이해하기 위해서는 많은 시간이 필요하다.
② 수많은 노이즈 단어가 포함되어 있다.
많은 리뷰에는 반복 단어, 한국어가 아닌 단어 등 분석하기에 적절하지 않은 것들이 포함되어 있다.
③ 대부분의 애플리케이션 사용자 리뷰는 주제가 분류되어 있지 않다.
해당 리뷰가 어떠한 주제에 해당하는지 분류하기 위해서는 관리자가 일일이 해석하는 과정이 필요하다.
연구 목적
본 연구에서는 ‘배달의 민족’ 애플리케이션의 리뷰의 개수를 시계열로 분석하여 과도한 리뷰가 발생했을 때
이를 탐지하고 해당 리뷰에 대한 토픽을 자동으로 할당하여 신속한 대응을 하고자 한다.
토픽 모델링으로 전체 리뷰의 주제를 분류한 후, 리뷰가 급증하는 일자의 리뷰를 따로 추출하여 분류된 주제와 감성분석 결과를 바탕으로 인사이트를 얻고자 한다. 시계열 데이터를 기반으로 리뷰 수의 이상치를 탐지함으로 서비스의 위험 요소를 적시에 감지할 뿐 아니라, 해당 이슈가 속한 주제를 토픽모델링을 근거로 자동 분류함으로써 리뷰 분석을 통한 이슈 탐지에 구체적인 방안을 제시한 것에 의의가 있다.
연구 방법
연구 절차
① 데이터 수집 - 배달의 민족 리뷰 데이터 수집
② 데이터 전처리 - 불용어 제거 및 형태소 분석
③ 데이터 분석 - LDA 토픽모델링, 시계열 이상치 탐지, 감성분석
① 앱 선정 및 데이터 수집
국내 배달 어플리케이션 중 시장점유율 1~4위 앱을 대상으로 구글 플레이 스토어에서 확인한 리뷰 평점은 아래와 같다.
배달의 민족 선정 이유
1. 리뷰 수가 다른 앱에 비하여 매우 많다.
- 전체 리뷰수가 204,579 건으로 2, 3, 4 위 평균(81,466 건)에 비하여 약 2.5배 많은 리뷰 수를 기록했다.
2. 평점이 1점에 매우 집중되어 있다.
- 평점의 경우 2.3점을 기록하며 다른 어플리케이션에 비하여 2점 정도 낮았다.
- 배달의 민족의 경우 1점이 매우 높고, 5점은 1점의 절반엔 미치지 못하는 분포를 띄고 있다.
데이터 수집
크롤러: Python 3.7, Selenium
수집 기간: 2016년 6월 ~ 2020년 10월
수집 항목 : 작성 날짜, 리뷰 내용, 리뷰 평가
수집된 리뷰 수: 71,435개
② 데이터 전처리
1. 정규표현식을 사용하여 기타 문장 부호 및 기호를 제외했다.
2. KoNLPy 패키지에서 제공하는 MeCab 형태소 분석기를 이용하여 부사, 관형사, 접속사, 감탄사, 조사, 형용사 등을 제외한 명사만 추출하였다.
3. 추출한 명사 중 빈도 수가 높지만 분석에 유의미하지 않은 '배민', '민족', ‘어플’ 등의 단어들은 불용어 처리하였다.
4. 토픽을 분석하기에 너무 짧은 문장을 제외하기 위하여 추출된 명사 수가 5개 미만인 리뷰를 제외하였다.
전처리 후 선정된 리뷰는 15,511건이며,
해당 리뷰에 포함된 명사는 총 145,328건, 리뷰는 1건 당 평균 9.37 건의 명사를 포함한다.
③ 데이터 분석
✔️ LDA 토픽모델링
LDA(Latent Dirichlet Allocation) 토픽모델링은 의미있는 주요 토픽들을 찾기 위한 확률 모델적 기법이다.
LDA 알고리즘은 문서 내 단어를 바탕으로 변수를 추론하고, 단어들에 대한 잠재 분포를 통해 k개의 토픽을 생성한다.
일반적으로 k개의 토픽의 수를 정하는 기준은 일반적으로 토픽의 혼잡도(Perplexity)와 일관성(Coherence)을 사용한다.혼잡도는 특정 확률 모델이 결과를 얼마나 잘 예측하는지 알아보기 위한 척도이며,
일관성은 토픽 내 단어의 유사도를 계산하여 해당 주제와 맞는 단어들로 구성되어 있는지 파악하는 척도이다.
본 연구에서는 Python TEANAPS 패키지를 활용하여 일관성과 응집도 점수를 분석하였다.
토픽의 개수를 2개에서 10개 까지 비교 분석해본 결과 토픽의 개수가 5개에서 6개로 변할 때
일관성 점수는 0.297 에서 0.324로 증가하였고, 혼잡도가 -6.6429에서 -6.65로 감소하였다.
따라서 본 연구에서 토픽의 개 수가 6개가 타당하다고 판단하였다.
각 토픽의 주제는 추출된 키워드의 의미와 토픽 내 키워드 간의 관계를 고려하여
4명의 연구자가 독립적으로 분석 후에 최종 합의를 통해 선정하였다.
✔️ 시계열 이상 탐지
시계열 이상치 탐지는 과거의 시계열 데이터를 바탕으로 모델을 생성하고 모델이 판단한 신뢰수준을 벗어나는 데이터를 이상치라고 판단한다.
개입 ARIMA 모형은 개입이 일어난 시점, 지시개입인지 계단 개입인지에 대한 가정을 해야한다.
이러한 단점을 보완하기 위해 이상치 형태를 4가지로 구분을 하여 이상치를 탐색하는 방법론을 사용하였다.
4가지 형태의 이상치는 Additive Outlier(AO), Innovational Outlier(IO), Level Shift(LS), Temporary Change(TC)가 있고 다음과 같은 특징을 가진다.
Additive Outlier(AO) | 이상치 발생 시점에만 영향을 끼침 |
Innovational Outlier(IO) | 이상치가 발생한 뒤에도 지속적으로 영향을 끼침 |
Level Shift(LS) | 이상치가 발생한 뒤 영구적으로 데이터의 패턴을 변화시킴 |
Temporary Change(TC) | 이상치가 발생한 뒤 점차적으로 줄 어드는 형태를 갖음 |
시계열 이상치 탐지를 위해 오픈소스인 R의 tsoutliers 패키지를 활용하였다.
본 연구에서 활용된 표본의 수집 기간은 약 5년에 해당하는 1,612일이므로, Lopez(2016)의 연구에서 표본의 크기가 450보다 높을 때 임계값을 4.0을 사용한 다는 근거를 따라 임계값을 4.0으로 설정하여 이상치를 발생시킨 개입 사건을 분석하였다.
이상치 탐지 분석 결과 총 42 건의 이상치가 발생하였다.
단순한 서비스 이용량 증가로 리뷰 수가 급증한 경우를 제외하기 위하여 이상치로 분류된 일자 중에서
가장 많이 발생한 토픽이 전체 리뷰 중에서 차지하는 비율 이 30%를 초과하는 경우만 유의미한 이상치로 분류하였다.
그 결과, 42건의 이상치 중에서 12건의 유의미한 이상치를 추출하여 토픽별 나타나는 양상과 구체적으로 관련된 이슈가 무엇인지 분석하였다.
✔️ 감성 분석
감성분석은 문서, 문단, 문장 등의 텍스트를 긍정 또는 부정으로 분류함으로써 사람의 태도, 성향과 같은 주관적인 데이터 를 연구하는 학문이다.
- 사전기반 감성분석: 미리 정의된 감성사전을 구축한 뒤, 감성사전을 기반으로 어휘를 판단하여 문장 등의 감성 극성을 판단한다.
- 머신러닝기반 감성분석: 문맥(context)안에서 단어의 감성을 판단하고 문맥 내의 감성의 가중치를 종합하여 문맥의 감성을 판단한다.
본 연구는 오픈소스 패키지 TEANAPS를 활용하여 이상치로 분류된 12개의 일자의 리뷰를 대상으로 감성분석을 진행한 후 일자별 평균 부정 리뷰의 비율을 도출하였다 (KoBERT 사전 훈련된 언어 모델을 사용함)
연구 결과
✔️ 토픽모델링 결과
주제 | 주요 단어 | 설명 |
결제 | 현금, 카드, 페이, 지불, 에러 | 지불 방법, 로그인 및 인증 |
기업윤리 | 수수료, 자영업자, 광고, 소비자, 기업 | 수수료 문제 등 기업윤리 |
이벤트 | 이벤트, 할인, 쿠폰, 포인트, 사용 | 서비스 이벤트 |
고객 리뷰 | 리뷰, 작성, 사진, 가게, 고객 | 서비스를 이용하는 고객이 작성한 리뷰 |
서비스 오류 | 고객, 센터, 전화, 취소, 관리, 연결 | 애플리케이션 서비스 오류 |
음식점 서비스 | 전화, 업체, 음식점, 메뉴, 가게 | 서비스 제공업체인 레스토랑의 서비스 관련 주제 |
✔️ 시계열 이상치 탐지 및 감성 분석 결과
<서비스 오류>
일자 | 2016-11-27 | 2017-06-11 | 2018-04-26 |
부정적인 감성 | 69% | 69% | 83% |
총 개수 | 228건 | ||
내용 | ‘무한 로딩’, ‘서버 접속 오류’, ‘네트워크 오류’ |
“무한로딩 아니 이거 왜 갑자기 인터넷 연결 확인하라면서 계속 안됩니까 인터넷 잘만되는데 배민만 안되요”,
“아니 서버가 왜 이러죠? 데이터를 사용하는 다른 어플과 인터넷은 잘돌아가는데 왜 배민어플만 데이터가 안돌아갑니까”
당일 네트워크 오류가 많이 발생하고, 특정 메뉴 사용 시 로딩이 길게 발생하는 일이 발생하였고,
서비스 오류가 발생한 날짜 중 2일은 일요일, 1건은 토요일에 해당하여 모두 주말에 발생했다.
주말에 서비스 모니터링을 강화하는 방법이 필요하며,
특히 ‘네트워크 서비스’와 ‘로딩’ 이 지속되는 현상에 대해 집중적으로 모니터링을 할 필요가 있음을 보여주고 있다.
<이벤트>, <서비스 오류>
일자 | 2016-07-27 | 2017-02-19 | 2017-10-29 | 2019-04-14~15 |
부정적인 감성 | 84.0% | 83.6% | 75.0% | 81.8% |
총 개수 | 376건 |
“이벤트한다고 광고 무지 때리더니 접속도 안된다.”,
“이벤트 참 좋 다 이벤트가 갑자기 로그아웃 되어있고 서버는 계속 튕기고”,
“어플에 이벤트 떠서 카톡 공유 엄청했었고 11시 딱 되서 갔는 데 로그아웃되고 뭡니까”
배달의 민족 이 벤트를 실시한 후, 접속을 했을 때 로그인이 안되거나 로그아웃이 되고 이후 접속 장애가 발생하는 서비스 오류가 발생한 것으로 보인다. 이에 따라 이벤트를 기획할 때 시스템의 과부화가 되지 않도록 면밀히 대비하는 것이 필요할 것으로 보인다.
<기업윤리>
일자 | 2018-01-24 | 2018-03-13 | 2019-06-18~20 | 2020-04-07 |
부정적인 감성 | 83.0% | 90.5% | 71.7% | 73.7% |
내용 | 고객 신상정보유출 | 미투 운동을 희화화 | 할인 이벤트의 공정성 논란 | 수수료 이슈 |
총 개수 | 1,113건 |
2018년 1월 24일
“개인정보 뿌려도 아무도 제재할 수 없다니.. 이 정도면 즉석만남 어플보다 위험한듯 전 요기요 로 떠날께요”, “억한 심정으로 개인정보를 고의적으로 유출한 업주에게 강력한 경고 밖에 주지 않는 어플에 어떻게 주소랑 전 화번호를 알려줄 수 있겠어요? 다시는 이용 안할렵니다”
2018년 3월 13일
“미투운동 희 화화에 고문치사사건 희화화라니 배달의 민족 정말 실망입니 다. 탈퇴하고 어플 지웁니다”, “미투운동을 희화화하는 콘텐츠 를 공개하는 것은 관리자가 공모전에 별 관심이 없거나 윤리적 이지 못한 것이겠죠. 저를 비롯한 많은 이들이 이번 사건을 계기로 이 어플을 삭제할 것입니다. “
2019년 6월 18일
“앱 사용은 일반인이, 그러나 할인 쿠폰은 연예인에게 쏘는 기업.. 저는 탈퇴하고 삭제“, “연예인한 테는 1만원 할인쿠폰 남발하고 일반 소비자에게는 몇 십원씩 적 립금 주는 이상한 어플 더 이상 안씁니다.”
2020년 4월 7일
“수수료 인상 너무 실 망스러워요 삭제합니다 소상공인 다음이 어플입니다 생각 좀 합시다 게다가 이 시국에.. 수수료 인상이라니요”, “독일업체의 독점이라서 그런가 수수료가 너무 비싸요 배달의 민족, 배달통, 요기요가 독일업체꺼라 그런지... 수수료가 너무 부담되네요”
건수가 매우 많다는 점에서 배달의 민족 어플리케이션의 ‘기업 윤리’ 측면에서 발생 하는 이슈들을 빠르게 처리할 필요하다는 점을 시사하고 있다.
<음식점 서비스>
일자 | 2018-01-24 | 2019-08-11 |
부정적인 감성 | 83.0% | 91.1% |
내용 | (기업 윤리 토픽과 동시 발생 이슈) | 주문 접수 오류 |
총 개수 | 931건 |
2019년 08월 11일
“아니 주문을 하고 결제까지 했는데 뭐 오류 다 매장은 주문 받은 것이 없다. 고객센터는 전화연결도 안되고 뭐 어쩌라는 건가요 다른 곳 시키려고 해도 음식이 올까봐 다른 곳은 시키지도 못하고 취소 빨리 해주세요”, “결제만 되고 주문 내역에 안들어갔네요. 해당 가게에 확인해보니 주문이 전혀 안 들어갔다고 합니다 결제 취소해주세요”
배달의 민족 서비스에서 음식점과 서비스 오류 대응팀 간의 채널이 있었다면,
해당 오류가 발생했을 때 좀 더 신속하게 대응이 가능할 것이다.
결론
한계점
- 단일 변수인 리뷰 수만으로 이상치를 탐지한다.
- 토픽모델링을 통한 토픽을 선정하고 해석하는데 연구자의 주관적 판단이 개입되었다.
- 기존 데이터에 없던 새로운 이슈가 발생한다면 토픽을 정확하게 분류하지 못한다는 한계점이 있다.
- 분류된 토픽만으로는 해당 일자 이슈의 구체적인 내용을 알기 어렵다.
시사점
- 사용자 리뷰 데이터로 LDA 토픽모델링, 감성 분석, 이상치 탐지를 활용하여 어플리케이션 리뷰 분석을 통한 이슈 대응 프로세스를 정립한 것에 있다.
- 본 연구에서는 주제를 분류하는 것에 시계열 이상치를 탐지하는 ARIMA 모델을 추가하여 리뷰를 통해 서비스 이슈를 빠르게 탐지하고 대응하는 연구를 진행하였다는 것에 학문적인 의의가 있다.
- 리뷰의 주제를 과거 데이터를 기반으로 자동으로 분류하여 내용 파악에 시간을 절감하고, 리뷰 이상 탐지를 통해 어플리케이션 서비스 운영 비용 절감에 이바지하고자 한다는 점에서 실무적인 의의가 있다.
내 생각
기존 앱 리뷰 분석 연구에서는 텍스트마이닝을 이용하여 토픽 모델링을 진행하고 그에 대한 결과를 내는 것이 대부분이었습니다. 본 연구는 텍스트마이닝 기법을 ARIMA 모형과 함께 이용하여 시계열 이상치를 탐지한다는 점에서 차별점이 있다고 생각합니다.
특히, 리뷰 수를 토대로 이상치를 탐지하고 특정 기준에 따라 유의미한 이상치라고 판단되었을 때
해당 일자 리뷰의 토픽 및 감성을 확인하여 어떤 이슈가 발생했는지 알 수 있다는 점에서 흥미로웠습니다.
이에 따라 문제가 무엇이고, 개선 방향을 정할 수 있다는 점에서 의의가 있다고 생각합니다.
본 연구에서 제시한 한계점을 보안하고, 실시간 리뷰를 연동하여 리뷰 이상 탐지를 할 수 있는 모델링을 구축해 보는 것도 재미있을 것 같습니다. 특히 구글 플레이스토어 앱 자체의 리뷰 외에도 배달의 민족의 경우 음식점 별로 리뷰 이벤트를 진행할 정도로 '리뷰 및 별점 관리'에 많은 노력을 기울리고 있습니다. 이는 이커머스 시장 대부분에서 중요시 생각하는 부분입니다. 따라서 이러한 리뷰 분석을 통한 이슈 대응 프로세스가 도입되면 많은 공급자들에게 도움이 될 거라 생각합니다.
본 포스팅은 『텍스트마이닝 기법과 ARIMA 모형을 활용한 배달의 민족 앱 리뷰 분석』 논문을 읽고 요약했습니다.
문제 시 연락 부탁드립니다
'ETC ✔️ > 논문' 카테고리의 다른 글
슈퍼앱의 소비자 후생 효과 (0) | 2023.04.10 |
---|