Xinterest 팀은 자연어 처리를 통한 매체의 성향 분석을 목표로 하고 있습니다. 성향 분석이란 대상에 대하여 긍정적인지, 부정적인지 등을 포함하며, 나아가 사회의 다양한 주제들에 대하여 어떤 연관관계를 가지고 있는지 파악해 보는 것을 주제로 합니다.
언어로부터 정보를 추출하는 과정을 텍스트 마이닝(Text mining)이라 합니다. 언어 뭉치에서 단어들의 빈도 또는 연관 관계 등을 분석할 수 있고, 이 정보들로부터 새로운 정보들을 이끌어낼 수 있습니다. 공학적으로는 단어간의 관계를 수학적으로 분석하여 벡터 공간으로 사상(mapping)시키는 단어 임베딩(Word embedding) 방법이 제시되어 구글의 Word2vec 방법으로부터 시작된 GloVe, Fasttext 등이 소개되었습니다. 해당 방식들은 단어들을 특정 개수의 차원으로 이루어진 벡터 공간에 대응시키는 방법을 사용하며, 문장 내부의 단어 순서를 반영한 학습 과정을 통하여 벡터들을 만들어 나가게 됩니다.
또한, 성향 분석 분야에 대해서는 '감성 분석(Sentiment analysis)'이라는 키워드를 사용하고 있습니다. 미리 구축되거나, 알고리즘에 의하여 클러스터링 된 단어 집합을 바탕으로 긍정과 부정어를 판별하여 전체 문장 또는 문단의 성향으로 확장하는 방법입니다. 한국어를 바탕으로 한 대표적인 분석 연구로는 서울대의 신효필 외(http://word.snu.ac.kr/kosac/pub/KCC2013.pdf)에서 발표한 한국어 감성 사전 코퍼스가 있습니다.
팀 연구의 방향은 다음과 같이 진행되고 있습니다
1. 워드 임베딩을 통한 문서 분포 확인과 키워드/문서 검색 기능
2. 감성 분석을 통한 문서의 긍정/부정 성향 분석. 필요한 경우 기존 방식을 개선.
3. 사회학에서 사용하고 있는 Nominate 지표와의 비교로 자연어 처리를 통한 미디어 성향 분석 정확도 확인
이번 연구를 맡아주실 팀원님들은 다음과 같고, 모두 열의를 갖고 연구에 참여하고 있습니다.
김규형 / 장광훈 / 김재형 / 강신장 / 이경락
마지막으로, 이번 연구에 대해 자료를 아낌없이 지원해주시고 있는 비플라이소프트에 감사의 인사를 드립니다.