미팅 일시 / 장소 : 2019.01.19 14:00 / 서울역 위워크
참석 : 이준호, 홍석준, 지승훈
모의 데이터
자막 영화 데이터 : 'Avengers2', 'Avengers3', 'Transformer1', 'Avengers1', 'The.Hobbit3', 'Load.of.the.Ring2', 'The.Hobbit1', 'Load.of.the.Ring3', 'The.Flu', 'Load.of.the.Ring1', 'Fantastic.Beasts.and.Where.to.Find.Them', 'iron.man1', 'iron.man2 ' (총 13편)
시나리오 데이터 : '택시운전사', '해바라기1', '째째한로맨스1', '신의한수1', '써니1', '연애의 온도1', '지구를 지켜라1', '영화는영화다1', '베를린 최종고1', '아저씨1', '부산행1', '추격자1', '마더1', '타짜1', '신세계1', '박쥐1', '도가니1', '070320_뜨거운것이_좋아1', '국가대표1', '곡성1', '내 심장을 쏴라1', '강철중1', '간신_시나리오1', '건축학개론1', '너의 결혼식1',
'라이터를켜라1' (총 26편)
시나리오 데이터에는 장면 설명까지 포함되어있습니다.
활동 내용
시나리오, 자막 데이터를 기반으로 gensim doc2vec실행
vector size 100, epoch 40 별다른 parameter 변화 없음
자막 데이터 분석
자막을 별도의 토큰화 없이 doc2vec 실행 (정확도가 매우 떨어지는 것을 확인)
자막은 영화 대조군을 설계했기 때문에 설계와는 매우 다른 양상을 보이는것을 확인.
(영화 대조군 : 어벤저스 시리즈 - 아이언맨 / 반지의 제왕 - 호빗 / 감기 / 신비한 동물사전 / 트렌스포머)
자막을 명사 토큰화 후 실행 결과
원하는 대조군별로 잘 뭉쳐있는 것을 확인
시나리오 데이터 분석
시나리오 데이터 분석할때 데이터가 ansi 인코딩으로 준비되어 있어서 utf-8 인코딩으로 변환 후 사용(그래서 상단 시나리오 데이터 뒤에 숫자 1이 붙어있습니다)
시나리오 데이터를 똑같이 토큰화 시켰을때는 결과를 알아보기 쉽지 않음
파일명 부를때 자모음이 분리되는 현상이 발생.
코사인 유사도를 통해서는 '건축학개론'이라는 영화와 우리가 비슷하다고 생각되는 영화 사이의 유사도가 높게 나오지만, stop word때문인지 다른 영화와 크게 차이가 없음.
또한, PCA를 통해서 2차원으로 매핑했을때 원본 벡터가 많이 손실되는 느낌.
매핑 결과가 좋지 못함.
To-Do
About Architecture
차원축소 방식을 som 또는 MiniSom 을 통해 개선
Tf-idf를 이용하여 doc2vec에 사용되는 단어를 클리닝으로 개선
1안) 각 단어별 tf-idf를 계산해 tf-idf value를 하나의 threshold로 의미가 적은 단어를 제거
2안) 예로 100차원의 doc2vec에서 word vector에 tf-idf vector를 추가해서 101차원으로 계산
About data
영화 대조군을 더 명확한 영화를 준비하고
영화 자막데이터나 시나리오 데이터를 추가 생산