모임 참석자
박산희 연구원
유성 랩장
장광훈 연구원
전은광 연구원
정찬민 연구원
홍권일 연구원
연구 결과 공유
홍권일 연구원
[연구 내용-1] PPT발표 자료
[연구 내용-2] 2기 SQUAD팀에서 진행하였던 언어모델링 기반 검색기를 개선하여, 문서 하나씩 유사도 비교를 하는게 아니라, 48개씩 한번에 비교하도록 하는 버전을 개발하여 공유하였습니다. 구조를 간단히 설명 드리자면, 1배치에 질문 1개랑 맥락 48개를 한번에 각각 Q와 C에 넣고, QANet 처럼 인코더에 인코딩 1차 시킨 후, 코어텐션으로 의미있는 정보를 찾은 후, 마지막 인코더에서 인코딩 후 분류를 48개 중 하나가 1로 켜지는 형태로 만들었습니다. BERT로 전이학습 시킬 예정이라, 엘모나 코브는 사용 안했습니다.
[자료공유] "BERT 관련 좋은 글" https://rosinality.github.io/2018/10/bert-pre-training-of-deep-bidirectional-transformers-for-language-understanding/
[자료공유] "트랜스포머-XL" https://github.com/dhlee347
[자료공유] "seq2seq 기반 요약 소스" https://github.com/chen0040/keras-text-summarization
유성 연구원
[연구 내용-1] : https://kh-kim.gitbook.io/natural-language-processing-with-pytorch 에서 전처리 부분과 언어 모델링의 n-gram 예제 까지 발표했습니다.
[연구 내용-2] 구글 BERT 다국어 버전의 Tokenizer의 문제점을 발견하여 공유하였습니다. November 3rd, 2018: Multilingual and Chinese models 버전에 포함된 vocab 파일을 가지고 전처리 시, 한국어의 경우 모두 [UNK]으로 처리되는 문제점을 발견하였고, 구글이 이어서 발표한 November 23rd, 2018: Un-normalized multilingual model + Thai + Mongolian 에서는 제대로 수정된 결과를 확인했습니다. 하지만 여전히 WPM로 생성된 vocab의 한글 UNIT 개수가 너무 적어서, 의미 있는 전처리 결과는 얻지 못하는 상황입니다.
전은광 연구원
[연구 내용-1] 발표 논문"An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling" https://arxiv.org/abs/1810.06682
[연구 내용-2] "TRELLIS NETWORKS FOR SEQUENCE MODELING" https://arxiv.org/abs/1810.06682
[자료공유] "카카오 딥러닝 기반 형태소 분석기" https://brunch.co.kr/@kakao-it/308
[자료공유] "2018년 AI TOP10" https://www.topbots.com/most-important-ai-research-papers-2018/?utm_campaign=Data_Elixir&utm_medium=email&utm_source=Data_Elixir_211#ai-paper-2018-4
홍지민 연구원
[자료공유] "한국어 자연어처리를 위한 파이썬 라이브러리" https://github.com/lovit/soynlp