참가 연구원 : 김유상, 지승훈, 이재성, 홍석준
활동 내용
2기 프로젝트 리뷰
1. Word2Vec 알고리즘과 프로젝트와 무슨 관계가 있는지?
비슷한 단어들끼리 비슷한 input vector가 되게끔 하기 위해서 사용합니다
2. Intent Classification과 Entity Classification 의 역할?
사용자가 한 말의 의도와 개체명을 파악해야 적절한 Response를 만들 수 있습니다.
3. 형태소 분석도 사용하나요?
개체명인식기에 토큰화한 단어들이 input으로 들어가고, 형태소도 특징으로 들어갑니 다. Konlpy에 많은 형태소 분석기들이 있고 각각의 장단점이 있습니다.
Bert 논문 공유
Pytorch버전 - https://github.com/huggingface/pytorch-pretrained-BERT
run_classifier.py를 실행해봄 (pytorch로 8개 GPU 모두 사용)
MRPC task용 (Dataset: https://www.microsoft.com/en-ca/download/details.aspx?id=52398)
(참고)Tensorflow버전
https://github.com/google-research/bert
DGX-1 (V100 x 8 내장)
https://www.nvidia.com/ko-kr/data-center/dgx-1/
Tesla V100
https://www.nvidia.com/ko-kr/data-center/tesla-v100/
GLUE’s NLU(MRPC 등)
https://newgeneralization.github.io/slides/SamBowman.pdf
BERT 원 논문
https://arxiv.org/pdf/1810.04805.pdf
Segmentation 관련
(1) 프로젝트 사용했던 군집 알고리즘?
k-means를 사용. R에 있는 패키지를 사용.
주성분 분석을 활용해서 차원 축소함
금융 소비자 데이터를 가지고 했고 유형을 1,000개로 나누었음
활동계획
▷ Bert모델 알고리즘 분석 (3번째 모델(Q&A) 분석: 지승훈, 3개 다 돌려볼 예정: 김유상) - 모두
▷ Augmentation 모델 만들기, Intent별 대화 Flow 작성 (이재성)
▷ CRF, Movie2Vec (홍석준)
▷ 자체 서버 구축 도움 줄 수 있음(이재성) - cafe24
개인적인 사정으로 참석하지 못한 이준호, 김대규 연구원과 함께 추가 온라인 행아웃 미팅을 통해 내용 보완할 예정입니다.