1. 미팅내용: 4기 SQuAD팀의 구체적인 계획 논의. Language Modeling은 모두에게 공통된 부분이라 다같이 스터디를 진행하고 이후 원하는 프로젝트 or NLP taks에 대해 BERT를 통해 fine-tuning하여 접근하는 식으로 진행할 계획. BERT에 대해 이해를 원하는 연구원들이 있어 스터디와 응용을 나눠 진행하기로 하였음. 응용은 민재옥 연구원의 지원으로 특허 데이터를 확보할 수 있어 유사특허 검색 or 특허 IPC 코드 분류를 시도해보기로하였음.
2. 참석자
BERT를 이용한 유사특허 검색, 특허 IPC 코드 분류: 민재옥, 전은광
BERT스터디: 김경욱, 이시훈
참관: 김유상
3. 세부계획:
전은광-
BERT에 대해 Preview형식으로 세미나 예정.
특허 IPC 코드 분류에 대해 BERT Multilingual 모델로 시도후 2차 미팅때 결과 공유
민재옥-
[1순위] 유사한 특허 검색 시스템
– (내용) 특허등록을 위해서는 기존에 관련 특허기술이 있는지 검색(문장 유사도)을 해야 하는데, 지금은 단순히 키워드 매칭 수준(특허청)밖에 안됨.
– (목표) BERT를 이용해서 문장(청구항 간)유사도를 구하고, 가장 관련성이 높은 순으로 특허문서 뿐만 아니라 청구항까지 검색(랭킹)하는 실험.
– (데이터 제공) 전기전자분야(H센션) 100만건(특허문헌에는 1개~약 20개 정도의 구분된 문장(청구항)이 존재하므로 실제 문장 수는 수천만건) / 정답셋(심사관이 서로 같은 기술이라고 판단한 특허 문서 쌍) 1만건
[2순위] 특허 자동분류
– (내용) 특허문헌마다 2~3개의 국제분류코드(IPC코드)가 부여되는데 현재는 수작업
– (목표) BERT를 활용한 자동분류(IPC분류는 수만가지이기 때문에 전략적으로 진행), 특허문서단위, 청구항 단위로 분류
– (데이터 제공) 전기전자분야(H센션) 100만건
김경욱-
기초적인 부분부터 따라가고싶음
밑단의 수학적인 부분부터 이해
이번기수 목표는 qa쪽을 bert로 돌려보고 이해해보는것
과거 nlp 관련한 프로젝트를 진행했었습니다.
1) 영화추천시스템 : w2v 활용
2) 보험 Q&A 챗봇시스템: Memory Network 활용
다니는 회사에서의 담당 연구주제로 TER분야를 맡았으나, 사정상 연구분야가 SED, SV로 당분간 전환될것으로 보입니다.
– 목표:
1차 목표: Bert, GPT의 구조에 대해 빠삭하게 알아갈 수 있는 자리가 되었으면 좋겠습니다.
2차목표: 모델을 제 업무 도메인 task에 적용 가능하도록 만들고 싶습니다.
이시훈-
언어쪽에 대해선 많이 아나 컴퓨터쪽에 대해선 부족하나 언어쪽엔 자신있음
자연어처리 기초부터 배워나가며 개인적으로 Detection and Interpretation of Korean Puns task에도전해보고 싶음