장소: 서울역 위워크 4층
일시: 2018년 12월 22일(토), 10:00
참석인원: 김승태, 김정민, 민재옥, 이인희(가나다순)
처음으로 모두가 모였습니다. 완전체~!
초보반에 어울리게 뭘할 지를 고민하고 해결하는 것도 쉽지 않습니다.
이미 2기에 처음 구성하면서 했던 경험입니다만, 익숙해지지가 않습니다.ㅠㅠ
우선 지난 20일(목)에 있었던 BERT 발표 관련 안내를 했습니다.
발표당시 들었던 내용에 대한 간략한 이야기를 나눴는데, BERT 때문에 일단 혼란이 찾아왔습니다.
우리 모든 걸 버리고 BERT로 들어가야 하나요?
뭐 이런 생각을 했지만, 그러기에는 아무것도 맛본 적이 없는 연구원이 두 분 계신데다가 맛만 본 연구원 겸 랩장이 있습니다.
여태 공부하던 걸 이제 버리고 다시 그 길을 걸어야 하나?
현기증 날 정도로 정말 급격히 변하다보니 저기 멀리 다른 길이 보여서 당황스럽게 됩니다.
일단 BERT 발표회에서 보고 듣고 복사한 코드 등을 공유합니다.
그러기 위해서 colab.research.google.com 에 대한 간단한 안내를 하게 되었는데, 안타깝게도 저도 잘 모릅니다.
GPU도 제공해주는 고마운 툴이라는 것 정도만 공유했습니다.
다행히 김승태 연구원이 사용한 경험이 있었습니다. 만세!
제안사항으로 기존 자연어처리 실습 결과가 좋지 못했는데, 데이터를 좀 더 다듬어서 학습력을 높이면 어떻겠냐는 의견이 있었습니다. 바로 제가 했습니다.^^
연구의 지속성을 가져 가는 것이 좋겠다.
근데 처음인 분이 계시고 함께 공부하기로 했으니 감정분석 같은 것처럼 좀 진입장벽이 낮은 것부터 하는 건 어떨까 하는 의견도 나왔고, 가급적 우리만의 독특한 '특허'라는 분야의 도메인을 유지하자는 의견을 더했습니다.
각 특허 문서를 Doc2Vec 형태로 처리하자는 의견도 있었지만, 일단 제가 많이 부담스럽습니다. 그런 고급(?) 수준의 코드를 짜낼 수 있을까하는 부담감을 말씀드렸습니다.
민재옥 연구원께서 특허관련 학습을 통해 새로운 특허가 들어오면 어느 분야의 특허에 해당하는 지를 감정분석과 유사한 형태로 구성해서 우리랩만의 독특한 실험으로 진행해보면 어떨까 하는 아이디어를 제시했습니다.
어렵지 않지만 독특한 재미가 있을 것 같다는 생각이 들어 연구원들이 찬성을 했습니다.
이후 실습환경에 대한 제안이 있었고, BERT는 따로 공부하고 우선 좀 참고할 사항들이 많은 방식을 따르되 형태소 분석기는 Mecab으로 하자고 결론을 내렸습니다. 일단 해 본 걸로 해보는 게 좋으니까요.
구글이 제공하는 Colaboratory 서비스는 공유 등의 유리한 점이 있지만, Mecab 등에 대한 설치를 잘 모르므로 Windows에서 돌릴 수 있도록 설치환경을 일단 맞추기로 했습니다.
우린 초보니까요.^^
Windows에서 Anaconda 설치후 konlpy와 Mecab 설치하는 건 제가 엄청 익숙한 지라 제가 주도해서 처리하고, pycharm에 연결해서 설정을 마무리 하는 건 민재옥 연구원께서 해주셨습니다.
이제 우린 자연어 처리를 한 번이라도 돌릴 수 있게 되었습니다.