회의장소: 위워크 서울역, 4층
회의일시: 2018.12.8(토) 14:00~16:00
참가자: 이인희, 김정민
2018년 제3기 모임을 가진 후에 첫 회의를 가졌습니다.
총 4명의 연구원인데, 사정상 2명만 모여서 회의를 가졌습니다.
지난 2기에서 개발한 내용에 대한 설명을 간단히 하고, 컴맹인 행정사가 이해하는 수준의 내용을 공유했습니다.
지난 2기에서는 민재옥 연구원께서 특허청구항에서 주어를 추출해내는 걸 프로토타입으로 만들어 주셨고, 그걸 구현하는 수준으로 마무리를 했습니다.
204000개의 특허청구항을 대상으로 진행했는데요.
일본에서 자연어처리에 필요한 형태소 분석용 Mecab이란 패키지를 한국 사정에 맞춰 고쳐 놓은 것을 사용해서 진행했는데, 동일한 연구를 위해 환경설정을 맞추는 것부터 함께 해봤습니다.
안타깝게도 민재옥 연구원께서 해주신 건 Ubuntu 환경이고, 제가 진행한 것은 Windows 10 환경인데, 함께하신 김정민 연구원은 Centos를 사용하시는 상황이라 환경설정 맞추는 게 쉽지 않았습니다.
현재로서는 tensorflow가 파이썬 3.7에서는 설치가 되지 않는데 아나콘다(버전: Anaconda3-5.3.0)은 파이썬이 3.7이 기본이라 설치 후에 따로 파이썬 3.6으로 환경을 하나 생성한 후에 각종 개발환경을 맞추는 일을 했습니다.
'''conda creat -n proj4nlp python=3.6 ### proj4nlp라는 환경을 파이썬 3.6버전으로 생성'''
환경을 하나 생성한 후에 각종 필요한 패키지를 깔았습니다.
가장 중요한 패키지 가운데 하나가 Mecab이었는데, 설정을 맞추는 데 약간의(?) 애로사항이 있었습니다. 환경설정이 개발의 1/2이라는 말은 진리인 듯 합니다.^^
저도 지난 발표 이후에 다시 Laptop 컴퓨터에서 지우고 새로 환경설정을 했는데, 잘 안되어서 다시 조금 헤맸습니다. 겨우 2주 지났다고 금새 까먹었네요.
이강훈 소장님께서 지나가시다가 Mecab 말고 카카오에서 내놓은 게 있다며, 그걸로 한 번 이번 기수에서는 응용해보시면 어떻겠냐고 제안하셨는데, 솔깃한 제안이라 한 번 시도하겠다고 했습니다.
카카오의 자연어처리를 위한 형태소 분석기 "khaiii" 깃허브 페이지를 공유합니다.
https://github.com/kakao/khaiii
다음 모임은 참가가 어려운 분들이 계시면 화상회의를 적극활용해보려고 합니다.
학생인 김승태 연구원과는 Windows 환경에서 개발을 하는 방법을 공유하면서 더디더라도 함께 배우며 가보려고 합니다.