[1차 미팅]
첫 미팅을 가졌습니다! 5기에는 새로운 연구원인 박산희연구원과 채민기 연구원이 합류하게 되었습니다.
이번 기수에는 이전 기수의 활동 경험을 토대로 메인 프로젝트로 정하여 진행하기로 하였습니다. 메인 프로젝트 주제는 ‘고문서 복원 프로젝트’ 입니다.
1차 미팅에서 논의된 사항은 다음과 같습니다.
데이터 관련
조선왕조실록 데이터 크롤링 하기로 계획
모델 관련
이것저것 찾아보는 중…
미팅 장소 관련
매주 7시30분 부터 합정 센터에서 미팅을 가지기로 함.
[2차 미팅]
두번째 미팅을 가졌습니다. 고성능컴퓨터지원 사업에서 지원 받은 서버가 열렸습니다.
데이터 관련
조선왕조실록 데이터 크롤링이 완료 되었습니다. 서버에 대략 10만장의 데이터가 저장되었으며 사진 사이즈는 3700 * 2400입니다.
이미지 전처리
이미지 해상도가 상당히 커 학습을 돌리기 위해 이미지 처리 방향에 대해서 논의해보았습니다. Batch 이미지 크기 후보군을 정했으며 다음과 같은 사이즈가 후보군으로 나왔습니다.
[512x512 / 384x384 / 256x256]
또한 조선왕조실록 이미지의 테두리를 처리할 방법을 논의하였고 김준화연구원님께서 처리코드를 작성해주셨습니다.
img readimg resize to 512 x512행 별 픽셀 값을 더해서 검정 테두리 LINE의 행 번호 위 아래 얻음.512X512와 원본 이미지의 W,H에 일차 변환으로 비례해서 행 번호 위 아래를 구함.
다음 미팅까지..
공부해보고자 하는 모델 하나 찾아오기 (단 찾았을때 공유 하고 중복 안됨)
두번째 아무거나 GPU에 돌려놓고 오기
논문 스터디 시작하고 공부해보고자하는 모델의 베이스, 모르는 논문부터 공부해오기로 했습니다.
이번 기수 목표
이미지 복원 -> 이미지 OCR -> 자연어 문맥 -> 없는거나 너무 깨진부분 채워넣기