[해외논문] [ 2차년도 ] Restoring and Mining the Records of the Joseon Dynasty via Neural Language Modeling and Machine Translation
  • 게재 : NAACL 2021
  • 등록일2021.05.12
오랜 기간 누적된 방대한 양의 고전 기록물은 사회·정치 및 자연 과학의 문제를 해결할 수 있는 단서를 지닌다. 하지만 대부분의 고전 기록물이 고어(古語)로 기록되었으며 글의 일부는 훼손되어 본래의 형태를 알아보기 힘드므로, 고전 기록물을 이해하고 충분히 활용하는 것은 현대에도 풀기 어려운 문제로 남아있다. 따라서 훼손되거나 알아볼 수 없는 부분을 복원하고 고전 기록물의 고어를 현대어로 번역하는 것은 중요한 태스크이다. 이를 해결하기 위해, 본 논문은 복원과 번역을 함께 학습하는 multi-task 학습 방법을 제안한다. self-attention 메커니즘을 기반으로, 유네스코 세계 기록유산으로 지정된 한국의 조선왕조실록과 승정원 일기를 데이터 셋으로 사용한다. 실험 결과로 본 논문의 접근법이 번역 성능에서 기존 모델보다 좋은 성능을 보였다. 또한, 본 모델이 한자에서 한국어로 번역한 결과 텍스트로 진행된 토픽 모델링 실험은 고전 기록물에서 사회·정치 및 자연 과학 분야에서의 중요한 역사적 사건이 추출 가능함을 보여준다. 



Understanding voluminous historical records provides clues on the past in various aspects, such as social and political issues and even natural science facts. However, it is generally difficult to fully utilize the historical records, since most of the documents are not written in a modern language and part of the contents are damaged over time. As a result, restoring the damaged or unrecognizable parts as well as translating the records into modern languages are crucial tasks. In response, we present a multi-task learning approach to restore and translate historical documents based on a selfattention mechanism, specifically utilizing two Korean historical records, ones of the most voluminous historical records in the world. Experimental results show that our approach significantly improves the accuracy of the translation task than baselines without multi-task learning. In addition, we present an in-depth exploratory analysis on our translated results via topic modeling, uncovering several significant historical events.