연구성과물

논문 및 특허

[국내특허] [ 1차년도 ] 한국어 시각적 질의응답을 위한 멀티 모달 메시지 통합
  • 게재 : 특허청
  • 등록일2020.12.31
  • 조회 808
시각적 질의응답(Visual Question Answering, VQA)은 주어진 이미지에 연관 된 다양한 질문에 대한 올바른 답변을 예측하는 기술이다. 해당 기술은 컴퓨터 비 전-자연어 처리 연구분야에서 활발히 연구가 진행되고 있으며, 질문의 의도를 정확 히 파악하고, 주어진 이미지에서 관련 단서 정보를 찾는 것이 중요하다. 또한, 서 로 이질적인 특성을 지닌 정보(이미지 객체, 객체 위치, 질문)를 통합하는 과정도 중요하다. 본 발명에서는 질문의 의도에 알맞은 정보를 효율적으로 사용하기 위해 멀티 모달 입력 이미지 객체, 객체 위치, 질문에 대한 Multi-modal Message Aggregation (MMA)을 제안하며 이를 통해 한국어 시각적 질의응답 KVQA에서 다른 모델보다 더 좋은 성능을 확인하였다.