연구성과물

데이터셋

  • Synthetic Scene Graph Dataset

    이미지 내 object들과 그 사이의 관계에 대한 라벨링이 된 데이터셋입니다

  • TREK

    네이버 지식백과 사전 코퍼스를 활용하여 distant supervision manner와 human inspection으로 구축한 한국어 문서단위 관계추출 데이터셋임. 기존에 문장단위 관계추출 데이터셋은 존재하였으나 한국어의 경우 문서 단위의 관계추출 데이터셋은 존재하지 않았음. 이를 위해 도메인 전문가들에 의해 작성된 지식백과 코퍼스를 활용하여 대용량의 한국어 문서단위 관계추출 데이터셋을 제작함. 휴먼의 작업에만 의존하는 것이 아닌, 언어모델을 활용하여 distant superivision 방식으로 엔티티와 관계를 태깅한 후 휴먼 검수 작업을 진행함으로써 시간과 비용 측면에서 효율적으로 구축된 데이터셋임.

  • KBN Dataset V2

    KBP를 통해 만들어진 Knowledge triple 데이터 셋 V2

  • Commonsense Knowledge-base Population Dataset and Sourcecode

    Commonsense Knowledge-base Population Dataset and Sourcecode We populate commonsense knowledgebase(CSKB) dataset as known ATOMIC 2020. We're sharing it here, no proof for correctness. Use it with caution. The Korean dataset is a translation of English data with Google Machine Translation API.

  • KBN 데이터셋

    KBP를 통해 만들어진 Knowledge triple 데이터 셋