한국어 벤치마크 데이터셋
KLUE (Korean Language Understanding Evaluation)
- GLUE 기반 한국어 전용 벤치마크 Task 및 데이터셋
- 8개의 Task 제공
- Git: https://github.com/KLUE-benchmark/KLUE
- Web: KLUE Benchmark
Task
- 총 8개의 벤치마크 Task 제공(KLUE Benchmark Task)
- Topic Classification (TC) -
토픽 분류
- Semantic Textual Similarity (STS) -
의미 유사도
- Natural Language Inference (NLI) -
자연어 추론
- Named Entity Recognition (NER) -
개체명 인식
- Relation Extraction (RE) -
관계 추출
- Dependency Parsing (DP) -
의존구문 분석
- Machine Reading Comprehension (MRC) -
기계 독해
- Dialogue State Tracking (DST) -
대화 상태 추적
Datasets
https://klue-benchmark.com/tasks/65/overview/description
KorQuAD
개요
- Stanford Question Answering Dataset(SQuAD) 기반 질의와 답변으로 구성된 한국어 벤치마크 데이터셋
- Wikipedia article 기반 한국어 표준 데이터셋
- 1.0, 2.0 버전 존재
KorQuAD 1.0
- 1,560 개의 Wikipedia article에 대해 10,645 건의 문단과 66,181 개의 질의응답 쌍으로 구성
- Training set 60,407 개, Dev set 5,774 개
- Git: KorQuAD-beginner
- Web: KorQuAD 1.0
KorQuAD 2.0
- 다양한 구조와 길이를 가진 문서 레벨에서의 기계독해(MRC) 문제에 초점을 두었음
- 기존 KorQuAD 1.0의 데이터 약 2만 건과 합쳐 총 102,960개의 질의응답 쌍으로 구성
- Training set 83,486 개, Dev set 10,165 개의 질의응답쌍
- Web: KorQuAD 2.0