한국어 벤치마크 데이터셋
KLUE (Korean Language Understanding Evaluation)
- GLUE 기반 한국어 전용 벤치마크 Task 및 데이터셋
- 8개의 Task 제공
- Git: https://github.com/KLUE-benchmark/KLUE
- Web: KLUE Benchmark
Task
- 총 8개의 벤치마크 Task 제공(KLUE Benchmark Task)
- Topic Classification (TC) -
토픽 분류 - Semantic Textual Similarity (STS) -
의미 유사도 - Natural Language Inference (NLI) -
자연어 추론 - Named Entity Recognition (NER) -
개체명 인식 - Relation Extraction (RE) -
관계 추출 - Dependency Parsing (DP) -
의존구문 분석 - Machine Reading Comprehension (MRC) -
기계 독해 - Dialogue State Tracking (DST) -
대화 상태 추적
-한국어-벤치마크-데이터셋-정리_image_1.png)
Datasets
https://klue-benchmark.com/tasks/65/overview/description
-한국어-벤치마크-데이터셋-정리_image_2.png)
KorQuAD
개요
- Stanford Question Answering Dataset(SQuAD) 기반 질의와 답변으로 구성된 한국어 벤치마크 데이터셋
- Wikipedia article 기반 한국어 표준 데이터셋
- 1.0, 2.0 버전 존재
KorQuAD 1.0
- 1,560 개의 Wikipedia article에 대해 10,645 건의 문단과 66,181 개의 질의응답 쌍으로 구성
- Training set 60,407 개, Dev set 5,774 개
- Git: KorQuAD-beginner
- Web: KorQuAD 1.0
KorQuAD 2.0
- 다양한 구조와 길이를 가진 문서 레벨에서의 기계독해(MRC) 문제에 초점을 두었음
- 기존 KorQuAD 1.0의 데이터 약 2만 건과 합쳐 총 102,960개의 질의응답 쌍으로 구성
- Training set 83,486 개, Dev set 10,165 개의 질의응답쌍
- Web: KorQuAD 2.0
-한국어-벤치마크-데이터셋-정리_image_3.png)
비교
-한국어-벤치마크-데이터셋-정리_image_4.png)
-한국어-벤치마크-데이터셋-정리_image_5.png)
-한국어-벤치마크-데이터셋-정리_image_6.png)