💻️ MMMSK

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출
2025년 10월 29일
(컴퓨터조립) AMD Ryzen 5 9600
2025년 10월 25일
(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정
2025년 10월 11일

204건 더보기 →

❯

❯

❯

LLM - 한국어 벤치마크 데이터셋

LLM - 한국어 벤치마크 데이터셋

2023년 6월 19일2 min read

NLP
datasets
한국어

한국어 벤치마크 데이터셋

KLUE (Korean Language Understanding Evaluation)

GLUE 기반 한국어 전용 벤치마크 Task 및 데이터셋
8개의 Task 제공
Git: https://github.com/KLUE-benchmark/KLUE
Web: KLUE Benchmark

Task

총 8개의 벤치마크 Task 제공(KLUE Benchmark Task)
Topic Classification (TC) - 토픽 분류
Semantic Textual Similarity (STS) - 의미 유사도
Natural Language Inference (NLI) - 자연어 추론
Named Entity Recognition (NER) - 개체명 인식
Relation Extraction (RE) - 관계 추출
Dependency Parsing (DP) - 의존구문 분석
Machine Reading Comprehension (MRC) - 기계 독해
Dialogue State Tracking (DST) - 대화 상태 추적

+full

Datasets

https://klue-benchmark.com/tasks/65/overview/description

+full

KorQuAD

개요

Stanford Question Answering Dataset(SQuAD) 기반 질의와 답변으로 구성된 한국어 벤치마크 데이터셋
Wikipedia article 기반 한국어 표준 데이터셋
1.0, 2.0 버전 존재

KorQuAD 1.0

1,560 개의 Wikipedia article에 대해 10,645 건의 문단과 66,181 개의 질의응답 쌍으로 구성
Training set 60,407 개, Dev set 5,774 개
Git: KorQuAD-beginner
Web: KorQuAD 1.0

KorQuAD 2.0

다양한 구조와 길이를 가진 문서 레벨에서의 기계독해(MRC) 문제에 초점을 두었음
기존 KorQuAD 1.0의 데이터 약 2만 건과 합쳐 총 102,960개의 질의응답 쌍으로 구성
Training set 83,486 개, Dev set 10,165 개의 질의응답쌍
Web: KorQuAD 2.0

비교

참고

GitHub - JoungheeKim/korean-question-answer-system: This is project to analyze korquad 2.0
KorQuAD v2.0 소개

그래프 뷰

한국어 벤치마크 데이터셋
KLUE (Korean Language Understanding Evaluation)
KorQuAD
참고

백링크

백링크가 없습니다.

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출
2025년 10월 29일
(컴퓨터조립) AMD Ryzen 5 9600
2025년 10월 25일
(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정
2025년 10월 11일

204건 더보기 →

Created with Quartz v4.4.0 © 2025

About MSK