Research Details

  • Home
  • Research Details

언어모델 벤치마크 데이터셋 구축


과학기술정보통신부와 NIA(한국지능정보사회진흥원)에서 진행한 연구 과제로 베트남어 언어모델을 위한 다양한 국가·문화권의 규범·문화를 고려한 답변의 신뢰성, 지식 능력, 성능 등 검증에 활용하기 위한 벤치마크 데이터 구축하였습니다.



배경&목적

2022년 말 ChatGPT서비스 출시는 세계에 많은 충격을 주었음

구글, 메타, MS등 세계적인 빅테크 기업들은 LLM서비스를 출시하며 과당 경쟁 상태에 돌입하였음

사용자들은 너무 빠른 AI변화에 혼란이 있으며 어떤 LLM이 좋은지 어떤 분야에 적합한지를 알고자 함

선진 국가들은 LLM의 성능 평가가 중요하다고 판단하며 평가용 데이터 제작과 함께 성능 평가 리더보드를 내놓으며 각축을 벌이고 있음

선진 국가들의 LLM시장 이외에 중진국 이하 국가들도 인공지능 분야의 기술 도입을 많이 원하며 각 국가에 적합한 전용 평가용 데이터 구축이 필요함


베트남어 선정 배경

Details

  • 베트남은 한국과 포괄적 전략적 동반자 관계이며 교역량이 미국, 중국에 이어 가장 많은 국가
  • AI분야의 추진의지가 매우 강하지만 베트남의 AI기술력은 매우 낮은 편임
  • 베트남은 급속히 발전해 가는 나라이며 AI분야에서도 미래 시장 가치가 매우 높은 국가임

구축내용

베트남어 LLM 평가를 위한 10개의 Task 선정

Task별 1,500개 이상, 총 25,000건 이상 데이터 구축

베트남의 규범과 문화 반영( 베트남어 이해, 상식, 추론, 환각방지능력 등 )

한국어, 영어, 현지 국가 언어를 포함한 3개 국가 언어로 구축


벤치마크데이터

1. Vie-ARC(베트남 과학 추론 능력)

- 베트남의 초·중등 과학 교육과정을 반영한 문제를 통해 LLM의 베트남어 기반 과학 추론 능력을 평가
- 베트남 교육과정에 맞춘 과학 개념 간 논리 관계 추론을 요구함


2. Vie-HellaSwag(베트남어 상식능력)

- 베트남의 초·중등 과학 교육과정을 반영한 문제를 통해 LLM의 베트남어 기반 과학 추론 능력을 평가
- 베트남 교육과정에 맞춘 과학 개념 간 논리 관계 추론을 요구함


3. Vie-MMLU(베트남어 이해력)

- 다양한 분야의 베트남어 글을 읽고 LLM이 핵심 내용을 파악하는 능력을 평가
- 베트남 문화 규범 가치관에 맞는 데이터 카테고리를 반영하여 구성함


4. Vie-TruthfulQA(환각방지능력)

- LLM이 베트남어로 주어진 질문에 사실에 입각하여 답변하는 능력과 환각을 방지하는 능력을 동시에 평가
- 베트남어 고유의 언어적 특성과 문화적 맥락을 반영한 문제를 다룸


5. Vie-CommonGen(베트남어 상식 생성 능력)

- 일상적인 개념들을 조합하여 문법적이고 의미적으로 자연스러운 베트남어 문장을 LLM이 얼마나 잘 생성하는지 평가
- 베트남 문화와 언어에 기반한 개념 조합을 활용함


6. Vie-GSM8k(베트남 수학적 추론)

- 초등학교 수준의 수학 응용문제 데이터셋으로 다양한 분야의 실생활 문맥을 반영한 수학 문제로 구성
- 베트남 교육과정과 실생활 문화 특성을 반영하여 구성함


7. Vie-Winogrande(베트남 문화 기반 상식 추론 능력)

- 베트남 문화와 관련된 상황이 묘사된 두 개의 문장이 주어졌을 때, 지시대명사가 지칭하는 대상을 올바르게 추론하는 LLM의 능력을 평가
- 베트남 문화와 관습에 기반한 상황을 제시함


8. Vie-DROP(베트남어 문단 추론)

- 하나의 베트남어 문단과 이에 대한 질문들이 주어졌을 때, LLM이 문단의 내용을 종합적으로 이해하고 질문에 답하는 능력을 평가
- 베트남의 역사, 문화, 정치, 경제 등 다양한 도메인의 문단을 포함함<


9. Vie-BoolQ(베트남어 이해분류)

- 베트남의 인물, 사건 등에 대해 잘못된 정보가 포함된 문장이 주어졌을 때, LLM이 이를 파악하는 능력을 평가
- 베트남의 역사, 정치, 문화 등 다양한 분야의 사실 관계를 다룸


10. Vie-CMMU(베트남 문화 기반 멀티모달 이해력)

- 베트남의 문화, 역사, 명소 등이 담긴 이미지와 관련 베트남어 텍스트를 함께 입력받아, LLM이 시각적 정보와 언어적 정보를 종합적으로 이해하고 추론하는 능력을 평가
- 베트남 고유의 문화 요소가 반영된 이미지와 텍스트 쌍을 활용함