Research Details

  • Home
  • Research Details

베트남어 초거대 생성형 AI모델 개발 & 베트남어 말뭉치 데이터 구축


과학기술정보통신부와 NIA(한국지능정보사회진흥원)에서 진행한 연구 과제를 수행하였습니다. 초거대AI에 학습용(Pre-training)으로 활용될 대량의 베트남어 원천 말뭉치 데이터를 구축하고, 데이터 유효성을 검증하기 위한 베트남어 초거대 언어 모델(LLM)을 개발하였습니다.

베트남어 GPT는 챗봇 용도로 훈련된 베트남어 LLM으로, 베트남에 관련된 베트남어 질문에 대해 답변을 생성합니다. ChatGPT를 비롯한 초거대 언어 모델과 관련된 개념에 대한 설명은 블로그 페이지를 참고하세요.



배경&목적

ChatGPT나 Bard와 같은 기존 거대 언어 모델들은 베트남어-베트남 데이터를 제대로 학습하지 않아 베트남어 질문에 대해 아예 답변하지 못하거나 부정확한 답변을 제공합니다. 하지만 베트남의 IT 시장은 급성장을 거듭하며 AI 서비스에 대한 수요는 커지고 있습니다.


기대효과

  • 베트남 ChatGPT(초거대 생성AI) 응용 서비스 개발 분야 사업 진출
  • 베트남 진출 국내 기업을 위한 챗봇 서비스 개발 지원
  • 베트남 대기업/정부 기관 초거대 생성형 AI 제품 수출 및 공급

성과 확산 결과

Details

베트남 정부 방문 및 시연 2023.12

Details

시연 화면

  • 베트남 정부 디지털전환국의 요청에 따라, NIA 글로벌협력팀을 통해 베트남어 LLM 서비스 시연 및 발표
  • 베트남 정부의 요청에 따라, 베트남어 말뭉치 데이터 및 모델의 공개(제공) 및 확산 사업 추진 중
  • 베트남 진출 국내 기업의 니즈에 따라 고객센터 적용 등 활용 예상


VN Generative LLM - 베트남어 생성형 초거대 언어 모델

  • 대용량의 베트남어 데이터를 학습하여 QA 형식의 대화가 가능한 베트남어 GPT(Generative Pre-trained Transformer) 모델을 개발하였습니다.

모델 설명

Viet-GPT 모델은 베트남어 프롬프트를 받아 텍스트를 생성할 수 있는 베트남어 언어 모델입니다.


모델 아키텍처

Details
Details

EleutherAI의 GPT-NeoX 모델을 사용하여 1.3B 파라미터로 pre-train을 수행하였습니다. GPT-NeoX는 OpenAI의 GPT3과 동일한 구조를 가진 decoder-only transformer 모델로 상업적 사용이 가능합니다. GPT라고 통칭되는 decoder-only transformer 모델은 자연어 처리에 강세를 보이고, 그 중에서도 특히 고품질의 텍스트를 잘 생성하는 강점이 있습니다.

GPT-NeoX는 825GB의 대규모 텍스트를 사전 학습하였고 13억/27억/38억개 등의 매개변수를 가졌으며, 상업적 이용이 가능합니다.





학습 데이터셋

베트남어 말뭉치 데이터는 AI-Hub 사이트에서 다운로드 가능합니다.

AI-Hub: https://aihub.or.kr/