과학기술정보통신부와 NIA(한국지능정보사회진흥원)에서 진행한 연구 과제를 수행하였습니다. 초거대AI에 학습용(Pre-training)으로 활용될 대량의 베트남어 원천 말뭉치 데이터를 구축하고, 데이터 유효성을 검증하기 위한 베트남어 초거대 언어 모델(LLM)을 개발하였습니다.
베트남어 GPT는 챗봇 용도로 훈련된 베트남어 LLM으로, 베트남에 관련된 베트남어 질문에 대해 답변을 생성합니다. ChatGPT를 비롯한 초거대 언어 모델과 관련된 개념에 대한 설명은 블로그 페이지를 참고하세요.
ChatGPT나 Bard와 같은 기존 거대 언어 모델들은 베트남어-베트남 데이터를 제대로 학습하지 않아 베트남어 질문에 대해 아예 답변하지 못하거나 부정확한 답변을 제공합니다. 하지만 베트남의 IT 시장은 급성장을 거듭하며 AI 서비스에 대한 수요는 커지고 있습니다.
베트남 정부 방문 및 시연 2023.12
시연 화면
Viet-GPT 모델은 베트남어 프롬프트를 받아 텍스트를 생성할 수 있는 베트남어 언어 모델입니다.
EleutherAI의 GPT-NeoX 모델을 사용하여 1.3B 파라미터로 pre-train을 수행하였습니다. GPT-NeoX는 OpenAI의 GPT3과 동일한 구조를 가진 decoder-only transformer 모델로 상업적 사용이 가능합니다. GPT라고 통칭되는 decoder-only transformer 모델은 자연어 처리에 강세를 보이고, 그 중에서도 특히 고품질의 텍스트를 잘 생성하는 강점이 있습니다.
GPT-NeoX는 825GB의 대규모 텍스트를 사전 학습하였고 13억/27억/38억개 등의 매개변수를 가졌으며, 상업적 이용이 가능합니다.
베트남어 말뭉치 데이터는 AI-Hub 사이트에서 다운로드 가능합니다.
AI-Hub: https://aihub.or.kr/