Services|독자LLM 성능평가모델 구축수행

(주)딥로딩, 과기정통부 한국형 독자 LLM 성능평가 사업 성공적 완료… "국가 AI G3 도약의 중추 역할"

국내 독자 LLM 5개사 평가 마무리, 대규모 한국형 벤치마크 및 AI 자동채점 시스템으로 공정성 확보

AI 전문기업 (주)딥로딩이 과학기술정보통신부와 한국지능정보사회진흥원(NIA)이 추진하는 '독자 AI 파운데이션 모델 프로젝트'의 핵심 과제인 한국형 LLM 성능평가 체계 구축 및 평가 사업을 2025년 성공적으로 완료했다고 밝혔다.

이번 사업은 글로벌 빅테크에 대한 AI 의존도를 낮추고 대한민국이 세계 3대 AI 강국(G3)으로 도약하기 위한 국가 전략 프로젝트다. (주)딥로딩은 국내 대표 LLM 기업 5개사 (LG AI연구원, 업스테이지, SKT, 네이버클라우드, NCAI)를 대상으로 한 전면적인 성능 검증을 수행하며, 2025년 말 평가를 성공적으로 마무리했다.

한국형 LLM 성능평가 체계 구성도

5만여 건의 고품질 데이터셋, 한국어 AI 평가의 '골든 스탠다드' 정립

(주)딥로딩은 이번 사업을 통해 총 5만 건 이상의 방대한 한국형 LLM 벤치마크 데이터셋을 구축했다. 평가 체계는 '지식 추론'과 '심화 이해'라는 두 개의 큰 축을 중심으로 설계되었으며, 다각도의 평가 태스크를 통해 모델의 역량을 정밀하게 측정했다.

지식 평가 영역에서는 사실 기반의 정보 전달 능력과 일반상식을 결합한 응용 추론, 문맥 이해도 및 학문적 추론 능력을 폭넓게 검증했다. 특히 장문 이해 영역에서는 대규모 토큰 처리 능력을 집중 점검하며 문서 요약, 정보 추출, 다중문서 비교, 논리적 인과관계 파악 등 실무 중심의 평가 항목을 강화했다.

기존 영어권 중심의 벤치마크가 한국어 특유의 문법 구조와 문화적 맥락을 반영하지 못했던 한계를 극복하고, 국내 기업들이 정당하게 성능을 인정받을 수 있는 공정한 토대를 마련했다는 평가다.

LLM 벤치마크 데이터셋 구성 현황

독자적인 'AI 자동채점 모델' 개발… 사람 평가자와 95% 이상 정합

가장 주목할 성과는 (주)딥로딩이 자체 개발한 'AI 자동채점 시스템(LLM-as-a-Judge)'이다. 수만 건의 답변을 일관된 기준으로 평가할 수 있는 자동화 시스템을 통해 평가의 비용과 시간을 획기적으로 단축하면서도 높은 신뢰도를 확보했다.

(주)딥로딩은 자체 보유한 고성능 한국형 특화 모델을 기반으로 대규모 데이터를 학습시켜 채점 모델을 최적화했다. 특히 고도화된 프롬프트 엔지니어링과 인간 피드백 기반 강화학습(RLHF) 등 최신 튜닝 기법을 적용하여 채점 신뢰도를 높였다.

평가 기준은 답변의 완성도와 논리성 등 다차원 지표로 구성되었으며, 전문가 집단의 직접 채점 결과와 비교 검증한 결과 95% 이상의 높은 일치율을 기록했다. 이는 AI가 AI를 평가하는 영역에서 세계적 수준의 정합성을 확보했음을 의미한다.

AI 자동채점 시스템 성능 검증 결과

체계적 데이터 파이프라인으로 품질 초격차 구현

(주)딥로딩은 데이터의 수집부터 정제, 가공, 검수, AI 채점에 이르는 '5단계 품질 보증 파이프라인'을 가동했다. 단순 수집에 그치지 않고 사고 과정(Chain-of-Thought)을 포함한 가공 단계를 거쳐 데이터의 깊이를 더했으며, 전문가 교차 검수를 통해 오류를 최소화했다. 이처럼 엄격한 품질 관리 체계는 이번 성능평가의 결과가 국가 표준으로서 권위를 갖는 핵심 요인이 되었다.

데이터 품질 보증 파이프라인

공정한 심판 역할 수행… AI 생태계 인프라로 확산 기대

(주)딥로딩의 평가 결과는 과기정통부의 프로젝트 단계별 평가에서 통과 및 탈락을 결정하는 공식 지표로 활용되었다. 이를 통해 국내 주요 AI 기업들이 기술력을 증명하고 다음 단계로 진입하는 데 기여하며 '국가 AI 생태계의 공정한 심판' 역할을 완수했다.

딥로딩은 "이번 성과는 한국 AI의 수준을 객관적으로 측정할 수 있는 기술적 잣대를 우리 손으로 직접 만들었다는 데 의의가 있다"며 "이 평가 인프라는 향후 행정, 법률, 의료 등 공공과 산업 전반에서 AI의 신뢰성을 검증하는 핵심 도구로 활용될 것"이라고 밝혔다.

국가 AI 생태계 인프라 확산 계획

(주)딥로딩은 앞으로 에이전틱(Agentic) AI와 멀티모달(Multimodal) AI 등 최신 기술 변화를 반영한 차세대 평가 체계를 지속적으로 고도화하여, 대한민국 AI 경쟁력을 뒷받침하는 핵심 기술 파트너로서의 입지를 굳건히 할 계획이다.

본 기사는 2025년 수행된 과기정통부·NIA '한국형 LLM 성능평가 벤치마크 데이터셋 구축' 사업의 성과를 바탕으로 작성되었습니다.