카카오, 최고 멀티모달 언어모델·MoE 모델 오픈소스 최초 공개

개발 및 서비스 운영 경험 바탕 ‘독자 AI 파운데이션 모델 프로젝트’에 참여
프롬 스크래치 방식 개발, Kanana 1.5 확장...컴퓨팅 자원활용과 비용 절감

카카오가 최고 성능 경량 멀티모달 언어모델과 MoE 모델을 오픈소스로 공개했다. 자료=카카오

카카오가 국내 공개모델 중 최고 성능의 경량 멀티모달 언어모델과 MoE(Mixture of Experts) 모델을 국내 최초 오픈소스로 공개하며 자체 AI 기술개발 능력을 재차 입증했다.

카카오는 24일 허깅페이스를 통해 △이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 ‘Kanana-1.5-v-3b’와 △MoE(Mixture of Experts) 언어모델 ‘Kanana-1.5-15.7b-a3b’를 오픈소스로 공개했다. 앞서 카카오는 올해 5월에 언어모델 Kanana-1.5 4종을 공개하기도 했다. 2개월만의 추가 언어모델 공개로 회사는 독자적 모델 설계 기반의 기술 경쟁력을 증명했다. 정부의 ‘독자 AI 파운데이션 모델 프로젝트’에 참여한 카카오는 자체 모델 개발 역량 및 카카오톡 등 대규모 서비스 운영 경험 등을 토대로 전 국민 AI 접근성을 높이고, 국가 AI 경쟁력 강화에 기여할 방침이다.

‘Kanana-1.5-v-3b’는 텍스트뿐 아니라 이미지 정보도 처리할 수 있는 멀티모달 언어모델로, 5월 말 오픈소스로 공개한 Kanana 1.5 모델을 기반으로 하고 있다. Kanana 1.5는 모델 개발 처음부터 마지막 단계까지 카카오의 자체 기술을 바탕으로 구축하는 ‘프롬 스크래치(From Scratch)’ 방식으로 개발됐다.

멀티모달 언어모델인 ‘Kanana-1.5-v-3b’는 이용자의 질문 의도를 정확히 이해하는 높은 지시 이행 성능과 뛰어난 한국어·영어 이미지 이해 능력을 보유했다. 경량 모델임에도 이미지로 표현된 한국어와 영어 문서 이해 능력이 글로벌 멀티모달 언어모델 GPT-4o와 견줄 수 있을 정도로 뛰어나다.

이는 한국어 벤치마크에서 유사 사이즈의 국내외 공개모델과 비교한 결과 최고 점수를 기록했고, 다양한 영어 벤치마크에서 해외 오픈소스 공개모델과 비교했을 때도 유사한 수준의 성능을 보였다. 지시 이행 능력 벤치마크에서는 국내 공개된 유사한 규모의 멀티모달 언어모델 대비 128% 수준의 성능을 기록했다.

카카오는 ‘인간 선호 반영 학습’과 ‘지식 증류’를 통해 Kanana-1.5-v-3b의 성능을 극대화했다. 지식 증류는 고성능의 대형 모델로부터 비교적 작은 모델을 학습하는 방식이다. 이를 통해 경량화 모델 구조도 정확도나 언어 이해 등 능력에서 대형 모델의 높은 성능에 근접하거나, 뛰어넘는 능력을 발휘하도록 돕는다.

‘Kanana-1.5-v-3b’는 경량 언어모델의 강점을 토대로 △이미지·글자 인식 △동화·시 창작 △국내 문화유산·관광지 인식 △도표 이해 △수학 문제풀이 등 여러 분야에서 활용할 수 있다.
카카오는 모델의 성능에 집중하는 단계를 넘어 AI가 사람처럼 생각하고 행동할 수 있는 멀티모달 이해 능력, 사용자 지시 수행 능력, 추론능력을 갖추도록 발전시키는 데 주력하고 있다. 하반기 중에는 에이전트형 AI 구현에 필수적인 추론모델의 성과도 공개할 예정이다.

‘MoE(Mixture of Experts)’ 구조의 언어모델은 특정 작업에 최적화된 일부 전문가 모델만 활성화되는 방식으로 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점이다. 카카오의 MoE 모델은 고성능 AI 인프라를 저비용으로 구축하고자 하는 기업이나 연구 개발자들에게 실용적인 도움을 제공할 수 있다. 특히 추론 과정에서 제한된 파라미터만 사용하는 구조적 특성 덕분에 저비용, 고효율 서비스 구현에 유리해 활용도가 높다.

카카오는 앞으로 AI 모델 생태계에 새 기준을 제시하고, 더 많은 연구자와 개발자가 AI 기술을 자유롭게 활용할 기반을 마련할 계획이다. 이와 함께 글로벌 플래그십 수준의 초거대 모델 개발에 도전해 국내 AI 생태계의 자립성과 기술 경쟁력 강화에 이바지할 계획이다.

카카오 김병학 카나나 성과리더는 “이번 오픈소스 공개는 비용 효율성과 성능이라는 유의미한 기술 개발의 성과로 단순한 모델 아키텍처의 진보를 넘어 서비스 적용과 기술 자립이라는 두 가지 측면의 목표에 부합한다”고 말했다.

전체메뉴

반도체·통신