AI가 사람처럼 언어·시각 정보 이해

KETI, ‘VL-KE-T5’ 모델 공개
AI 복합지능 연구 ‘탄력’

2022-02-16     차종환 기자
VL-KE-T5를 활용한 한국어 기반 영상 검색 결과. [사진=KETI]

[정보통신신문=차종환기자]

인공지능(AI)이 텍스트를 인간 수준으로 이해하고, 적합한 이미지를 자동으로 결합하는 수준에 도달했다.

한국전자기술연구원(KETI)은 AI 연구에 활용 가능한 사전학습 모델 ‘VL-KE-T5’를 무료 공개∙배포한다고 밝혔다.

사전학습 모델이란, 자기지도학습(Self-supervised Learning)을 통해 대용량 데이터로부터 범용적 의미를 미리 학습하는 AI 기법으로, 높은 구축 비용이 필요한 학습 데이터 기반의 학습을 최소화하고 비교적 쉽게 확보 가능한 원시 데이터를 학습에 활용한다.

‘VL-KE-T5’는 지난해 4월 KETI가 구축해 무상 공개했던 언어(한국어-영어) 기반 사전학습 모델인 ‘KE-T5’와 구글이 공개한 시각 기반 사전학습 모델인 ‘ViT’의 의미 정보를 정렬시킨 모델이다.

KETI는 언어 및 시각 기반 사전학습 모델을 AI가 동시에 처리할 수 있도록 두 모델의 상이한 의미 표현을 동일한 의미 단위로 정렬시켰다.

‘VL-KE-T5’는 영상 정보와 언어 정보의 연계 처리가 가능한 복합지능 모델이며, 한국어와 영어를 동시에 지원하고 있으므로 두 언어 기반의 업무처리가 모두 가능하다는 강점을 지니고 있다.

또한 이 모델은 오픈소스 라이선스(아파치 2.0)에 따라 자유롭게 활용 및 배포가 가능하기 때문에 대학·연구소·중소기업 등 국내 AI 연구 전반에 확산이 기대된다.

국내에서 언어 데이터와 시각 데이터를 함께 처리하는 AI모델의 발표는 KETI의 ‘VL-KE-T5’가 국내 세 번째 사례로, AI 이해 기술 연구에 자유로운 활용이 가능하다.

이번 연구를 주도한 KETI 인공지능연구센터 신사임 센터장은 “KETI 인공지능연구센터는 앞으로도 인공지능 사전학습 및 복합지능 연구에 필요한 핵심 인프라를 지속적으로 공개할 것”이라며 “향후 관련 분야 중소기업의 기술 사업화에도 지원을 아끼지 않겠다”고 밝혔다.