소수 데이터로도 높은 성능
한-영 요약 번역 모델도 눈길
[정보통신신문=차종환기자]
한국어 중심의 언어처리 인공지능이 한단계 업그레이드 됐다.
한국전자기술연구원(KETI)은 언어처리 모델 ‘KE-T5’를 공개했다. ‘KE-T5’는 구글의 언어모델 알고리즘인 ‘T5’를 기반으로 구축한, 한국어와 영어처리에 모두 활용 가능한 자기지도학습 방식의 이중 언어처리 모델이다
언어모델이란, 대용량 텍스트로부터 자기지도학습(Self-supervised learning) 방식으로 범용적 의미를 미리 학습해 모델화하고, 이를 다양한 언어처리에 활용하는 인공지능 모델링 방식을 의미한다.
T5(Text-to-Text-Transformer)는 2020년 10월 구글에서 발표한 사전학습 기반 언어모델 구축 알고리즘으로, 대규모 자연어 데이터에서 학습된 의미 모델을 다양한 언어처리에 활용하는 인공지능 모델링 알고리즘이다.
‘KE-T5’는 최초의 한국어 데이터 중심 T5계열 모델이자, 언어의 의미 인식 특성과 표현 특성을 모두 포함하고 있는 범용 언어모델이다.
인공지능 소수학습(Few-shot learning)을 지원해, 소수의 학습데이터만으로 다양한 언어처리에서 높은 성능을 보여, 구축비용 대비 높은 활용성을 자랑한다. 인공지능 소수학습이란, 소량의 학습데이터만으로 학습모델을 구축하는 인공지능 알고리즘 연구분야다.
한국어와 영어의 동시 처리가 가능하며, 기존 모델에서 상대적으로 저조했던 문서 요약, 영-한 및 한-영 번역, 대화 등의 언어이해는 물론 표현의 연계학습이 필요한 고난도의 언어처리에서도 우수한 결과를 보인다.
KETI는 텍스트의 종류와 학습 규모에 따라 16종의 모델을 무상으로 배포해, 개발자가 개발환경과 엔진 특성에 따라 선택하고 활용할 수 있도록 했다.
바로 활용 가능한 24종의 한국어-영어 요약, 번역 모델들도 함께 공개했다. 이 언어모델들은 아파치(Apache) 2.0 라이선스에 따라 자유롭게 사용 및 배포가 가능해, 국내 다양한 언어처리 분야에 활용될 것으로 기대된다.
이번 연구를 주도한 인공지능연구센터 신사임 센터장은 “영어 중심의 사전학습 언어처리 기술은 그동안 높은 구축비용으로 기업들에게 부담을 줬다”며 “KE-T5의 규모를 계속해서 대형화하고 있는 바, 결과물들을 지속적으로 공개해 원천 언어처리기술 분야의 발전과 사업화 지원을 위해 앞장서겠다”고 밝혔다.
한편, 이 기술은 과기부와 IITP, NIPA 지원의 △자기지도 학습에 의한 시각적 상식으로 영상에서 보이지 않는 부분을 복원하는 기술(2021-0-00537) △정서적 안정을 위한 인공지능 기반 공감서비스 기술 개발(S0316-21-1002) △비정형 텍스트를 학습해 쟁점별 사실과 논리적 근거추론이 가능한 인공지능 원천기술(2021-0-00354) 과제를 통해 개발됐다.