학습용 데이터 공개
LG CNS가 인공지능(AI) 한국어 학습용 데이터 10만개를 국내 AI 업계에 무료로 개방한다.
LG CNS는 5일 서울 강서구 마곡 LG사이언스파크에 국내 AI 전문가 300여명을 초청해 AI 커뮤니티 행사 ‘AI Tech Talk(테크톡) for NLU’을 열고 ‘코쿼드 2.0’ 출시를 발표했다.
‘코쿼드 2.0’은 한국어 표준데이터를 10만개로 확대하고, 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전이라는 설명이다.
예를 들어 “대한민국의 수도와 그 면적은?”이라는 질문에 “서울특별시, 605.25㎢ 입니다”라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발 가능했지만, “서울특별시의 특징은?”이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…”이라는 장문의 답을 위해서는 코쿼드 2.0으로 AI를 학습시켜야 한다.
언어 AI 개발을 위해서는 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. LG CNS가 표준데이터를 외부에 개방해 향후 AI 연구자들 간의 시너지를 유발하고, 국내 인공지능 기술 발전에 기여한다는데 의미가 있다.
해외에서는 미국 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있으나, 국내는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다.
현신균 LG CNS CTO(최고기술책임자) 부사장은 “응용 분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 업계 전체에 개방해 국내 연구자들 간의 상생을 위한 AI 개방형 생태계 조성에 기어코자 한다”라고 밝혔다.
이번에 출시한 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 다운로드가 가능하다.