UPDATED. 2024-04-26 19:26 (금)
미디어젠, 초거대 언어모델 TTA 성능 검증
미디어젠, 초거대 언어모델 TTA 성능 검증
  • 차종환 기자
  • 승인 2024.01.18 09:15
  • 댓글 0
이 기사를 공유합니다

AI 학습용 데이터 구축
헬스케어 적용 본격화
미디어젠 마곡 R&D 센터 사옥 전경. [사진=미디어젠]
미디어젠 마곡 R&D 센터 사옥 전경. [사진=미디어젠]

[정보통신신문=차종환기자]

미디어젠 컨소시엄이 인공지능(AI) 데이터 사업에서 구축된 데이터를 활용해 제작한 초거대언어모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.

미디어젠 컨소시엄은 한국지능정보사회진흥원(NIA)이 추진하는 ‘2023년도 인공지능 학습용 데이터 구축 사업’의 초거대 AI 모델을 위한 AI 학습용 데이터 구축 사업자로 최종 선정된 바 있다.

이에, 약 2억어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.

이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성됐다.

미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문기업으로 구성돼 있으며, 이번에 구축된 데이터에 대해 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA의 정밀 검증에서 모두 합격 판정을 받았다.

특히 초거대 언어 모델 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성함으로써, AI 학습용 데이터의 안정성은 물론 초거대 언어 모델의 성능도 공식 입증 받게 됐다.

이번 TTA 검증에 활용된 데이터는 일반인의 질문 데이터와 의료진이 직접 작성한 헬스케어 데이터가 질의응답 쌍을 이루고 있으며, 직접 수집된 데이터를 기반으로 증강됐다.

데이터 증강에는 미디어젠이 직접 개발한 증강 모델이 활용됐으며, 초거대 AI 질의응답 모델은 한국전자통신연구원(ETRI)의 T5 기반 파인튜닝 모델로 시험을 진행했다.

이번 사업을 총괄한 송민규 미디어젠 상무는 “각 산업 영역에서 직접적으로 활용될 수 있는 사업화 초거대 언어 모델을 꾸준히 발표할 예정”이라고 밝혔다.

한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 2023년 12월 말까지 데이터 수집 및 AI 모델 검증이 완료됐으며, 2024년 상반기 NIA가 운영하는 AI-허브를 통해 모든 데이터가 일반에 공개될 예정이다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • [인터넷 신문 등록 사항] 명칭 : ㈜한국정보통신신문사
  • 등록번호 : 서울 아04447
  • 등록일자 : 2017-04-06
  • 제호 : 정보통신신문
  • 대표이사·발행인 : 함정기
  • 편집인 : 이민규
  • 편집국장 : 박남수
  • 서울특별시 용산구 한강대로 308 (한국정보통신공사협회) 정보통신신문사
  • 발행일자 : 2024-04-26
  • 대표전화 : 02-597-8140
  • 팩스 : 02-597-8223
  • 청소년보호책임자 : 이민규
  • 사업자등록번호 : 214-86-71864
  • 통신판매업등록번호 : 제 2019-서울용산-0472호
  • 정보통신신문의 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재·복사·배포 등을 금합니다.
  • Copyright © 2011-2024 정보통신신문. All rights reserved. mail to webmaster@koit.co.kr
한국인터넷신문협회 인터넷신문위원회 abc협회 인증 ND소프트