UPDATED. 2024-04-26 19:26 (금)
KISTI, 기계학습데이터 ScienceON 통해 활용 개방
KISTI, 기계학습데이터 ScienceON 통해 활용 개방
  • 박광하 기자
  • 승인 2021.11.03 16:33
  • 댓글 0
이 기사를 공유합니다

425만건 데이터에 누구나 자유롭게 접근·활용
논문 QA 데이터를 활용한 질의응답 서비스 화면. [자료=KISTI]
논문 QA 데이터를 활용한 질의응답 서비스 화면. [자료=KISTI]

[정보통신신문=박광하기자]

한국과학기술정보연구원(KISTI)은 '과학기술 분야 기계학습데이터 구축 사업'의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ScienceON에서 '기계학습데이터 활용 서비스'를 11월 3일 론칭한다.

데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다. 이에 KISTI는 기계학습데이터 구축 사업을 전개해, 과학기술 분야 국내논문 및 국가 R&D 연구보고서를 토대로 AI를 위한 데이터셋 5종 425만 건을 구축하는 데 성공했다.

또한 KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 ScienceON의 기존 학술정보 서비스에 기계학습데이터 4종(논문 전문 텍스트, 보고서 표·그림, 논문 QA, 논문 문장 의미태깅)을 접목한 서비스를 선보인다.

제공되는 서비스는 첫째, 논문 전문 텍스트를 활용해 이용자가 검색한 키워드가 본문 문장에서 어떻게 표현되는지 키워드의 전후 내용을 스니펫(검색한 의도에 부합하는 답을 제공할 수 있는 최소한의 단위)으로 제공한다.

보고서에 수록된 표·그림 이미지는 물론, 이를 설명하는 캡션과 인용 문장들까지도 함께 제공하게 된다.

또한, 논문 QA 데이터를 활용해 논문의 핵심 어휘를 질문과 답변 형식으로 쉽게 풀이해 제공하고, 논문 문장 의미태깅을 통해 연구목적, 연구방법, 연구결과를 요약해 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 주게 된다.

이 외에도 요약 정보를 PDF 원문에 표시해 제공함으로써 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • [인터넷 신문 등록 사항] 명칭 : ㈜한국정보통신신문사
  • 등록번호 : 서울 아04447
  • 등록일자 : 2017-04-06
  • 제호 : 정보통신신문
  • 대표이사·발행인 : 함정기
  • 편집인 : 이민규
  • 편집국장 : 박남수
  • 서울특별시 용산구 한강대로 308 (한국정보통신공사협회) 정보통신신문사
  • 발행일자 : 2024-04-26
  • 대표전화 : 02-597-8140
  • 팩스 : 02-597-8223
  • 청소년보호책임자 : 이민규
  • 사업자등록번호 : 214-86-71864
  • 통신판매업등록번호 : 제 2019-서울용산-0472호
  • 정보통신신문의 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재·복사·배포 등을 금합니다.
  • Copyright © 2011-2024 정보통신신문. All rights reserved. mail to webmaster@koit.co.kr
한국인터넷신문협회 인터넷신문위원회 abc협회 인증 ND소프트