데이터댐 열렸다…AI 학습용 데이터 170종 본격 개방

인공지능 AI 허브 통해 무료 개방
중소기업 등 관련 산업계에 '단비'
대기업, 연구기관 의해 유효성 인정
2025년까지 1800종 개방 계획

[정보통신신문=최아름기자]

1년간 건설한 데이터댐이 드디어 포문을 열었다. ‘데이터 라벨링’ 사업을 통해 구축된 데이터 170종이 18일부터 개방되는 것.

과학기술정보통신부와 한국지능정보사회진흥원은 국내 인공지능 기술 및 산업 발전의 촉진제가 될 인공지능 학습용 데이터 170종(4억8000만건)을 인공지능(AI) 허브를 통해 18일부터 개방한다고 밝혔다.

이번에 인공지능(AI) 허브에 개방되는 인공지능 학습용 데이터는 비용과 인력 확보 등의 문제로 데이터를 직접 구축하기 어려운 중소기업이나 스타트업뿐 아니라, 대기업도 자체 확보하기 어려운 대규모 데이터를 제공한다는 점에서 그동안 국내 인공지능(AI) 산업계에서 가장 큰 걸림돌로 꼽은 문제인 ‘데이터 갈증’을 어느 정도 해소할 수 있을 것으로 전망된다.

과기정통부는 2017년부터 기업, 연구자, 개인 등이 시간 및 비용 문제로 개별 구축하기 어려운 인공지능 학습용 데이터를 시범사업 형태로 구축, 2019년부터 21종의 소수 데이터를 개방한 바 있다.

따라서 이번 170종 구축개방은 본격적인 데이터 개방의 포문을 여는 것이라 할 수 있다.

이번에 개방되는 데이터 170종은 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등 8개 분야 데이터다.

양기성 데이터진흥과장은 “헬스케어, 음성, 자율주행 등 업계가 손꼽아 기다린 기본 데이터 구축에 초점을 맞췄다”며 “자사 서비스에 특화된 데이터를 확보하기 위해서는 추가 가공이 필요할 것”이라고 말했다.

정부는 데이터 유효성 확보를 위해 지난해 9월부터 8대 분야별 산·학·연 전문가 80여명이 참여하는 ‘품질자문위’를 운영해왔다.

또한 주요 대기업(네이버, LG, 삼성전자, KT, 현대차 등), 스타트업(딥노이드, 스트라드비젼, 비바엔에스 등), 대학 및 연구기관(KAIST, GIST, ETRI, 농정원 등) 등 20여개 기업·기관이 참여해 데이터 개방 전, 활용성 검토를 진행(5~6월)해 제품·서비스 모델 고도화에 개방 데이터가 유효하다는 긍정적 반응을 받은 것으로 확인됐다.

30일 공개를 앞두고 있는 한국어 방언(경상·전라·충청·강원·제주) 발화 데이터는 표준어에 비해 사투리를 잘 인식하지 못하던 음성 기반 인공지능(AI) 서비스의 문제점을 상당 부분 해결할 수 있을 것이다. 특히, 데이터 개방 전 활용성 검토 결과 “자연스러운 방언이 수집됨”, “기존 서비스의 인식률이 12% 향상됨” 등의 좋은 평가를 받기도 했다.

또한, 6월 18일부터 6월 30일까지 순차적으로 공개될 자율주행 데이터(21종)는 국내 도로주행 영상뿐 아니라, 주차 장애물·이동체 인지 영상, 버스 노선주행 영상 등 다채로운 데이터를 제공하여, 자율주행차 개발을 한층 앞당길 것으로 기대되고 있다. 특히, 활용성 검토 결과, “특수 차선, 장애물, 포트홀 등 다양한 객체가 포함”된 점은 대표적인 장점으로 꼽힌다.

정부는 2025년까지 1300종의 데이터를 신규 구축, 개방한다.

가장 민감정보인 헬스케어 데이터의 경우 헬스케어 안심존을 통해 공개된다.

헬스케어 안심존은 폐쇄형, 온라인 양방향으로 구축돼 안심존 내에서만 인공지능 학습 및 열람이 가능하다. 데이터를 촬영해서 외부에 유출할 수 없도록 워터마킹 처리돼 반출된다.

또한 3개월간 이용자 참여형 집중개선기간으로 운영, 혐오표현 등 문제 데이터가 신고될 때마다 데이터를 즉시 수정하기로 했다. 이전에 다운로드받은 이용자에게 통지하고 다시 다운로드할 수 있는 프로세스도 제공한다.

이번 개방은 회원가입 및 휴대폰 본인인증이 가능한 국내인에 한해 이뤄진다. 송경희 인공지능기반정책관은 “글로벌 데이터 오픈 추세나 해외 데이터는 국내 시장에 적용되지 않는 점 등을 고려하면 개방하는 편이 바람직하다는 의견도 있다”며 “3개월 베타서비스 기간 동안 해외 유출을 막아야 할지 검토하는 시간을 거치려고 한다”고 밝혔다.

과기정통부와 지능정보원(NIA)은 ’20년에 구축한 8대 분야 170종의 데이터를 6월 18일 60종을 시작으로 6월말까지 순차적으로 개방할 예정이다.

특히, 헬스케어 데이터(27종) 등 개인정보 및 민감정보가 포함될 우려가 있는 59종의 데이터는 최종검증을 거쳐 30일에 개방될 계획이다.