2~3년 전 자료도 부지기수
조 차관 “등급 세분화 완료”
[정보통신신문=최아름기자]
디지털 뉴딜 사업 핵심으로 야심차게 추진 중인 공공데이터의 부실 운영 문제가 국감에서 질타를 받았다.
홍석준 국민의힘 의원은 최근 열린 과학기술정보방송통신위원회 국정감사에서 효율적 활용을 위한 공공데이터 수집체계가 부재하다고 비판했다.
홍 의원은 “많은 데이터들이 2~3년 전 자료로 업데이트가 안 돼 스타트업들이 사실상 활용할 수가 없다고 불만을 제기하고 있고, 데이터댐의 핵심 사업인 ‘AI 학습용 데이터 구축’은 1~2시간 교육받은 단기 알바에 의해 비정형데이터의 데이터 라벨링 작업이 이뤄져 제대로 검수가 됐는지 장담할 수 없는 실정”이라며 “데이터의 정확도나 품질에 근본적인 문제가 있다”고 비판했다.
포맷 역시 바로 활용할 수 없는 오픈 포맷이 아닌, pdf나 한글파일로 올라온 경우가 상당수라고 홍 의원은 지적했다.
이어 그는 지능정보사회진흥원(NIA), 한국데이터산업진흥원 등 관련 기관 간 연계가 필요하며, 데이터 수집·생성 → 저장·관리 → 가공·유통 → 분석·활용하는 데이터 산업 전주기를 통합 지원하는 콘트롤타워 역할을 할 데이터통합지원센터의 조속한 설치가 필요하다고 강조했다. 현행 지능정보화기본법은 한국지능정보사회진흥원(NIA)에 데이터통합지원센터를 설치하도록 규정을 두고 있지만, 아직 센터 설치가 이뤄지지 않고 있다.
임혜숙 장관은 “라벨링 데이터의 일부에 문제가 있는 것은 알고 있으며 앞으로 품질은 개선될 것”이라며 “데이터 수집은 수요 기반으로 추진하고 있고, 데이터 개방 문제는 개인정보를 제외하고는 완료된 상태”라고 답했다.
조경식 차관은 “데이터 포맷의 경우 인공지능 데이터 플랫폼에서는 표준화가 돼 있는 상태고, 데이터 라벨러도 초‧중‧고급으로 세분화돼 구축돼 있는 상태”라고 덧붙였다.