[정보통신신문=최아름기자]
'데이터 라벨링 사업'이라 불리는 국가 주도의 인공지능 학습용 데이터 구축사업이 드디어 베일을 벗었다.
정부는 18일 음성·자연어(한국어 방언 등 39종), 헬스케어(암진단 영상 등 32종), 자율주행(도로주행영상 등 21종), 비전(스포츠 동작 영상 등 15종), 국토환경(산림수종 이미지 등 12종), 농축수산(가축행동 영상 등 14종), 안전(노후 시설물 이미지 등 19종), 기타(패션상품 이미지 등 18종) 등 8개 분야 170종의 인공지능 학습용 데이터를 AI허브를 통해 공개한다고 밝혔다. 휴대폰을 통한 본인인증을 통과하면 누구든지 무료로 받을 수 있다.
이 사업은 인공지능 학습용 데이터가 필요하지만 비용 문제로 엄두를 낼 수 없는 중소기업의 데이터 갈증 해소를 위해 추진되고 있다.
따라서 이번에 개방되는 데이터는 업계의 요구가 가장 많았던 자연어, 헬스케어, 자율주행 등 분야에 집중됐다.
이루다 사태에서 문제가 됐던 혐오표현이나 편향성 문제 대응을 위해서도 정부는 심혈을 기울였다. 특히 문제될 소지가 있는 '감성말뭉치'의 경우 일일이 전수조사를 했다 하니, 정부의 '편향성 강박'이 얼마나 심한지 엿볼 수 있다.
정부는3개월간 이용자 참여형 집중개선기간으로 운영, 문제 데이터가 신고될 때마다 데이터를 다시 올리고 이전에 다운로드받은 이용자에게 통지하고 다시 다운로드할 수 있는 프로세스를 만들었다고 밝혔다.
이번에 개방되는 데이터는 종류로는 170종이지만, 데이터 수로는 4억8000만건이다. 전수조사는 불가능하고 편향성을 완전히 없앤다는 것은 불가능하다.
게다가 대규모 개방은 이제 첫 걸음마다. 문제가 발생하면 신속히 수정해야 겠지만, 과도한 비난과 비판은 초대규모 재정과 인력이 투입된 사업 자체의 사기를 꺾고 산업계 활력마저 꺾을 수 있다. 어찌 보면 문제가 발생하는 것이 이득이다. 손실이 더 커지기 전에 문제를 인지하고 대처할 수 있기 때문이다.
그러나 기자설명회 때 만난 당국 관계자들을 생각하니, '이루다' 때와 같은 사태는 일어나면 안 될 것 같다. 부디 이번에 개방된 데이터가 '무사히' 많은 기업들의 인공지능 개발에 유효성을 인정받아 국가 주도의 데이터댐 사업이라는 정부의 선구안이 적중했음을 확인할 수 있기를 기원해본다.