가명처리 AI 학습용 데이터 개방
[정보통신신문=이길주기자]
개인정보보호위원회가 인공지능(AI) 학습용 데이터 개인정보보호 강화 지원에 나섰다.
개인정보위원회에 따르면 한국인터넷진흥원을 통해 과기정통부가 추진하는 인공지능(AI) 학습용 데이터 구축 사업이 개인정보 관련 법규의 정합성을 준수할 수 있도록 지원 중이다.
과기정통부는 2017년부터 AI 학습용 데이터를 대규모로 구축하고 ‘AI 허브’를 통해 개방해왔다.
개인정보위는 안전한 데이터 활용 여건을 조성해 성공적인 디지털 뉴딜 사업을 추진하기 위해 지난해 1월 과기정통부와 업무협약을 체결한 바 있다.
이에 대한 후속 조치의 일환으로 인터넷진흥원을 통해 AI 학습용 데이터 중 일부 표본 63종에 대해 개인정보 포함 여부와 재식별 가능성 등을 검토했다.
그 결과 이미지‧영상 데이터의 경우 일부 인물 및 차량번호가 식별 가능하고 비정형 문자 데이터의 경우 일부 개인정보의 가명처리가 미흡한 부분 등을 지적했다.
이에 과기정통부와 한국지능정보사회진흥원은 2개의 전문기업을 선정해 개인정보가 포함돼 있을 가능성이 있는 65종 1억 8000여건의 AI 학습용 데이터를 점검하고 가명처리를 추가 진행했다.
이미지‧영상 데이터 46종 8323만건은 얼굴과 차량등록번호 등을 식별할 수 있는 경우 흐릿하게 편집 처리했다.
또한 비정형 문자 데이터 19종 9970만건은 이름‧주소 등 개인정보가 확인되는 경우 해당 부분을 보통명사와 기호의 조합으로 가명처리해 제공하고 AI 학습용 데이터를 사용하는 기업은 해당 문자열을 가상의 이름, 주소 등으로 치환해 활용할 수 있도록 했다.
이와 같이 가명처리 된 AI 학습용 데이터들을 이달 말까지 순차적으로 개방할 예정이다.
개인정보위의 제안에 따라 AI 허브에 3개월 간 온라인 창구를 운영해 이용자들이 가명처리가 미흡한 데이터를 발견하고 의견을 제시할 경우 이를 신속히 개선할 계획이다.
개인정보위는 앞으로도 AI 학습용 데이터가 체계적인 보호 기반 위에 안전하게 활용될 수 있도록 적극 지원할 예정이다.