[ICT광장] '데이터 중심' AI 기술 체계 구축 필요하다

박지환 씽크포비엘 대표

1970년 처음으로 12개의 CCTV가 서울에 설치되고 난 이후 반세기가 흐른 지금, 우리나라는 영국·중국과 함께 세계에서 가장 많은 CCTV가 작동하는 국가에 속한다.

그러나 한계가 있다. CCTV는 사람이 직접 들여다볼 수 없는 공간과 시간을 커버해줌으로써 비용과 수고를 줄이지만, CCTV가 들여다보는 대상을 확인하고 해석하는 것은 결국 사람의 몫이기 때문이다.

현재 전국의 공공 CCTV 관련 관리인력 한명당 할당된 CCTV 대수는 평균 100개쯤 된다. 한명이 100개 영상을 동시에 보면서 위험 요소 등 이상 상황을 실시간 점검해야 하는 셈이다. 그래서 등장한 게 스스로 영상 자료를 확인해 상황을 인지하고 최소한의 판단을 해주는 지능형 CCTV다. 이는 CCTV의 효율과 안정성을 극대화할 수 있는 기술이라서, 세계적으로 보안, 치안, 재해관리, 안전관리 등 다양한 산업 분야에서 연평균 13% 급성장하는 유망업종이 됐다.

말하자면 이제 CCTV가 우리 행동을 들여다볼 뿐 아니라, 우리 일거수일투족 의미까지 확인하고, 해석하며, 평가한다는 의미다. 이것은 우리에게 편리함만큼이나 불안감과 스트레스도 줄 수 있는 상황이고, 그 점을 해결하려면 CCTV의 인공지능(AI)이 그만큼 믿을 수 있는, 신뢰할 만한 것이어야 한다. 이때 세가지가 중요하다. 첫째는 해당 기술이 사생활 보호 등 기본적인 법 기준을 지켜야 하고, 둘째는 오작동이 없게끔 안정적으로 기능해야 한다. 그리고 셋째로 영상 자료를 분석하고 판단하는 AI가 윤리적이고 공정해야 한다는 점인데, 이 부분이 최근 AI 신뢰성 측면에서 특히 중요한 쟁점이 되고 있다.

이를테면 일기예보가 모든 지역에서 같은 오류를 일으켰다면 그것은 성능 문제이지 차별 문제는 아니다. 그러나 주로 빈곤층이 사는 특정 지역에서 더 많은 오류가 발생한다면 그때부터는 차별이 된다. 특정 나이, 성별, 인종, 문화 등에 따라 취합된 데이터 편차 문제로 성능에 차이가 생기는 것이, 데이터 취합뿐 아니라 분석과 평가까지 AI에 맡기는 시대에는 특히 큰 문제가 된다. 미국 우버 기사들 중 유색인종만 안면인식 오류로 부당해고를 당했고, 브라질 지하철 치안 서비스도 유색인종만 골라 범죄자로 오인식하는 사고가 있었다. 생활환경지능(Ambient Intelligent) 기술을 사용하는 병원 CCTV 기반 모니터링 서비스가 대도시 큰 병원에서와 달리 지방이나 작은 병원에서 오작동이 특히 많다는 것도 차별 문제로 지적된다.

AI는 차별할 인간적 이유도 의욕도, 심지어 게으름도 존재하지 않는다. 그렇다면 결국 기술의 문제다. AI는 반드시 학습된 데이터에 따라 움직이기 때문이다. 설사 공정성 측면에서 문제가 되는 오작동을 낳은 게 개발자나 데이터 수집자의 비윤리성이나 무관심, 게으름 때문이라고 하더라도, 윤리적 의지와 관심으로써 그런 문제를 해결하려고 한들 데이터 분석의 기술적 방법이 없다면 상황은 개선되지 않는다. 요컨대 AI의 윤리적 공정성 문제는 AI나 개발자 의지가 아니라, 데이터 중심(Data Centric)으로 기술 축이 이동해야 한다는 공학적 과제로 접근해야 한다. AI가 행하는 차별은 대부분 취약지역과 계층의 데이터가 충분히 입력되지 않아 발생하기 때문이다.

아니, 이렇게 방대한 데이터를 수집해 입력하고 있는데 아직도 충분히 반영이 안 되고 있는지, 도대체 얼마나 더 많은 데이터를 모아야 하는지의 반문은 데이터에 관한 업계 현실상 잘못된 질문이다. 수집된 데이터의 전 세계 평균 중복률은 65%이다. 오작동과 차별은 데이터의 양이 아니라 데이터 신뢰성과 균형의 문제 때문에 발생한다. 그렇다면 관건은 데이터를 관리하는 기술과 관련 표준의 문제다.

데이터 신뢰성과 균형을 확인하는 기술이 부재하니 엄청난 양의 데이터를 모았음에도 차별성 문제를 일으키는 오작동은 늘어나고, 오작동이 늘어나니 또 데이터 수집량을 늘리게 된다. GPT 알고리즘을 한번 훈련하는데 최소 50억원이 소요된다고 한다. 통상적으로 컴퓨팅 전력과 냉난방기가 소비하는 전력량이 90%에 달하는데, 이래서는 비용만 무한정 늘어날 뿐 기술의 안정성도 공정성도, 기술에 대한 시장의 신뢰도 얻을 수가 없다.

현재의 대한민국에서 CCTV와 CCTV가 관리하는 영상 자료는 거의 우리가 숨 쉬는 공기와 같다. 인간이 식물에서 나오는 산소를 마시고 이산화탄소를 돌려주듯이, 우리는 일거수일투족 데이터를 CCTV와 주고받는다. 그렇다면 우리가 매 순간 제공하고 확인하는 데이터가 더욱 공정하면서 효율적으로 관리될 수 있게끔 하는 기술적 접근이 필요하다. CCTV의 역할이 날로 막중해지는 만큼 그것이 더욱 영리하고 올바르게 그 일을 할 수 있게 해 주자.

그러려면 데이터 중심의 기술 체계가 먼저 역할을 해줘야 할 것이다.

박광하 기자 다른기사 보기