UPDATED. 2020-11-24 23:05 (화)
[기획]AI 시대 숨은 주역, ‘데이터 노동자’를 아시나요
[기획]AI 시대 숨은 주역, ‘데이터 노동자’를 아시나요
  • 차종환 기자
  • 승인 2020.10.20 17:39
  • 댓글 0
이 기사를 공유합니다

AI가 인식 가능한 형태로
데이터 가공∙정제 작업 수행

라벨링 전문 기업 속속 등장
공공 일자리 정책 반영되기도

AI 확산될수록 전문성 요구
낮은 임금 체계는 ‘한계’
빅데이터를 인공지능이 인식할 수 있는 데이터로 변환하는 작업인 데이터 라벨링에 대한 관심이 높다. [사진=클립아트 코리아]
빅데이터를 인공지능이 인식할 수 있는 데이터로 변환하는 작업인 데이터 라벨링에 대한 관심이 높다. [사진=클립아트 코리아]

인공지능(AI) 시대가 도래했다. SF영화에서 나올 법한 사람을 닮은 로봇은 아니지만 정보통신기술(ICT)이 접목된 산업이라면 어디든 인공지능(AI) 알고리즘을 기반으로 혁신의 움직임이 일고 있다.

이를 가능케 하는 원동력은 단연 빅데이터다. 빅데이터는 AI가 고부가가치 정보를 캐낼 수 있는 광맥과도 같은 역할을 한다.

그런데 AI가 빅데이터를 인식하는 것은 AI가 정해놓은 틀 안에서만 가능하다. 아이러니하게도, AI가 빅데이터를 인식할 수 있도록 정해진 양식으로 수정하는 작업은 사람이 수행한다. 이른바, ‘데이터 노동자’로 불리는 이들이다.

 

■ 21세기형 단순노동 ‘데이터 라벨링’

우리가 택배를 보낼 때 굳이 사각형의 상자에 넣어 보내는 이유는 이러한 형태가 돼야 물류시스템상 분류, 적재, 운송 작업이 신속 정확하게 이뤄질 수 있기 때문이다.

AI 역시 마찬가지다.

AI가 ‘고양이가 뛰어노는 사진’을 추출하는 작업을 한다고 가정하면, AI는 ‘고양이’라는 것을 판단하는 데에만 수천장의 고양이 사진 분석을 필요로 한다. ‘뛰어노는’ 것에 대한 정의도 여간 어렵지 않다.

하지만 사람은 어떤 사진을 보든 ‘고양이’, ‘뛰어노는’이라는 형태를 직관적으로 한 번에 구분할 수 있다. 이렇게 사람이 우선적으로 구분한 빅데이터만 AI가 인식·분석할 수 있도록 한다면 높은 정확도로 훨씬 빠른 결과를 얻을 수 있을 것이다. 빠른 배송을 위해 물건을 택배상자에 넣는 것과 같은 이치다.

이처럼 AI의 신뢰도 높은 결과 추출을 위해 빅데이터를 우선 가공·정제하는 과정을 ‘데이터 라벨링(Data Labeling)’이라 일컫는다.

현재 데이터 라벨링은 대부분 사람이 수행한다. 사람을 대체하기 위해 등장한 것이 AI이지만, AI가 제 역할을 하기 위해선 아직 사람의 도움이 필요하다는 얘기다.

단적인 예로 자율주행을 들 수 있다.

자율주행 센서가 여러 교통 데이터를 수집해 구축한 빅데이터는 라벨링 작업을 통해 다시 자율주행 AI로 피드백 된다. 이 과정이 반복될수록 자율주행은 더 정확하고 안전한 운행을 실현할 수 있는 것이다.

데이터 라벨링은 고도의 기술이 필요없는 단순노동이기 때문에 ‘디지털 인형 눈알 붙이기’라 불리기도 한다.

사무실 같은 공간에 모여서 일할 필요없이 가정에서도 할 수 있기 때문에 요즘 같은 비대면 시대에 안성맞춤이다. 직장인들에겐 쏠쏠한 부수입원이 되기도 한다.

시장조사업체 커그니리티카는 다양한 형태로 발전하고 있는 전세계 데이터 라벨링 시장이 2018년 5835억원을 넘어섰고, 2023년에는 1조4000억원에 이를 것으로 내다봤다.

그랜드뷰리서치의 보고서에 따르면, 데이터 라벨링 툴 시장 규모도 지난해 기준 4700억원에 달했으며 연평균 26.9%씩 성장해 2027년에는 약 3조원 규모가 될 것으로 예상된다.

 

■ 전문영역으로 기업화

아예 데이터 라벨링을 전문영역으로 삼고 있는 기업도 하나둘 생겨나고 있다.

우리 보다 AI기술이 앞선 국가에서는 이미 데이터 라벨링 인력 확보가 AI산업 육성의 핵심 포인트로 자리잡았다.

미국 아마존웹서비스(AWS)는 자사 고객들의 데이터 처리를 위해 아마존메커니컬터크(Amazon Mechanical Turk)라는 회사를 설립하고 190개국에 걸쳐 50만명의 크라우드 소싱 인력을 운용하고 있다. 중국의 데이터 가공공장 엠비에이치(MBH)도 30만명의 데이터 라벨러가 활동 중이다.

국내 기업도 눈에 띈다. 크라우드웍스, 셀렉트스타, 테스트웍스, 슈퍼브에이아이 등이 이름을 올리고 있다. 업계 추산, 약 20만명의 데이터 라벨링 인력이 활동 중인 것으로 집계된다.

 

■ 공공 일자리 창출 해법될까

정부도 데이터 라벨링에 주목하고 있다. 지난 7월 발표한 ‘디지털 뉴딜’ 정책을 통해 이른바 ‘데이터 댐’의 구축을 공식화했다.

데이터 댐은 공공 및 민간 네트워크를 통해 생성되는 데이터를 한 데 모은 빅데이터다. 데이터의 단순 모음으로는 활용이 불가능하기 때문에 이를 표준화하고 가공하는 작업이 필요하다.

이러한 데이터 댐 구축 사업에만 약 39만개의 일자리 창출이 가능할 것으로 보고 있다. 대부분이 데이터 라벨링 인력이 될 것이라는 분석이다.

해외에서도 데이터 라벨링을 공공 일자리 창출의 핵심요소로 보는 사례가 도출되고 있다.

중국은 제조업의 둔화로 고용 사정이 악화되고 있는 지역의 노동자를 고용해 데이터 라벨링 인력으로 활용하는가 하면, 핀란드에서는 교도소 수감자의 노역을 육체노동에서 데이터 라벨링 노동으로 바꾸려는 시도도 있었다.

 

■ 산업으로서의 ‘명’과 ‘암’

산업적 관점에서 데이터 라벨링을 바라보는 시선은 크게 양분된다. 과연 지속가능한 산업인가에 대한 의문이다.

긍정적인 시각은, AI가 데이터 라벨링이 필요없을 만큼 고도화되기란 사실상 불가능하기 때문에 지속적인 성장세를 구가할 것이라는 견해다.

AI가 계속 발전한다 하더라도 시시각각 변하는 트렌드를 제때 반영하는 덴 한계가 있다. 예로, 뜻과 용법이 조금씩 변하는 단어나, 신조어 등은 라벨링 없이 AI가 이해하기란 거의 불가능하다. 사람의 지속적인 케어가 필요한 이유다.

또한 AI가 여러 산업영역에 확산될수록 단순노동으로 치부되는 데이터 라벨링은 보다 전문적이고 고도화된 지식을 요구하는 쪽으로 발전할 것이라는 주장이다.

AI가 회계, 법률, 의학분야에 도입됐을 경우를 가정하면, 이 분야 데이터를 이해하는 사람은 회계사, 변호사, 의사로 한정된다. 라벨링 또한 수준을 끌어올리는 작업이 반드시 필요한 대목이다.

반면, 부정적인 시각은 데이터 라벨링 자체를 AI가 대체할 수 있다는 가정이다.

즉, 데이터를 분석하는 AI와 데이터 라벨링을 수행하는 AI가 서로 협업하는 형태가 될 것이라는 전망이다.

실제로, 지금의 데이터 라벨링 역시 상당부분 전문 툴을 이용해 수행되고 있는데 이 툴이 점차 자동화, 지능화되면 사람의 힘이 전혀 필요 없는 수준이 될 수 있다는 설명이다. 이 경우 기존 데이터 라벨링 인력의 대규모 실직 사태는 커다란 사회적 이슈가 될 가능성이 높다.

일자리로서의 태생적 한계도 문제로 꼽힌다. 바로 저임금 체계다.

업계에 따르면, 현재 데이터 라벨링은 시간당 평균 3000~4000원의 임금이 책정돼 있다. 하루 8시간 한달을 꼬박 일한다 해도 100만원이 채 안되는 구조다. 한 개인의 미래를 보장하기에 턱없이 모자란 수준임이 분명하다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.