UPDATED. 2020-10-31 17:09 (토)
AI 활성화, 데이터·알고리즘·컴퓨팅파워에 달렸다
AI 활성화, 데이터·알고리즘·컴퓨팅파워에 달렸다
  • 차종환 기자
  • 승인 2020.09.30 15:13
  • 댓글 0
이 기사를 공유합니다

‘딥러닝’ 확산…데이터양 중요성↑
정부 주도 데이터 구축사업 가속

알고리즘 연구 커뮤니티 활발
국내 특성 반영된 연구성과 절실

GPU 기반 HPC 지원 사업 전개
유휴자원 활용방안 고려해야
AI산업을 견인하는 주요 3대 요소는 데이터, 알고리즘, 컴퓨팅파워가 꼽힌다. [사진=클립아트 코리아]

세계 각국이 미래 신성장동력으로 인공지능(AI)을 채택, 관련 산업을 육성하기 위한 움직임을 활발히 하고 있다.

우리나라는 높은 ICT 성숙도에 비해 AI 산업 수준은 선진국 대비 수년은 뒤쳐진 것으로 평가받고 있다.

AI산업을 견인하는 주요 3대 요소는 △데이터 △알고리즘 △컴퓨팅파워가 꼽힌다. 이들이 실제 AI 응용서비스로 실현되기 위해서는 보다 전략적인 정책적 지원이 필요하다는 목소리가 높다.

 

■데이터

오늘날, 데이터는 AI의 정확도를 높이는 핵심 자원으로 평가받고 있다.

AI의 이미지 분류 기술이 그 예인데, 2012년 컴퓨터가 이미지의 특징을 자동으로 추출하는 딥러닝(Deep Learning) 기술이 등장하면서 대규모 데이터의 중요성이 본격적으로 인지되기 시작했다. 즉, 데이터의 양이 많으면 많을수록 정확도가 향상되는 결과를 얻을 수 있었던 것이다.

최근 글로벌 선도기업들은 데이터의 양뿐만 아니라 학습에 쉽게 활용될 수 있는 데이터의 확보가 중요하다고 보고 있다. AI 데이터의 구축으로 끝내는 것이 아닌, 각종 챌린지 등을 개최해 데이터 검증 및 고도화를 진행하고 있는 추세다.

우리나라는 국내 특성에 맞는 데이터의 자발적 생성 및 공유가 미흡해 정부가 생태계 활성화에 주도적으로 참여하고 있다.

주요 사업은 △빅데이터 플랫폼 및 네트워크 구축 사업 △AI 학습용 데이터 구축 사업으로 나뉜다.

빅데이터 플랫폼 및 네트워크 구축 사업은 수요 기반의 활용가치가 높은 양질의 데이터를 기관별로 생산·구축하고 플랫폼을 통해 개방·공유 체계를 마련한다.

분야별로 1개의 플랫폼, 10개의 센터로 구성해 분야 내에서 데이터의 생산, 정제, 표준 등을 논의한다.

2020년 디지털 뉴딜 사업의 일환으로 5개 플랫폼, 50개 센터를 추가 선정해 신규 분야의 데이터 확보에도 나설 예정이다.

구축된 데이터는 타 기관과의 데이터 결합으로 가치를 창출할 뿐만 아니라, AI의 원천이 될 수 있도록 지원한다. 개방된 데이터는 AI를 통한 프로세스 최적화, 의사결정 지원 등 산업별 혁신 서비스가 구축될 수 있도록 지원할 계획이다.

AI 학습용 데이터 구축 사업은 지난해 10종 구축, 올해 20종을 구축할 예정이었으나 코로나19 이후 디지털 뉴딜의 일환으로 150종을 추가 구축하는 방향으로 추진된다.

크라우드소싱 방식을 활용, 노인 및 경력단절자 등 다양한 계층에서 언제 어디서나 참여가 가능하다는 설명이다.

 

알고리즘 연구는 커뮤니티를 중심으로 발전돼 오고 있다. [사진=깃허브]
알고리즘 연구는 관련 커뮤니티를 중심으로 발전돼 오고 있다. [사진=깃허브]

■알고리즘

AI 알고리즘은 크게 순수 알고리즘 연구 분야와 실제 산업에 모델을 적용하며 모델을 조정하는 분야가 있다.

대부분의 알고리즘은 글로벌 플랫폼(깃허브, 케글)을 통해 공유되고 있다. 알고리즘과 코드 공유를 통해 추가 연구에 대한 편의성을 높여 생태계 내에 참여하고 있는 구성원들 간 시너지를 창출하고 있다.

아울러 대규모 데이터에 의해 사전훈련된 모델을 공유하고 전이학습을 통한 분야별 맞춤형 연구가 활발히 진행 중이다.

국내 산업에 특화된 AI 모델을 공유하거나 개방할 수 있는 체계는 미흡한 상태다. AI 서비스 기업은 직접 전체 데이터셋을 학습하거나, 유사한 사전훈련된 모델을 글로벌 커뮤니티를 활용해 발굴하고 있다.

국내 특성이 반영된 연구 성과는 ETRI의 ‘AI API∙데이터’ 서비스를 통해 제공 중이지만 추가적인 모델 발굴도 필요한 상황이다.

AI 모델 연구를 위해 정부 예산이 지원된 경우, 모델이 다양한 방법으로 추가 연구되거나 산업에 적용될 수 있도록 공개하는 것이 필요하다는 지적이다.

 

■컴퓨팅파워

데이터, 알고리즘의 발전을 통해 AI 모델의 정확도를 향상시킬 수 있지만 비용 및 시간 측면을 고려하면 비효율적이다. 딥러닝 알고리즘이 정확도 차원에서는 우수한 성능을 보이지만 층이 깊어질수록 학습해야 할 가중치의 양이 증가해 연산량은 기하급수적으로 증가하는 것이 그 예다.

컴퓨팅파워는 이러한 연산 시간을 단축하는 요소로서 데이터, 알고리즘과 더불어 AI 산업을 견인하는 중대 요소로 평가받고 있다.

병렬연산처리에 특화된 GPU(그래픽처리장치)를 사용하는 경우가 많은데, 달러당 GPU 성능은 지속적으로 상승해 현재는 딥러닝을 개인적으로 활용할 수 있는 수준까지 도달했다는 평가다.

구글은 웹 기반 무료 AI 개발 환경인 코랩(Colab)을 통해 기본적인 개발 프레임워크 및 GPU를 무료로 제공하고 있다. AI 알고리즘이 코랩을 통해 공유되면 연구자들은 클릭 한 번으로 쉽게 AI가 구현된 모습을 볼 수 있고, 코드 수정 또한 가능하다.

국내에선 정보통신산업진흥원(NIPA)을 중심으로 고성능 컴퓨팅 자원 지원 사업이 시행되고 있다.

GPU 클라우드 시스템을 임차해 중소∙벤처기업, 공공기관, 대학교 등에 자원 지원 서비스를 제공하는 것으로, 대규모 병렬연산 처리를 위한 HPC(High-Performance computing) 자원, 개발 프레임워크, 개발언어, 기타 개발 툴킷 패키지 등을 지원한다.

 

■생태계 활성화 전략 필요

한국정보화진흥원(NIA)은 최근 ‘AI 활성화를 위한 3대 자원 지원 전략’ 보고서를 통해 정부의 3대 자원 지원 정책이 실제 AI 응용서비스 구축으로 이어질 수 있도록 세부적인 서비스 생태계 활성화 전략이 필요하다고 강조했다.

데이터의 경우, 데이터 과학자의 편의성을 고려한 데이터 제공 전략이 필요하며, 기술토픽 선정 후 AI 학습용 데이터 로드맵 구축도 중요하다고 밝혔다.

현재 글로벌 주류의 AI 학습용 데이터와의 호환성을 고려하고, 깃허브 등의 플랫폼 연계를 적극 검토할 필요가 있다는 지적이다.

알고리즘은 국내 AI 학습용 데이터를 활용해 생성된 모델과 코드 공유를 통해 성능 고도화 기반 마련과 서비스 활성화를 위한 환경 조성이 필요하다.

학습용 데이터 활용모델 개발과제를 누구든 참여할 수 있도록 오픈해 모델의 성능에 따른 순위를 측정하는 등 데이터 과학자의 참여를 유도할 수 있는 환경을 조성해야 한다는 주장이다.

컴퓨팅자원은 혜택을 받을 수 있는 수혜자의 수를 늘릴 수 있는 방안과 모델링 지원뿐만 아니라 서비스 지향적인 자원 지원도 필요하다는 지적이다.

현재 신청 기업에 한해 20TF 또는 40TF의 컴퓨팅자원을 지원하고 있으나, 신청 후 미사용기업으로 인해 유휴자원이 발생하고 있다. 유휴자원은 일반인들을 대상으로도 컴퓨팅자원을 오픈하는 등 가용률을 높여 지원할 수 있는 방안이 필요하다는 설명이다.

자원을 효율적으로 활용할 수 있는 국가 차원의 개념증명형 대규모 AI 프로젝트를 발굴해 추진하는 등의 방안이 고려된다.

 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.