UPDATED. 2024-03-29 09:10 (금)
그래프코어, MLPerf 벤치마크서 엔비디아 DGX A100 성능 능가
그래프코어, MLPerf 벤치마크서 엔비디아 DGX A100 성능 능가
  • 박남수 기자
  • 승인 2021.12.09 20:37
  • 댓글 0
이 기사를 공유합니다

IPU-POD16, ResNet-50 모델 훈련 28.3분 기록
새로운 플래그십 제품 IPU-POD256
ResNet-50 모델 훈련 시간 단 3분대 기록
9일 진행된 그래프코어 기자간담회에 참석한 페브리스 모이잔 글로벌 세일즈 부사장.
9일 진행된 그래프코어 기자간담회에 참석한 페브리스 모이잔 글로벌 세일즈 부사장.

[정보통신신문=박남수기자]

인공지능(AI) 반도체 기업 그래프코어가 최신 MLPerf 1.1 벤치마크 테스트에서 자사의 IPU(Intelligence Processing Unit) 시스템이 기록적인 성능을 달성했다고 밝혔다. 

MLPerf는 업계에서 가장 공신력 있는 글로벌 AI반도체 벤치마크 대회로, 구글, 마이크로소프트, 페이스북, 스탠포드, 하버드 등 유수의 기업 및 연구기관이 매년 주최한다. 

그래프코어 IPU 시스템은 지속적인 소프트웨어 최적화를 통해 향상된 성능을 제공하고 있다.

특히, 이번 MLPerf 벤치마크에서 그래프코어 IPU-POD16은 컴퓨터 비전 모델 ResNet-50 훈련에 있어 엔비디아의 DGX A100을 능가하는 성능을 보였다고 회사측은 설명했다.

ResNet-50을 훈련하는데 엔비디아 DGX A100은 29.1분이 걸린데 반해, 그래프코어의 IPU-POD16은 28.3분을 기록했다.

이는 소프트웨어만으로 첫 MLPerf 테스트 결과 대비 24%의 성능 향상을 이룬 것으로, 통상적으로 ResNet-50 모델 학습에 GPU가 사용되고 있다는 점을 감안하면 이번 결과는 더욱 주목할 만하다.

MLPerf_사진2_레스넷-50_IPUPOD16 대 DGX A100.
그래프코어 IPU-POD16이 ResNet-50 훈련에서 엔비디아의 DGX A100을 능가하는 성능을 기록했다.>

그래프코어는 또한 최근 새롭게 출시된 IPU-POD128 및 IPU-POD256에 대한 벤치마크 결과도 공개했다.

그래프코어는 MLPerf '상용화 가능(Commercially Available)' 부문에 해당 시스템에 대한 테스트 결과를 제출하며 지속적인 시스템 규모 확대 및 성능 향상을 위한 노력을 증명했다.

그래프코어 IPU 시스템 상 역대 최고의 성능을 자랑하는 IPU-POD128과 IPU-POD256의 경우 ResNet-50 모델 훈련에 걸린 시간은 각 5.67분, 3.79분에 불과했다.

자연어 처리(NLP) 모델 BERT의 경우, 그래프코어는 IPU-POD16, IPU-POD64 및 IPU-POD128 훈련 데이터를 오픈(Open) 및 클로즈드(Closed) 부문 모두에 제출했다. 특히 오픈 부문에서 최신 IPU-POD128의 훈련 시간은 5.78분으로 월등한 성능을 보였다. 전반적으로 BERT 모델 훈련 성능은 지난 MLPerf 벤치마크 대비 IPU-POD16은 5%, IPU-POD64는 12%가 각각 향상됐다.

이 밖에도, 그래프코어의 플래그십 제품 IPU-POD256은 EfficientNet B4 모델 훈련에 대해 단 1.8시간을 기록하며 실질적인 성능적 이점의 가능성을 보여주기도 했다.

MLPerf 테스트의 원 데이터를 살펴보면 각 벤더의 시스템과 연결된 호스트 프로세서의 수가 굉장히 많다는 점이 눈에 띈다.

일부 참가 기업의 경우, 두 개의 AI 프로세서 마다 하나의 CPU를 지정하기도 한다. 이에 반해, 그래프코어는 가장 낮은 호스트 프로세서 대 IPU 비율을 지속적으로 유지하고 있다.

IPU는 데이터 이동에만 호스트 서버를 사용하며 런타임 시점에 호스트 서버가 코드를 발송할 필요가 없다. 따라서 IPU 시스템에 필요한 호스트 서버 수가 적은만큼, 더욱 유연하고 효율적인 확장이 가능해진다.

BERT-Large와 같은 자연어 처리 모델의 경우, IPU-POD64는 하나의 듀얼 CPU 호스트 서버만 필요로 한다. ResNet-50은 이미지 사전 처리를 위해 더 많은 호스트 프로세서 지원이 필요하므로 IPU-POD64당 4개의 듀얼 코어 서버가 지정된다. 이때 시스템 대비 호스트 프로세서 비율은 1:8 로, MLPerf에 참가한 ​​다른 모든 시스템보다 낮은 비율을 자랑한다. 이번 MLPerf 1.1 벤치마크 테스트에서 그래프코어는 BERT 훈련에서 단 10.6분으로 가장 빠른 단일 서버 훈련 시간을 기록했다는 점도 눈 여겨 볼만 하다.

그래프코어는 지속적인 포플러) 소프트웨어개발키트(SDK) 최적화와 신규 IPU-POD 제품 출시를 거듭하며 AI 훈련 성능 향상에 노력을 기울여왔다. 특히, 지난 6월 첫 MLPerf 테스트에 이어 이번에도 크게 향상된 결과를 보여주며, 지속적인 혁신을 위한 그래프코어의 끊임없는 헌신을 입증해 냈다.

호스트 서버와 AI 컴퓨팅을 분리하는 등 시스템 설계 단계에서부터 업계 내 다른 기업들과는 근본적으로 다른 ‘혁신적 접근’을 취해온 그래프코어는 최소 3개월마다 성능 향상을 위한 소프트웨어 업데이트를 진행하고 있으며, IPU를 위한 새로운 모델 및 워크로드를 구현하고 최적화하는 작업을 수행하고 있다.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • [인터넷 신문 등록 사항] 명칭 : ㈜한국정보통신신문사
  • 등록번호 : 서울 아04447
  • 등록일자 : 2017-04-06
  • 제호 : 정보통신신문
  • 대표이사·발행인 : 함정기
  • 편집인 : 이민규
  • 편집국장 : 박남수
  • 서울특별시 용산구 한강대로 308 (한국정보통신공사협회) 정보통신신문사
  • 발행일자 : 2024-03-29
  • 대표전화 : 02-597-8140
  • 팩스 : 02-597-8223
  • 청소년보호책임자 : 이민규
  • 사업자등록번호 : 214-86-71864
  • 통신판매업등록번호 : 제 2019-서울용산-0472호
  • 정보통신신문의 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재·복사·배포 등을 금합니다.
  • Copyright © 2011-2024 정보통신신문. All rights reserved. mail to webmaster@koit.co.kr
한국인터넷신문협회 인터넷신문위원회 abc협회 인증 ND소프트