[그것을 알려주마] AI칩 전성시대, 훈련(Traning)과 추론(Inference)에 최적화된 실리콘은?

양대규 기자 / 기사승인 : 2020-05-29 09:06:00
  • -
  • +
  • 인쇄
훈련은 엔비디아 GPU가 대세, 추론은 춘추전국시대
▲ [source=Pixabay]

[IT비즈뉴스 양대규 기자] 최근 데이터센터의 효율성과 높은 처리 성능을 위해 인공지능(AI) 칩의 탑재는 필수다. 데이터센터에서 AI 칩은 '훈련(traning)'과 '추론(inference)'이라는 두 가지 단계에 따라 다르게 사용된다. 각각 컴퓨팅과 응답성이라는 측면에서 확연히 다르다.

훈련용 칩은 처리 모델을 만들기 위해 엄청나게 큰 데이터를 처리해야 한다.몇시간에서 며칠, 심지어 몇주가 걸릴 수 있다. 서비스 단에 적용되는 추론은 훈련보다 민감한 개별 입력을 처리해야한다. 때로는 몇밀리초(ms) 이내에 필요할 수 있다는 것이다.

훈련은 대규모 연산 모델링이 필요하기 때문에 32비트(bit) 부동소수 정밀도로 실시하는 경우가 많다. 동일한 수준의 정확도를 유지할 수 있다면 16비트 부동소수점이나 그 이하로 처리하는 경우도 있다.

추론은 속도와 저전력에 정수 산술로 수행되는 경우가 많아 유동점의 광범위한 동적 범위가 필요하지 않다. 따라서 가속기는 칩이 훈련과 추론을 모두 수행할 수 있는 경우가 있지만 일반적으로 한 작업이나 다른 작업에 대해 전문화되어 있는 경우가 많다.

대규모 연산이 필요한 훈련용 AI영역은 엔비디아(NVIDIA)의 그래픽카드(GPU)가 시장을 주도하고 있다. 테슬라(Tesla) V100 GPU에 이어 최근 공개한 암페어(Ampere) A100 GPU까지 포트폴리오도 확장했다.

 

이밖에 세레브라스(Cerebras), 그래프코어(Graphcore), 인텔이 인수한 하바나랩스(Intel Habana Labs) 등이 훈련용 AI칩을 개발하고 있다.

더 빠른 응답시간이 요구되는 추론용 AI칩 시장은 더 치열하다. 일부 하이퍼스케일클라우드 제공업체는 자체 추론 솔루션을 구축하고 있다. 구글 텐서프로세싱유닛(TPU)이 대표적이다. 구글은 저전력과 응답 추론을 위해 ASIC을 직접 설계해 사용한다.

엔비디아는 텐서RT 하이퍼스케일 추론용 플랫폼으로 '테슬라 T4 GPU'을 공개했지만 훈령용 AI칩만큼 재미를 보지는 못하고 있다. 추론 처리의 대부분은 여전히 x86, 인텔 제온(Xeon) 프로세서 중심의 CPU에서 수행되고 있다. 

▲ 엔비디아 테슬라 V100 GPU[사진=엔비디아]

◆훈련용 AI 칩, 엔비디아 '독주'에 대응하는 도전자들
엔비디아의 테슬라 V100은 AI 훈련을 위한 GPU 가속컴퓨팅에 사용되는 대표적인 가속카드다. 엔비디아는 개별 칩 외에도 여러 GPU가 함께 연결돼 동시 연산이 가능하도록 구현하는(가상 GPU) NV링크(NVLink) 인터페이스를 가지고 있다.

엔비디아가 주도하는 시장에서 부쩍 관심이 높아진 AI스타트업이 그래프코어다. 2016년 엔비디아 출신 엔지니어가 설립한 그래프코어는 IPU(Intelligence Processing Unit)라는 새로운 가속칩을 개발했다. 기존의 프로세서들과 조금 다르게 프로세서에 직접 메모리 블록을 대칭한 것이 가장 큰 특징이다.

1세대 IPU인 16코어 콜러서스(Colossus)에는 1216개의 IPU 코어가 있으며, 코어당 각각 256KB의 메모리가 배치됐다. 독립 코어당 메모리를 타일형태로 배치해서 지연을 줄이고, 각각의 메모리를 코어가 공유할 수 있기에 총 300MB의 메모리를 사용할 수 있다. 

 

칩에 저장된 데이터를 로컬 D램(DRAM)이 아닌 칩 메모리에서 처리하며 지연속도를 최대한 줄일 수 있다는 이론이다.


허나 IPU는 최대의 성능을 내기 위해 메모리나 프로세싱 자원을 배분하기 위해 소프트웨어 제어의 복잡성이 요구된다. 벤치마크를 위해 소프트웨어를 구성하는 것은 비교적 간단하지만, 실제 고객별 특정 데이터 세트와 워크로드에 맞게 솔루션을 최적화하는 것은 어려울 수 있다는 것이다.

인텔은 지난 몇년 간 여러 데이터센터 훈련과 추론 공급업체 등 AI 칩 스타트업을 인수해 왔다. 특히 이스라엘 스타트업 하바나랩스는 페이스북과 같은 하이퍼스케일 고객을 중심으로 상당한 성과를 보였다. 

 

2016년 인수한 너바나시스템즈의 신경망칩(NNP) 개발을 포기, 하바나랩스를 인수하면서 전략을 틀었다.


AMD는 아직 훈령용 AI 칩 시장에서는 확실한 답을 내놓지 못하고 있다. AMD의 GPU를 훈련용으로 활용할 수 있지만 텐서 프로세싱을 위한 아키텍처를 최적화하지 않았고 소프트웨어도 엔비디아 쿠다(CUDA)에는 아직 못 미친다.

훈련에 각 칩의 성능도 중요하지만 대형 모델에 맞게 확장할 수 있는 능력도 중요한 기능이다. 스케일링을 위해서는 고속 링크를 통해 여러 칩을 상호 연결해야 한다. 

▲ 가장큰 GPU와 비교한 세레브라스의 AI칩[사진=세레브라스]

단 세레브라스는 예외다. 세레브라스는 엔비디아 테슬라 V100의 56배나 많은 트랜지스터를 집약시킨 칩을 개발했다. 세계 최대의 웨이퍼 스케일 프로세서 개발은 세레브라스가 시장에서 내세우는 캐치프레이즈다.

세레브라스의 AI칩인 WSE(Wafer Scale Engine)는 가로세로 각각 약 21cm(8.46인치)다. 스마트 태블릿과 비슷한 크기다. 일반 CPU나 GPU보다 50배 이상 크다.

세레브라스의 WSE 칩은 1.2조개의 트랜지스터를 집적했으며, 40만개의 코어와 18GB의 캐시 메모리를 갖췄다. 엔비디아 테슬라 V100 GPU도 210억개의 트랜지스터와 수천 개의 코어를 지녔으며 보통 프로세서는 약 20억개의 트랜지스터에 4개의 코어가 전부다.

허나 덩치가 크고 견고한 냉각시스템과 전원시스템이 필요하다. 중간 공급업체가 아닌 데이터센터에서 직접 주문을 해 설치해야한다. 대형 프로세서를 처리 할 수 있는 툴이 없어 자체 제조 및 패키징도 설계해야한다. 단일 프로세서에서 1조 개 이상의 트랜지스터를 처리 할 수 ​​있도록 소프트웨어도 다시 작성해야한다.

◆추론 AI칩, 엔비디아·하바나부터 퀄컴·FPGA까지 '춘추전국'
머신러닝(ML) 추론은 훈련과 다른 성능이 필요하다. 많은 일을 일괄 처리해 훈련하는 것이 일반적이지만, 때로는 낮은 지연 시간으로 추론의 성과를 판단한다. 각각의 새로운 질문들이 신속하고 정확하게 다뤄지는 것이 중요하기 때문이다.

전문가들은 추론 데이터는 분해능이 낮고 신경망이 짧아 추론을 위한 가중치는 교육 단계에서 개발된 모델에 의해 제공된다고 말한다. 표준 워크로드에 패킹된 8비트 정수 성능이 핵심인 경우가 많다. 최적화된 계산 값은 더 줄일 수 있으며 정확도가 감소되지 않는 한 6비트, 4비트, 2비트 또는 1비트 정밀도일 수 있다.

 

▲ 엔비디아 테슬라 T4 GPU[사진=엔비디아]

엔비디아의 테슬라 T4 GPU가 대표적인 추론용 AI칩이다.이다. 엔비디아 튜링(Turing) 아키텍처와 일련의 새로운 추론 소프트웨어를 기반으로 하는 GPU다. 엔드-투-엔드 애플리케이션 위한 낮은 지연시간과 빠른 성능을 제공한다.

T4는 엔비디아 V100과 동일한 튜링 아키텍처를 기반으로 하지만 축소됐다. T4는 단일정밀 부동소수를 이용한 8.1TFLOPS, 혼합정밀(FP16/FP32)을 이용한 65TFLOPS, 8비트 정수를 이용한 130TOPS, 4비트 정수를 이용한 260 TOPS 등 다양한 성능수준의 정밀도를 지원한다.

이안 벅 엔비디아 가속컴퓨팅 담당 부사장겸 총괄은 “엔비디아 텐서RT 하이퍼스케일 플랫폼은 이를 보다 효율적이고 빠른 속도로 구현하기 위해 탄생한 것”이라고 설명했다.

EE타임즈는 "하바나랩스의 고야 칩은 성능과 전력면에서 경쟁력이 있는 것으로 나타났다"며 고야의 벤치마크 결과가 높게 나왔다고 설명했다. 고야는 데이터 형식도 유연하고, 인텔이 칩을 탑재한 상황에서 고객들은 더 이상 공급자로서 소규모 스타트업에 베팅하지 않고 있다는 것이다.

이밖에도 비아(Via)가 인수한 센타우르스(Centaur)가 개발한 x86 서버 칩이 ML의 공동 프로세서로 다시 등장했다. 지난해 MLPerf 오픈 카테고리에서 상당한 잠재력을 보였으며 소프트웨어 스택을 개발하고 있다.

퀄컴도 지난해 클라우드용 AI100 칩을 발표했다. 자세한 내용은 공개되지 않았지만 올해 출시될 것으로 전망된다.

 

퀄컴이 모바일에서 데이터센터로 확장 가능한 AI 프로세서와 메모리를 설계에 사용한 점은 눈길을 끄는 대목이다. 이 칩은 최신 LPDDR D램을 저전력용으로 지원하며 350TOP(8비트 정수값)의 정격을 갖췄다.

퀄컴은 이 칩으로 자동차, 5G 인프라, 5G 엣지, 데이터센터 추론 영역을 타겟하고 있다. 스마트폰용 스냅드래곤(Snapdragon) 프로세서의 저전력 추론 경험을 폭넓게 활용하고 있다. 

▲ FPGA 기반의 자일링스 알베오 가속기 카드[사진=자일링스]

FPGA도 주목받고 있다. 고성능 컴퓨팅 작업 실행뿐만 아니라 훌륭한 추론 엔진을 만들 수 있으며, 낮은 지연 시간과 유연한 ML 모델 지원을 제공하기 따문이다.

마이크로소프트는 수년 동안 텍스트 문자열 검색을 가속화하기 위해 인텔의 알테라 FPGA를 사용해 왔다. 인텔의 비전 액셀러레이터 디자인은 오픈 VINO 툴킷에 아리아(Arria)10 FPGA PCIe 카드와 소프트웨어 지원이 포함됐다.

자일링스는 바이티스(Vitis) 소프트웨어 플랫폼이 지원하는 데이터센터용 PCIe 카드 제품군을 개발했다. 자일링스의 알베오(Alveo) 카드는 100W부터 225W까지 파워가 제공된다.

인텔 알테라와 자일링스 모두 그들의 소프트웨어와 프로그래밍 도구를 좀더 접근 가능하게 만들기 위해 노력하고 있다.

아크로닉스(Achronix)도 FPGA 기술을 가져와 데이터센터 가속컴퓨팅 시장에 뛰어든 케이스다. 7나노(nm)급 스피드스터(Speedster)7t 제품은 벡터패스(VectorPath) PCIe 액셀러레이터 카드로 출하된다.

 

5세대 PCIe를 지원해 빠른 I/O에 주력하고 서데스(SerDes)속도는 최대 112Gbps에 이른다. ML 추론 성능은 INT8 데이터 처리를 통해 80TOP를 넘는다. 칩은 INT16, INT4, FP24, FP16, BFloat16도 지원한다.

 

[저작권자ⓒ IT비즈뉴스. 무단전재-재배포 금지]

  • 글자크기
  • +
  • -
  • 인쇄
뉴스댓글 >

주요기사

+

많이 본 기사

마켓인사이트

+

컴퓨팅인사이트

+

스마트카

+

PHOTO NEWS