▲ 그래프코어의 1세대 IPU인 16코어 콜러서스(Colossus). 1216개의 IPU 코어가 탑재돼 있다. [사진제공=키포스트 김주연 기자]

- 삼성이 투자한 AI칩 스타트업 그래프코어(Graphcore) 한국 진출
- CPU/GPU/NPU/FPGA/ASIC…코어-메모리 배치한 아키텍처 주목
- AI/ML 가속화 위한 단일 칩 시스템 구성은 ‘????’


[IT비즈뉴스 최태우 기자] 4년 전 구글의 딥마인드(DeepMind)가 선보인, 바둑을 두는 컴퓨터 ‘알파고(AlphaGO)’가 불러 일으킨 '알파고 쇼크'로 인공지능(AI) 이슈가 전세계 경제·산업계에서 이슈로 떠올랐습니다. 인터넷 혁명에서 모바일 혁명으로, 또 AI 혁명으로 이어지는 기술 트렌드를 되짚어보면 이를 부정하는 이는 많지 않을 것입니다.

AI를 구현하는 기술은 지금도 진화하고 있습니다. 이를 견인한 것은 반도체 미세공정기술의 비약적인 발전이라고 할 수 있겠습니다. 트랜지스터의 집적도가 비약적으로 증가하고 있으며 회로선 폭이 좁아지는 미세공정기술이 고도화될수록 전력소모량도 크게 줄어듭니다.

조금 멀리서 보자면, 소프트웨어(SW)의 기술을 하드웨어(HW)가 빠르게 발맞춰 고도화되고 있다는 걸로 보여집니다.

컴퓨팅파워는 기하급수적으로 높아진 상태며, 기업 간 경쟁은 기술과 비용효율성이 맞물린 최적화된 비즈니스 모델을 개발하기 위한 경쟁으로 나아가고 있습니다.

중앙처리장치(CPU)와 그래픽처리장치(GPU), 신경망처리장치(NPU)와 같은 AI 컴퓨팅파워를 높이는 데 최적화된 실리콘(Chip) 기술도 빠르게 진행되고 있습니다. 뉴로모픽(Neuromorphic) 칩이나 적시에 설계변경이 가능한 프로그래머블(FPGA) 칩과 같은 특수반도체도 활용되고 있는데요, 최근 들어 ‘엔비디아를 때려(?) 잡을 경쟁사’로 주목을 받는 영국 AI스타트업인 그래프코어(Graphcore)의 지능형처리장치(IPU)도 기술 시장에서 주목을 받고 있습니다.

CPU, GPU, NPU, FPGA, 그리고 IPU. 자, 그럼 ‘학습(learning)’과 ‘추론(inference)’을 모두 포함하는 ‘진정한 AI 구현’에 최적화된 실리콘은 뭘까요?

◆CPU가 아닌, AI 이슈로 떠오른 코-프로세서(Co-Processor)
사실 AI 이슈로 가장 수혜를 본 기업으로는 엔비디아(nvidia)를 들 수 있겠습니다. 그래픽 처리를 위해 다수의 코어를 탑재한 아키텍처로 구현된 그래픽처리장치(GPU)가 다량의 연산에 최적화된 칩으로 주목을 받으면서, 전세계 90% 이상의 점유율을 차지하는 엔비디아가 ‘그래픽카드 제조기업’에서 ‘AI기업’으로 탈바꿈하는 데 성공한 계기가 됐죠.

▲ 마크 해밀턴(Marc Hamilton) 엔비디아 솔루션 아키텍처·엔지니어링 부문 부사장.지난해 7월1일 열린 ‘엔비디아 AI 컨퍼런스 2019’ 행사 참가차 방한한 그는 그간 매년 1.1배씩 성능향상을 이어왔던 GPU가 향후 6년 간 1.5배씩 크게 늘어갈 것으로 예상했다. 엔비디아 HPC인 DGX의 병렬연결 방식을 이룬 'DGX 슈퍼팟(DGX SuperPOD)'은 현대모비스에 자율주행 기술연구용으로 공급됐다. [IT비즈뉴스(ITBizNews) DB]

2년 반 전에는 소프트뱅크가 4대 주주로 올라서면서 주식도 많이 올랐고요(물론 지금은 주식을 처분했습니다), 차세대 GPU 아키텍처를 주기적으로 공개하고 있으며 자비에(Xavier) 시스템온칩(SoC)을 탑재한 개발보드, 널리 사용되는 딥러닝(DL) 오픈 프레임워크와 자체 언어인 쿠다(CUDA)와의 통합도 유기적으로 잘 진행해 오면서 자체 생태계도 견고하게 구축한 상태입니다.

프로세서가 하는 일은 연산처리입니다. 같은 처리를 최대한 빠르고 정확하게 처리하는 게 핵심이죠. GPU가 병렬연산에 최적화된 점은 맞습니다만, GPU가 필수는 아닙니다. CPU로도 연산은 가능하죠.

순차적으로 처리하는 CPU와 GPU는 상호보완적인 관계라고 할 수 있습니다. GPU 단독으로 자원을 구성할 수 없고, GPU를 활용한 가속기로 컴퓨팅파워를 높이는 구조로 설계된 하드웨어 시스템을 보통 ‘AI컴퓨터’라고 부르죠.

CPU 강자인 인텔(Intel)의 경우, 제온 파이(Xeon Phi), 5년 전 인수한 FPGA 기업인 알테라의 10나노(nm) FPGA인 애질렉스(Agilex)를 활용하고 있습니다.

▲ 인텔이 양산에 들어간 것으로 알려진 AI 학습용 프로세서 너바나 NNP-T1000 [source=intel newsroom]
4년 전 인수한 너바나시스템즈(Nervana Systems)의 설계자산(IP)을 활용한 2종(학습/추론)의 신경망네트워크처리장치(NNP)를 지난해 말 양산-선적에 들어간 것으로 알려져 있습니다. x86 시장에서의 강점을 기반으로 코-프로세서를 활용한 시스템 전략을 추진하고 있다고 볼 수 있겠네요.

FPGA를 처음 개발한 자일링스(Xilinx)도 FPGA 블록과 스칼라-AI엔진, 네트워크온칩(NoC)을 단일 칩(One Chip)으로 구현한, 추론 영역에 최적화된 7나노 실리콘 ‘버샬(Versal)’을 필두로 가속컴퓨팅 시장에 대응하고 있습니다.

재밌는 건, 자일링스는 AI 부문에서 오로지 ‘추론’ 애플리케이션 시장에 집중할 계획임을 빅터 펭 자일링스 CEO가 공언한 바 있는데요. 특수 반도체인 FPGA의 강점을 최대한 살려서 ‘연산게임(학습)’이 아닌 ‘엣지서비스게임(추론)’을 목표로 집중하고 있습니다.

AI가 슈퍼컴퓨터(HPC)와 같은 대형 서버, 데이터센터에만 적용되는 건 아니죠. 지능화된 엣지단말이 늘면서 통신연결 없이 엣지 단에서 구현되는 ‘온-디바이스(On-Device) AI’도 있습니다. 스마트폰에 사용되는 애플리케이션프로세서(AP)에 블록으로 탑재되는 NPU를 들 수 있겠네요.

▲ 지난해 10월 1일(현지시간) 미국 캘리포니아 산호세에서 열린 개발자 컨퍼런스(XDF 2019)에서 키노트 발표자로 나선 빅터 펭(Victor Peng) 자일링스 CEO[IT비즈뉴스(ITBizNews) DB]
대표적으로 국내기업인 삼성전자와 퓨리오사AI(Furiosa AI)를 들 수 있는데요, 삼성은 지난해 CPU 개발인력을 줄이고 NPU 개발에 집중할 것을 발표하기도 했습니다. 지난해 6월 독자 NPU를 개발하고 향후 엣지 AI 애플리케이션에 최적화된 뉴로모픽 칩으로 기술 개발도 확장할 것을 밝혀 주목을 받기도 했죠.

네이버가 투자한 팹리스 스타트업인 퓨리오사AI도 NPU를 개발하고 있습니다. 지난해 8월 이미지분류용 시제품을 FPGA 형태로 공개했고, 이 FPGA가 지난해 진행된 AI칩 벤치마크 테스트인 엠엘퍼프(MLPerf)에서 높은 점수를 획득해 기술력도 인정을 받았습니다.

NPU 블록과 DNN 모델을 효과적으로 지원하는 컴파일러, 소프트웨어개발키트(SDK) 모두 자체 설계하고 있으며 올해께 실제 SoC를 공개한다는 계획입니다.

여기까지가 서론인데, 참 길었습니다. 그럼 IPU는 대체 무엇인가.....?

◆하나의 코어-하나의 메모리 블록 대응, 새로운 아키텍처로 설계된 칩
IPU는 2016년 엔비디아 출신 엔지니어들이 설립한 스타트업 ‘그래프코어(Graphcore)’가 독자 설계한 칩입니다. CPU나 GPU, IP블록 단인 NPU나 FPGA와 조금 다르게 프로세서에 직접 메모리 블록을 대칭한 것이 가장 큰 특징입니다.

1세대 IPU인 16코어 콜러서스(Colossus)에는 1216개의 IPU 코어가 있으며, 코어 당 각각 256KB의 메모리가 배치됐습니다. 독립 코어 당 메모리를 타일형태로 배치해서 지연을 줄이고, 각각의 메모리를 코어가 공유할 수 있기에 총 300MB의 메모리를 사용할 수 있고 (사측자료 기준) 대역폭은 칩당 45TB/s에 달한다고 합니다. 물론 이론적으로요.

그래프코어가 내세우는 핵심은, 데이터의 지연성을 줄인겁니다. HBM과 같은 고가용성 메모리를 활용하는 것보다 코어 당 배치된 메모리를 각자 활용하거나 공유할 수 있는 구조로 기존의 칩 아키텍처와는 전혀 다른 구성이라는 게 사측 설명입니다.

이론적인 최대치는 HBM2 그래픽 칩 메모리 대비 100배 빠르다는 게 그래프코어의 주장입니다. 320GB/s를 지원하는 IPU링크(IPU-LINKS)로 최대 1만개까지 칩 간 병렬구조로 시스템을 구성할 수도 있습니다.

지난달 한국에도 지사를 개소하고 국내 시장에 발을 내디뎠는데요, 4일 한국에서 처음 열린 기자간담회에서 공개된 자료를 보면, 2개의 콜로서스 칩이 탑재된 가속카드(C2)를 구글의 AI 언어모델인 버트(Bidirectional Encoder Representations from Transformers, BERT)를 베이스로 벤치마크 테스트한 결과 평균 추론처리량은 3배, 대기시간은 20% 향상됐습니다.

▲ 버트(BERT) 모델에서 위키디피아 데이터세트를 기준으로 7개의 콜러서스 C2(on 포플러)와 8개의 최신 GPU(on 파이토치/텐서플로)로 학습한 결과치 [그래프코어 자료인용]
주식거래와 같은 실시간 확률계산이 핵심인 금융추론모델(Markov Chain Monte Carlo, MCMC)에서는 IPU를 적용해 기존 하드웨어로 2시간 걸린 작업을 4분 30초만에 최적화했습니다. 학습시간은 26배 빨라졌다고 하고요.

지난해 마이크로소프트(MS)가 클라우드 서비스인 MS애저에 그래프코어의 C2 IPU를 적용하면서 기술력도 인정을 받았습니다. ML 소프트웨어 스택인 포플러(Poplar)로 구동되며 구글의 텐서플로(TensorFlow)와 통합은 완료된 상태, 페이스북의 파이토치(Pytorch)와도 올해 상반기 내에 통합도 마무리할 계획임을 현장에서 밝혔습니다.

아쉬운 점도 있었습니다. 간담회에서 공개된 정보가 너무 한정적이었기 때문인데요, 삼성전자를 포함해 보쉬, 델, 딥마인드 설립자인 데미스 하사비스에게서 총 3억달러를 투자받은 ‘핵심 기술과 시장 전략’에 대해 공유된 정보가 너무 빈약했습니다.

기술과 전략이 유기적으로 맞아떨어져야 시장에서의 경쟁력을 확보할 수 있고, 직접 내세우고 있는 ‘그 기술의 우월성’과 투자자로부터 ‘제대로 된 기업가치’를 평가받을 수 있기 때문입니다.

초대 한국지사장을 맡게 된 강민우 지사장도 이날 기자와 만난 자리에서 비밀유지협약(NDA)과 관련된 내용이 많아 공개할 수 있는 정보가 한정적이라고 말했습니다. 현재 진행 중인 2세대 칩을 공개할 즈음에 다양한 정보를 오픈할 수 있을 것이라고 귀뜸했고요.

◆IPU가 CPU, GPU, ASIC을 대체할 수 있다?
그럼, 획기적인 아키텍처로 구현된 IPU가 AI 구현을 위해 사용되는 다양한 칩을 대체할 수 있는가??

이와 같은 질문에 파브리스 모이잔 그래프코어 총괄부사장은 ‘노(No)’라고 말했습니다. 최대 성능의 실리콘을 탑재한 시스템을 구현하더라도 각각의 애플리케이션, 모델에 최적화된 방법론이 필요하며, 이에 따라 효율성은 차이가 많이 발생할 수 있기 때문에 어느 특수한 칩이 시장을 장악하진 않을 것이라고 의견을 밝혔습니다.

▲ 파브리스 모이잔(Fabrice Moizan)그래프코어 총괄부사장
구축비용(CAPEX)와 운영비용(OPEX)을 포함하는 총비용(TCO)도 중요한 점인데요, 모델 고도화에 투입되는 (개발)시간을 단축하면서 비용대비 효율성을 최대값으로 제시할 수 있는 유기적인 전략도 중요하다고 언급했습니다.

의학연구소, 기술개발센터, 인터넷 포털사이트를 운영하는 인터넷서비스기업 및 통신기업 내 데이터센터 등등 학습이든, 추론이든 각각의 환경에 최적화된 (HW+SW)컴퓨팅 환경을 제공하는 것이 경쟁력이라는 설명입니다.

한정된 정보를 바탕으로 기술의 우월성, 성능과 비용효율성을 판단하기에는 무리가 따르지만, 코어 당 메모리를 각각 배치한 새로운 아키텍처를 구현한 점은 주목할 만 합니다.

데이터센터, HPC 내 서버를 각각 연결하는 초고속 네트워크인 ‘인피니밴드(InfiniBand)’로 연결된 병렬방식보다 접근성이 높은 점, 이론적으로는 가장 밀접한 곳에 메모리를 배치한 설계방식은 획기적이라고 생각되어 집니다.

엔비디아가 지난해 3월 네트워크인터페이스카드(NIC)·인피니밴드 기술 강자인 멜라녹스(Mellanox)를 69억달러에 인수했죠. 앞서 2018년 11월부터 자일링스, MS, 인텔 등등 기업들이 멜라녹스 인수에 관심을 뒀던 이유는 저지연 연결기술(인피니밴드) 시장 90% 이상을 장악하고 있기 때문입니다.

수백 대의 서버가 지연없이 연결돼야 유기적인 병렬컴퓨팅 구성이 가능하기 때문이죠(엔비디아가 멜라녹스 인수 시너지를 누렸을지는, 글쎄요. 노코멘트 하겠습니다). 연산코어에 가장 밀접한 곳에 메모리를 배치시켜 지연을 줄인다는 아키텍처를 구현했다는 게, 충분히 관심을 끌 만한 이유가 되는 셈이죠.

알파고 쇼크가 견인한 AI 이슈가 자리한 지 4년, 기술 발전의 속도는 빠르게 진행되고 있으며 이 속도는 더 가속화될 것으로 예상됩니다. GPU의 전력효율성은 점점 개선되고 있으며 프로그래머블 IP블록을 활용한 7나노 가속카드도 상용 시스템에 탑재되고 있습니다.

기술은 소비하면 할수록 더 빨리 발전합니다. 다양한 선택지에서 최대치의 효율성을 제시할 수 있는 기업 간 경쟁은 가속화될 것이며, 시장은 더 빠르게 확장되겠지요?

관련기사

저작권자 © IT비즈뉴스(ITBizNews) 무단전재 및 재배포 금지