- 삼성이 투자한 AI칩 스타트업 그래프코어(Graphcore) 한국 진출
- CPU/GPU/NPU/FPGA/ASIC…코어-메모리 배치한 아키텍처 주목
- AI/ML 가속화 위한 단일 칩 시스템 구성은 ‘????’
[IT비즈뉴스 최태우 기자] 4년 전 구글의 딥마인드(DeepMind)가 선보인, 바둑을 두는 컴퓨터 ‘알파고(AlphaGO)’가 불러 일으킨 '알파고 쇼크'로 인공지능(AI) 이슈가 전세계 경제·산업계에서 이슈로 떠올랐습니다. 인터넷 혁명에서 모바일 혁명으로, 또 AI 혁명으로 이어지는 기술 트렌드를 되짚어보면 이를 부정하는 이는 많지 않을 것입니다.
AI를 구현하는 기술은 지금도 진화하고 있습니다. 이를 견인한 것은 반도체 미세공정기술의 비약적인 발전이라고 할 수 있겠습니다. 트랜지스터의 집적도가 비약적으로 증가하고 있으며 회로선 폭이 좁아지는 미세공정기술이 고도화될수록 전력소모량도 크게 줄어듭니다.
조금 멀리서 보자면, 소프트웨어(SW)의 기술을 하드웨어(HW)가 빠르게 발맞춰 고도화되고 있다는 걸로 보여집니다.
컴퓨팅파워는 기하급수적으로 높아진 상태며, 기업 간 경쟁은 기술과 비용효율성이 맞물린 최적화된 비즈니스 모델을 개발하기 위한 경쟁으로 나아가고 있습니다.
중앙처리장치(CPU)와 그래픽처리장치(GPU), 신경망처리장치(NPU)와 같은 AI 컴퓨팅파워를 높이는 데 최적화된 실리콘(Chip) 기술도 빠르게 진행되고 있습니다. 뉴로모픽(Neuromorphic) 칩이나 적시에 설계변경이 가능한 프로그래머블(FPGA) 칩과 같은 특수반도체도 활용되고 있는데요, 최근 들어 ‘엔비디아를 때려(?) 잡을 경쟁사’로 주목을 받는 영국 AI스타트업인 그래프코어(Graphcore)의 지능형처리장치(IPU)도 기술 시장에서 주목을 받고 있습니다.
CPU, GPU, NPU, FPGA, 그리고 IPU. 자, 그럼 ‘학습(learning)’과 ‘추론(inference)’을 모두 포함하는 ‘진정한 AI 구현’에 최적화된 실리콘은 뭘까요?
◆CPU가 아닌, AI 이슈로 떠오른 코-프로세서(Co-Processor)
사실 AI 이슈로 가장 수혜를 본 기업으로는 엔비디아(nvidia)를 들 수 있겠습니다. 그래픽 처리를 위해 다수의 코어를 탑재한 아키텍처로 구현된 그래픽처리장치(GPU)가 다량의 연산에 최적화된 칩으로 주목을 받으면서, 전세계 90% 이상의 점유율을 차지하는 엔비디아가 ‘그래픽카드 제조기업’에서 ‘AI기업’으로 탈바꿈하는 데 성공한 계기가 됐죠.
2년 반 전에는 소프트뱅크가 4대 주주로 올라서면서 주식도 많이 올랐고요(물론 지금은 주식을 처분했습니다), 차세대 GPU 아키텍처를 주기적으로 공개하고 있으며 자비에(Xavier) 시스템온칩(SoC)을 탑재한 개발보드, 널리 사용되는 딥러닝(DL) 오픈 프레임워크와 자체 언어인 쿠다(CUDA)와의 통합도 유기적으로 잘 진행해 오면서 자체 생태계도 견고하게 구축한 상태입니다.
프로세서가 하는 일은 연산처리입니다. 같은 처리를 최대한 빠르고 정확하게 처리하는 게 핵심이죠. GPU가 병렬연산에 최적화된 점은 맞습니다만, GPU가 필수는 아닙니다. CPU로도 연산은 가능하죠.
순차적으로 처리하는 CPU와 GPU는 상호보완적인 관계라고 할 수 있습니다. GPU 단독으로 자원을 구성할 수 없고, GPU를 활용한 가속기로 컴퓨팅파워를 높이는 구조로 설계된 하드웨어 시스템을 보통 ‘AI컴퓨터’라고 부르죠.
CPU 강자인 인텔(Intel)의 경우, 제온 파이(Xeon Phi), 5년 전 인수한 FPGA 기업인 알테라의 10나노(nm) FPGA인 애질렉스(Agilex)를 활용하고 있습니다.
FPGA를 처음 개발한 자일링스(Xilinx)도 FPGA 블록과 스칼라-AI엔진, 네트워크온칩(NoC)을 단일 칩(One Chip)으로 구현한, 추론 영역에 최적화된 7나노 실리콘 ‘버샬(Versal)’을 필두로 가속컴퓨팅 시장에 대응하고 있습니다.
재밌는 건, 자일링스는 AI 부문에서 오로지 ‘추론’ 애플리케이션 시장에 집중할 계획임을 빅터 펭 자일링스 CEO가 공언한 바 있는데요. 특수 반도체인 FPGA의 강점을 최대한 살려서 ‘연산게임(학습)’이 아닌 ‘엣지서비스게임(추론)’을 목표로 집중하고 있습니다.
AI가 슈퍼컴퓨터(HPC)와 같은 대형 서버, 데이터센터에만 적용되는 건 아니죠. 지능화된 엣지단말이 늘면서 통신연결 없이 엣지 단에서 구현되는 ‘온-디바이스(On-Device) AI’도 있습니다. 스마트폰에 사용되는 애플리케이션프로세서(AP)에 블록으로 탑재되는 NPU를 들 수 있겠네요.
네이버가 투자한 팹리스 스타트업인 퓨리오사AI도 NPU를 개발하고 있습니다. 지난해 8월 이미지분류용 시제품을 FPGA 형태로 공개했고, 이 FPGA가 지난해 진행된 AI칩 벤치마크 테스트인 엠엘퍼프(MLPerf)에서 높은 점수를 획득해 기술력도 인정을 받았습니다.
NPU 블록과 DNN 모델을 효과적으로 지원하는 컴파일러, 소프트웨어개발키트(SDK) 모두 자체 설계하고 있으며 올해께 실제 SoC를 공개한다는 계획입니다.
여기까지가 서론인데, 참 길었습니다. 그럼 IPU는 대체 무엇인가.....?
◆하나의 코어-하나의 메모리 블록 대응, 새로운 아키텍처로 설계된 칩
IPU는 2016년 엔비디아 출신 엔지니어들이 설립한 스타트업 ‘그래프코어(Graphcore)’가 독자 설계한 칩입니다. CPU나 GPU, IP블록 단인 NPU나 FPGA와 조금 다르게 프로세서에 직접 메모리 블록을 대칭한 것이 가장 큰 특징입니다.
1세대 IPU인 16코어 콜러서스(Colossus)에는 1216개의 IPU 코어가 있으며, 코어 당 각각 256KB의 메모리가 배치됐습니다. 독립 코어 당 메모리를 타일형태로 배치해서 지연을 줄이고, 각각의 메모리를 코어가 공유할 수 있기에 총 300MB의 메모리를 사용할 수 있고 (사측자료 기준) 대역폭은 칩당 45TB/s에 달한다고 합니다. 물론 이론적으로요.
그래프코어가 내세우는 핵심은, 데이터의 지연성을 줄인겁니다. HBM과 같은 고가용성 메모리를 활용하는 것보다 코어 당 배치된 메모리를 각자 활용하거나 공유할 수 있는 구조로 기존의 칩 아키텍처와는 전혀 다른 구성이라는 게 사측 설명입니다.
이론적인 최대치는 HBM2 그래픽 칩 메모리 대비 100배 빠르다는 게 그래프코어의 주장입니다. 320GB/s를 지원하는 IPU링크(IPU-LINKS)로 최대 1만개까지 칩 간 병렬구조로 시스템을 구성할 수도 있습니다.
지난해 마이크로소프트(MS)가 클라우드 서비스인 MS애저에 그래프코어의 C2 IPU를 적용하면서 기술력도 인정을 받았습니다. ML 소프트웨어 스택인 포플러(Poplar)로 구동되며 구글의 텐서플로(TensorFlow)와 통합은 완료된 상태, 페이스북의 파이토치(Pytorch)와도 올해 상반기 내에 통합도 마무리할 계획임을 현장에서 밝혔습니다.
아쉬운 점도 있었습니다. 간담회에서 공개된 정보가 너무 한정적이었기 때문인데요, 삼성전자를 포함해 보쉬, 델, 딥마인드 설립자인 데미스 하사비스에게서 총 3억달러를 투자받은 ‘핵심 기술과 시장 전략’에 대해 공유된 정보가 너무 빈약했습니다.
기술과 전략이 유기적으로 맞아떨어져야 시장에서의 경쟁력을 확보할 수 있고, 직접 내세우고 있는 ‘그 기술의 우월성’과 투자자로부터 ‘제대로 된 기업가치’를 평가받을 수 있기 때문입니다.
초대 한국지사장을 맡게 된 강민우 지사장도 이날 기자와 만난 자리에서 비밀유지협약(NDA)과 관련된 내용이 많아 공개할 수 있는 정보가 한정적이라고 말했습니다. 현재 진행 중인 2세대 칩을 공개할 즈음에 다양한 정보를 오픈할 수 있을 것이라고 귀뜸했고요.
◆IPU가 CPU, GPU, ASIC을 대체할 수 있다?
그럼, 획기적인 아키텍처로 구현된 IPU가 AI 구현을 위해 사용되는 다양한 칩을 대체할 수 있는가??
이와 같은 질문에 파브리스 모이잔 그래프코어 총괄부사장은 ‘노(No)’라고 말했습니다. 최대 성능의 실리콘을 탑재한 시스템을 구현하더라도 각각의 애플리케이션, 모델에 최적화된 방법론이 필요하며, 이에 따라 효율성은 차이가 많이 발생할 수 있기 때문에 어느 특수한 칩이 시장을 장악하진 않을 것이라고 의견을 밝혔습니다.
의학연구소, 기술개발센터, 인터넷 포털사이트를 운영하는 인터넷서비스기업 및 통신기업 내 데이터센터 등등 학습이든, 추론이든 각각의 환경에 최적화된 (HW+SW)컴퓨팅 환경을 제공하는 것이 경쟁력이라는 설명입니다.
한정된 정보를 바탕으로 기술의 우월성, 성능과 비용효율성을 판단하기에는 무리가 따르지만, 코어 당 메모리를 각각 배치한 새로운 아키텍처를 구현한 점은 주목할 만 합니다.
데이터센터, HPC 내 서버를 각각 연결하는 초고속 네트워크인 ‘인피니밴드(InfiniBand)’로 연결된 병렬방식보다 접근성이 높은 점, 이론적으로는 가장 밀접한 곳에 메모리를 배치한 설계방식은 획기적이라고 생각되어 집니다.
엔비디아가 지난해 3월 네트워크인터페이스카드(NIC)·인피니밴드 기술 강자인 멜라녹스(Mellanox)를 69억달러에 인수했죠. 앞서 2018년 11월부터 자일링스, MS, 인텔 등등 기업들이 멜라녹스 인수에 관심을 뒀던 이유는 저지연 연결기술(인피니밴드) 시장 90% 이상을 장악하고 있기 때문입니다.
수백 대의 서버가 지연없이 연결돼야 유기적인 병렬컴퓨팅 구성이 가능하기 때문이죠(엔비디아가 멜라녹스 인수 시너지를 누렸을지는, 글쎄요. 노코멘트 하겠습니다). 연산코어에 가장 밀접한 곳에 메모리를 배치시켜 지연을 줄인다는 아키텍처를 구현했다는 게, 충분히 관심을 끌 만한 이유가 되는 셈이죠.
알파고 쇼크가 견인한 AI 이슈가 자리한 지 4년, 기술 발전의 속도는 빠르게 진행되고 있으며 이 속도는 더 가속화될 것으로 예상됩니다. GPU의 전력효율성은 점점 개선되고 있으며 프로그래머블 IP블록을 활용한 7나노 가속카드도 상용 시스템에 탑재되고 있습니다.
기술은 소비하면 할수록 더 빨리 발전합니다. 다양한 선택지에서 최대치의 효율성을 제시할 수 있는 기업 간 경쟁은 가속화될 것이며, 시장은 더 빠르게 확장되겠지요?
관련기사
- 너바나(Nervana) 신경망 칩 내세운 인텔, “더 늦기 전에 주도권 확보”
- “구글(TPU), 자일링스(FPGA)…시장 플레이어와의 경쟁 환영한다”
- 비메모리반도체 1위 내세운 삼성, “독자 NPU 개발로 경쟁력 확보”
- 네이버가 선택한 팹리스기업, “퓨리오사AI를 아십니까?”
- [단독] 팹리스 1세대 넥스트칩, “日완성차기업에 2천만달러치 아파치5 SoC 납품한다”
- [단독] 자일링스, 머신러닝(ML) 라이브러리 수백 개…오픈소스로 푼다
- [그것을 알려주마] SK텔레콤은 왜? AI가속기에 ‘GPU’ 아닌 ‘FPGA’를 선택했나
- 국내 연구진, 뇌 신경세포 모사한 이온-젤 시냅스 소자 구현
- 日 르네사스, 오픈소스 반도체 설계자산(IP) RISC-V 채용…칩 설계 시작
- 마인즈랩 한국어 STT, AI 영상편집 툴 ‘브루(Vrew)’에 통합