KAIST 창업기업, CXL 기반 연산처리 5.3배 단축
팹리스 스타트업 파네시아가 컴퓨트익스프레스링크(CXL) 메모리 인터페이스를 기반으로 GPU와 대용량 뉴메모리 기반의 메모리확장장치를 연결한 AI가속기 ‘트레이닝CXL(TrainingCXL)’를 개발했다.
GPU에 최대 4페타바이트(PB)의 확장가능한 메모리를 제공하면서 기존 PCIe 기술을 기반으로 대용량 메모리를 연결한 시스템 대비 AI 모델의 학습시간을 5.3배 단축할 수 있다는 게 파네시아의 설명이다.
카이스트(KAIST) 교원 창업기업인 파네시아는 정명수 KAIST 교수가 대표를 맡고 있는 창업 2년차 팹리스 스타트업이다.
최근 1테라바이트(TB) 수준 이상의 대규모 AI를 처리할 수 있는 컴퓨팅 시스템에 대한 업계의 관심이 커진 상태나, 대표적인 AI가속기인 GPU는 D램 기술의 한계로 내부 메모리 용량이 수십 기가바이트(GB)에 머물러 있어 대규모 모델을 지원하는데 한계로 지적된다.
기존 시스템은 GPU의 메모리를 저장장치인 솔리드스테이트드라이브(SSD)를 이용해 확장하는 방법도 있으나 SSD의 느린 임의읽기 성능과 SSD-GPU 간 데이터 이동으로 지연이 생기며 성능이 제한적이었다.
파네시아가 개발한 트레이닝CXL은 대용량 뉴메모리(New memory)를 탑재한 메모리확장장치와 GPU를 레고블럭을 조립하듯 자유롭게 연결하면서 GPU에 대용량의 메모리 공간을 제공하는 점이 특징이다.
이 시스템의 핵심은 CXL이다. CXL은 시스템의 장치 간 연결을 위한 차세대 프로토콜이다. 이 프로토콜을 지원하는 시스템은 CPU, GPU, 메모리확장장치와 같은 다수의 장치를 자유롭게 연결하면서도 장치 간에 고속으로 데이터를 주고받을 수 있다.
파네시아 연구진은 CXL을 통해 메모리확장장치를 GPU와 연결해 GPU에 대용량 메모리를 제공하면서 장치 간 데이터 이동으로 인한 실행시간 지연을 최소화했다고 설명했다.
이번 연구를 통해 CXL 프로토콜이 정의하는 여러 서브프로토콜 중 ‘cxl.cache’를 사용해 GPU 및 메모리확장장치가 능동적으로 데이터를 주고받을 수 있도록 설계했다.
cxl.cache를 통한 능동적인 고속 데이터 이동은 데이터 이동시간이 장치의 계산시간에 가려져 사용자에게 드러나지 않도록 하고, 추가적인 소프트웨어(SW)의 개입을 제거하여 높은 성능을 보인다.
연구진은 대용량의 메모리를 제공할 뿐 아니라 메모리확장장치에 목표 응용을 위한 처리 능력을 부여하면서 실행시간도 단축했다고 강조했다.
목표 응용은 사용자에게 알맞은 콘텐츠를 추천해주는 초개인화 서비스 등에 적용되는 추천시스템이다. 추천시스템은 각 사용자에게 맞는 추천을 위해 수억명의 사용자와 콘텐츠 각각에 대한 정보(embedding vector)를 AI 모델에 포함하면서 모델 크기는 수십TB에 달해, 실행을 위해 대용량의 메모리가 필요하다.
연구진은 추천시스템 모델의 임베딩 벡터를 메모리확장장치에 저장하고 내부에 임베딩 벡터를 처리할 수 있는 가속모듈도 탑재하면서 이 문제를 해결했다고 설명했다.
이렇게 개발된 시스템은 기존 PCIe 기술을 기반으로 대용량 뉴메모리를 연결한 최신 시스템 대비 다양한 종류의 추천시스템 모델을 이용한 평가에서 학습시간을 5.3배 단축한 성과를 보였다.
정명수 파네시아 대표는 “메모리 반도체의 미래 먹거리인 CXL 기술을 선도해 관련 시장과 환경을 활성화하기 위해 앞으로도 꾸준히 높은 수준의 연구성과를 공개하고 많은 반도체 및 시스템 회사들이 CXL을 사용할 수 있도록 관련 인프라를 제공할 것”이라고 전했다.
이번 연구성과는 국제 학술지(IEEE Micro) 3-4월호에 논문(논문명: Failure Tolerant Training with Persistent Memory Disaggregation over CXL)으로 게재됐다. 내달 미국 플로리다에서 열리는 국제 병렬 빛 분산 처리 심포지움(IPDPS) 워크샵에서도 초청강연을 통해 소개될 예정이다.
관련기사
- “5나노 ASIC 탑재로 압축효율 최적화”…AMD, 알베오 MA35D 가속기 공개
- 인피니언, 콘티넨탈과 서버 기반 차량용 아키텍처 개발 추진
- AMD, 데이터센터 CPU 시장 성장세 인텔 압도
- [단독] 퓨리오사AI 백준호, “2세대 NPU 내년 상용화, GPU와 전 영역서 경쟁”
- “인공지능(AI)칩 스타트업, 위기와 기회 공존”
- AMD, 알베오 V70 AI가속기 등 차세대 솔루션 대거 공개
- KAIST, 사진에서 3D 정보 추론하는 AI칩 설계자산(IP) 개발
- 래티스반도체, 저전력·고성능 FPGA 포트폴리오 ‘어반트’ 정식 공개
- 4세대 에픽(EPYC) 프로세서 공개한 AMD 리사 수, “제 두 번째 마법은요”
- 국내 연구진, 온도 제어로 반도체 패키징 휨 문제 개선 기술 개발