생성AI 추론 성능 60% 개선…국내 연구진, NPU 핵심 기술 개발
KAIST·하이퍼엑셀 공동 연구, GPU 대비 44% 낮은 전력으로 구동
국내 연구진이 GPU 대비 44% 낮은 전력으로 생성AI 모델의 추론 성능을 60% 개선할 수 있는 신경망프로세서(NPU) 핵심 기술을 개발했다.
카이스트(KAIST)는 4일 전산학부 박종세 교수 연구팀과 하이퍼엑셀(전기및전자공학부 김주영 교수 창업기업)이 연구 협력을 통해 챗GPT와 같은 생성AI 클라우드에 특화된 저전력·고성능의 NPU 핵심 기술을 개발했다고 밝혔다.
챗GPT, 제미나이 등 최신 생성AI 모델은 고성능 GPU와 높은 메모리 대역폭과 용량을 요구하고 있어 관련 기업들은 대규모 투자를 단행하고 있다.
이번 연구의 핵심은 추론 과정에서 경량화를 통해 정확도 손실을 최소화하면서도 메모리 병목 문제를 해결해 대규모 생성AI 서비스의 성능을 개선하는 것이다. 특히 AI인프라의 핵심 구성요소인 AI반도체와 AI시스템 소프트웨어(SW)를 통합 설계했다는 점에서 주목된다.
기존 GPU 기반의 AI인프라는 높은 메모리 대역폭과 용량 요구를 충족하기 위해 다수의 GPU 디바이스가 필요한 반면, 이 기술은 메모리 사용의 대부분을 차지하는 KV 캐시의 양자화를 통해 적은 수의 NPU만으로 동일 수준의 AI인프라를 구성할 수 있다는 게 연구팀의 설명이다.
연구팀은 기존 NPU 아키텍처의 연산 로직을 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다.
이번 하드웨어(HW) 아키텍처 기술은 제안된 양자화 알고리즘을 구현하면서도 제한된 메모리 대역폭과 용량을 효율적으로 활용하기 위한 페이지 단위 메모리 관리 기법과 양자화된 KV 캐시에 최적화된 새로운 인코딩 기법 등을 개발했다.
최신 GPU 대비 비용·전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성할 경우 NPU의 저전력·고성능 특성을 활용해 운영 비용 역시 크게 절감할 수 있을 것으로 연구팀은 기대했다.
박종세 교수는 “하이퍼엑셀과의 공동 연구를 통해 생성AI 추론 경량화 알고리즘에서 그 해법을 찾았고 메모리 문제를 해결할 수 있는 NPU 핵심기술 개발에 성공했다”며 “이 기술을 통해 추론의 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과 이에 최적화된 HW 설계를 결합해 최신 GPU 대비 평균 60% 이상 성능이 향상된 NPU를 구현했다”고 말했다.
이어 “이 기술은 생성AI에 특화된 저전력·고성능 인프라 구현 가능성을 입증한 것”이라며 “AI데이터센터, 능동적인 실행형 AI인 에이전틱AI 등으로 대표되는 AX 환경에서도 핵심 역할이 기대된다”고 강조했다.
KAIST 김민수 박사과정과 하이퍼엑셀 홍성민 박사가 공동 제1 저자로 참여한 이 연구는 지난달 21일(현지시간) 일본 도쿄에서 개막한 ‘2025 국제 컴퓨터구조 심포지엄(ISCA 2025)’에 채택됐다.