LLM 추론·파인튜닝 시스템 스택 출시 
대규모 AI 애플리케이션 활용 지원

스노우플레이크가 오픈소스 커뮤니티와 협업으로 대규모언어모델(LLM) 추론·파인튜닝 시스템 스택을 출시한다고 밝혔다. 라마3.1 405B와 같은 수천억개 매개변수 모델에 필요한 오픈소스 추론·파인튜닝 시스템용 솔루션을 구축하고, 스노우플레이크 코텍스AI에서 호스팅해 기업의 대규모 AI 활용을 지원하겠다는 겻이다.

이의 일환으로 스노우플레이크는 메타와 협업해 라마3.1에 대한 코텍스AI 호스팅을 개시했다. 메타가 개발해 오픈소스로 공개한 라마3.1은 다중언어 LLM 컬렉션이다.

스노우플레이크는 "메타와 스노우플레이크 AI리서치팀의 긴밀한 협업을 통해 최적화돼 추론 작업에서 엔드투엔드 지연시간을 기존 오픈소스 솔루션보다 최대 3분의 1로 낮추고, 처리량은 1.4배 향상시켰다"고 설명했다. 

스노우플레이크 초거대 LLM 추론·파인튜닝 시스템 최적화 스택은 고급 병렬화 기술과 메모리 최적화를 통해 복잡하고 고비용의 인프라가 없어도 효율적인 AI 처리를 구현할 수 있다.

라마3.1 405B의 경우에는 단일 GPU 노드에서 실시간 고처리량 성능을 발휘하고, 다중 노드 설정 전반에 걸쳐 128k개의 컨텍스트 윈도우를 지원한다.

이를 통해 데이터 사이언티스트는 전보다 적은 개수의 GPU상에서 복합 정밀 기술을 사용해 라마3.1 405B의 파인튜닝이 가능하고, 이를 통해 대규모 GPU 클러스터 없이 비용효율적으로 엔터프라이즈급 생성AI 애플리케이션을 활용할 수 있다는 게 사측 설명이다.

비벡 라구나단 스노우플레이크 AI엔지니어링 부사장은 “스노우플레이크는 메타의 첨단 모델을 스노우플레이크 코텍스 AI를 통해 고객에게 직접 제공할 뿐만 아니라, 더 폭넓은 생태계에서 AI를 고도화하기 위해 128K 컨텍스트 윈도우와 다중노드 추론, 파이프라인 병렬화, 8비트 부동 소수점 양자화 등 기업과 AI 커뮤니티의 역량을 강화하고 있다”고 말했다.

관련기사

저작권자 © ITBizNews 무단전재 및 재배포 금지