2개 설계자산(IP) 새로 공개한 ARM…“Cortex-A는 효율성, X는 성능 최적화”

양대규 기자 / 기사승인 : 2020-05-30 15:27:03
  • -
  • +
  • 인쇄
코어텍스-A78·X15, 5나노(nm) 공정 기반 최신 프로세서 공개
▲ Arm 코어텍스-A78과 X1 [source=arm]
[IT비즈뉴스 양대규 기자] ARM이 최근 고성능 모바일 프로세서의 비전을 새롭게 제시했다. 기존의 모바일용 고성능 코어텍스(Cortex)-A 시리즈는 '전력효율성'을 강조했으며, 새롭게 공개한 코어텍스-X 시리즈는 모바일의 한계를 넘은 궁극적인 성능을 제시했다.

최근 ARM은 이를 보여주는 코어텍스-A78과 코어텍스-X1 설계자산(IP)를 공개했다. 2개 IP 모두 기존 최상급 프로세서인 A77의 7나노(nm) 공정이 아닌 최신 5나노 공정이 적용됐다.

ARM에 따르면 새로운 A78은 아키텍처 변경, 사용 가능한 클럭 속도 향상과 5나노 제조로의 전환으로 기존 A77보다 1와트당 20% 유지성능(sustained performance)이 향상됐다. 최대 50% 적은 전력을 소비하면서 배터리의 수명을 늘려준다.

▲ A77 대비 A78의 개선점
A78의 장점은 성능보다 전력 효율이다. 수정된 마이크로아키텍처로 일반적인 상황에서 7% 정도의 향상만 있을 뿐이다. 다만 전력소비가 4% 감소해 기존의 A77이나 A76보다 더 긴 피크 성능을 유지할 수 있다.

또한 크기도 작아져 쿼드코어 클러스터의 면적을 15% 절약할 수 있다. 생산 단가를 낮출 수 있으며 그래픽카드(GPU), 신경망처리장치(NPU) 또는 기타 구성요소를 위해 많은 공간을 확보할 수 있다는 게 사측 설명이다.

마이크로아키텍처에서 A78은 공간 절약의 대부분이 이뤄지는 32kB L1 캐시 구성옵션이 제공된다. 프로세서 제조사는 코어 성능을 향상시키기 위해 더 친숙한 64kB L1 캐시를 선택할 수도 있다.

로버트 트릭스(Robert Triggs)는 안드로이드아우토리티(androidauthority)에서 "A78에는 실행 유닛에 두 번째 정수 다중 유닛과 추가로드 주소 생성 유닛(AGU)을 도입해 데이터로드 대역폭을 50% 증가시켰다"며 "보다 융합된 명령어와 명령어 스케줄러의 효율 개선, 레지스터 이름 변경 구조 및 재정렬 버퍼도 포함된다"고 설명했다.

폴 윌리엄슨(Paul Williams) ARM의 클라이언트 비즈니스 총괄 책임자는 스마트폰 제조업체가 성능 대신 배터리 사용시간을 선택할 수도 있다고 설명했다. A78의 클럭속도를 조절해 A77과 같은 성능에 전력은 절반만 소비하도록 할 수 있다는 것이다.

즉, A78은 A77보다 더 작고 최적화된 프로세서다. 성능 대비 최대 효율이 목표인 제품인 셈이다. 다만 배터리 수명에는 좋지만 성능 향상을 원하는 제조사나 사람들에게는 큰 매력을 주지 못한다.
▲ 4개의 X1이 아닌 X1 하나에 3개의 A78로 구성된 SoC의 예시. 제조사들은 여기에 4개의 A55를 추가하는 등의 옵션이 있다. X1의 8MB L3 공유 캐시는 다른 프로세서들과 메모리를 공유할 수 있다.
ARM은 이런 성능에 대한 요구를 원하는 사람을 위해 '극한의 성능'을 갖춘 새로운 코어텍스-X 시리즈를 공개했다.

 

첫 번째 X시리즈인 코어텍스-X1은 ARM의 새로운 CXC(Cortex-X Custom) 프로그램의 첫 결과물이다. CXC를 통해 ARM의 파트너는 일반적인 로드맵에서 성능 포인트를 가져오고 이를 위해 CPU를 설계한다

폴 윌리엄슨은 “코어텍스-X1은 통상적인 전력 상의 제약을 받지 않으면 현세대의 성능을 얼마나 끌어올릴 수 있는지를 보여줄 것”이라며 “주력 스마트폰과 대화면 디바이스를 노린 프로세서”라고 설명했다. 보다 커진 칩 크기와 전력소비를 고려하면 모든 디바이스에 탑재할 수는 없다는 것이다.

ARM은 X1의 경우 기존 A77보다 성능이 30% 향상될 것으로 예상하고 있다. 정수 크런칭에서 함께 공개한 A78에 비해 23%의 인상적인 성능을 발휘한다. 이는 까다로운 워크로드에서 확실한 효과를 보일 것이다.

X1은 또한 이 두 A시리즈 프로세서보다 2배의 머신러닝(ML) 능력을 보인다. 더 넓은 표면적이 필요하기에 크기를 키웠다는 게 ARM의 설명이다.

업계 관계자들은 스마트폰용 AP를 구성할 때 4개의 X1 코어로 설계는 하지 않을 것으로 본다. 단일 X1에 3개의 A78 등으로 구성하는 것이 훨씬 효율이 좋다는 것이다.

X1에는 A77이나 A78보다 많은 캐시메모리가 있다. L2 캐시는 최대 1MB까지 가변적이며 대역폭을 두 배로 해 성능 이점을 극대화한다. 공유 L3 캐시는 이전 세대의 두 배인 8MB에 도달 할 수 있다. 

 

8MB 구성을 허용하는 특정 DSU(Dynamic Shared Unit)가 포함돼 4코어에서 함께 사용하는 A78과 해당 메모리를 공유할 수 있다는 것이다.

로버트 트릭스는 "이렇게 더 큰 캐시는 더 강력한 실행 코어에 의해 보완된다"며 "SIMD 부동 소수점 명령어 처리는 4x-128비트의 대역폭으로 두배 증가한다. ML 성능을 2배 향상한다"고 말했다.

A78의 성능 상승 대부분은 5나노 공정개선으로 이뤄진 것이다. A시리즈 세대에서 성능 향상을 가장 적게 이뤄지면서 전력효율성과 최적화가 핵심이 된 셈이다. 이는 추후 X1과 함께 사용하는 통합 SoC에서 큰 효과를 보일 것으로 기대된다.

 

[저작권자ⓒ IT비즈뉴스. 무단전재-재배포 금지]

  • 글자크기
  • +
  • -
  • 인쇄
뉴스댓글 >

주요기사

+

많이 본 기사

마켓인사이트

+

컴퓨팅인사이트

+

스마트카

+

PHOTO NEWS