AMD Radeon 8065S Graphics

AMD Radeon 8065S Graphics
AMD Radeon 8065S Graphics 그래픽 카드 리뷰

AMD Radeon 8065S Graphics: 로컬 AI를 위한 고급 iGPU Ryzen AI Max PRO

AMD Radeon 8065S Graphics는 Ryzen AI Max PRO 400 플랫폼을 위한 고급 내장 그래픽입니다. 하지만 GPU 자체는 Radeon 8060S에 비해 큰 도약은 아닙니다. 그래픽 블록은 여전히 비슷하며, RDNA 3.5 아키텍처에서 40 CU를 유지하고 있지만, 클럭 주파수는 3000 MHz로 증가했습니다. 주요 차이는 이 추가 100 MHz가 아니라, 그 주위의 플랫폼에 있습니다.

Radeon 8065S는 Ryzen AI Max+ PRO 495에서 등장하며, 로컬 AI, 컴팩트 워크스테이션 및 전문 시스템을 위한 AMD APU의 업데이트된 버전입니다. AMD는 여전히 게임에서 AI로의 초점을 더 강하게 이동하고 있습니다: 최대 192GB의 통합 메모리, 최대 160GB의 총 메모리는 GPU 메모리로 사용될 수 있으며, NPU는 최대 55 TOPS를 제공하고, 플랫폼의 전체 AI 한계는 131 TOPS에 달합니다.

이제 이것은 단순한 게임 이야기가 아닙니다. Radeon 8065S는 AMD가 로컬 AI에서 자리를 확장하려는 플랫폼의 일환으로 중요합니다: 컴팩트한 장치에 큰 총 메모리 풀, 강력한 CPU, 대형 RDNA 그래픽 및 별도의 개별 GPU 없이 NPU를 제공합니다.

Radeon 8065S의 중요성

Radeon 8065S는 개별 GPU처럼 GDDR6 메모리가 없습니다. 그것은 플랫폼 전체의 총 메모리로 작동합니다. 일반적인 게임용 GPU에게는 이것이 제약으로 보일 수 있지만, 로컬 AI에서는 상황이 더 복잡합니다: 그곳에서는 속도뿐만 아니라 사용 가능한 메모리의 양이 종종 결정적입니다.

모델이나 컨텍스트가 사용 가능한 비디오 메모리에 맞지 않을 경우, 높은 GPU 속도는 더 이상 도움이 되지 않습니다: 작업이 제대로 실행되지 않거나 큰 타협이 필요할 수 있습니다. Ryzen AI Max PRO 400은 바로 이 간극을 메우려고 합니다. 플랫폼은 고객 장치에 LLM, 이미지 생성, 긴 컨텍스트 및 여러 AI 작업을 동시에 위한 큰 로컬 메모리 풀을 제공합니다.

AMD는 4비트 양자화를 통해 3000억 개 이상의 매개변수 모델의 로컬 실행 가능성을 주장합니다. 이는 해당 컴퓨터가 전문 가속기를 갖춘 서버를 대체한다는 의미는 아닙니다. 그러나 노트북, 미니 PC 또는 컴팩트한 워크스테이션에 대해 이는 심각한 주장입니다: 대형 모델을 이론적으로 논의하는 것뿐만 아니라 적절한 소프트웨어 스택으로 실제로 로컬에서 실행할 수 있습니다.

8065S 대 8060S: 플랫폼의 주요 차이점

Radeon 8065S는 Radeon 8060S의 가까운 친척입니다. CU 수는 동일하게 유지되며, 아키텍처는 동일하고 클럭 주파수의 증가폭은 작습니다. 따라서 8060S에서 8065S로의 전환은 큰 FPS 증가를 보장하지 않습니다.

매개변수 Radeon 8060S Radeon 8065S
아키텍처 RDNA 3.5 RDNA 3.5
그래픽 블록 40 CU 40 CU
GPU 클럭 주파수 최대 2900 MHz 최대 3000 MHz
플랫폼 Ryzen AI Max 300 Ryzen AI Max PRO 400
최대 통합 메모리 최대 128 GB 최대 192 GB
GPU에 사용 가능한 메모리 최대 112 GB 최대 160 GB

클럭 주파수만 비교하면 플랫폼 메모리 한도라는 주요 차이를 놓치게 됩니다. 게임에서 8060S와 8065S 간의 차이는 아마도 미미할 것입니다. 로컬 AI에서는 통합 메모리가 128GB에서 192GB로 증가하는 것이 GPU 클럭 주파수의 작은 증가보다 더 중요합니다.

예상 게임 성능

현재 Radeon 8065S에 대한 독립적인 데이터는 많지 않으므로, 게임 성능은 Radeon 8060S와의 작은 클럭 차이를 통해 합리적으로 평가하는 것이 좋습니다. 구성상 이들은 매우 유사한 GPU입니다: 8065S는 동일한 넓은 40-CU 블록을 가지고 있지만, 클럭 주파수가 약간 더 높습니다. 따라서 8060S에 비해 게임 성능 상승은 아마도 미미할 것입니다: 100 MHz의 증가는 이 그래픽을 새로운 클래스로 변환시키지는 않습니다.

실용적인 시나리오는 다음과 같습니다:

  • 1080p - 주요 모드, 종종 중간 또는 높은 설정으로;
  • 1440p - 적은 부하의 게임에서 또는 FSR과 함께 가능;
  • 4K - 주로 구형 및 가벼운 프로젝트용;
  • 레이 트레이싱 - 지원되지만 이 iGPU의 강점은 아닙니다.

Radeon 8065S를 모바일 RTX의 직접적인 대체물로 제시해서는 안 됩니다. 이는 통합 메모리를 사용하는 내장 그래픽이며, 그 결과는 전력 한도, 냉각 및 특정 장치에 따라 달라질 것입니다. 게임에서 Radeon 8065S는 여전히 비정상적으로 강력한 iGPU로 유지되고, AI에서는 주요 이점이 클럭 속도보다 대량의 총 메모리 접근성에 있습니다.

AI: Ryzen AI Max PRO 400의 주요 시나리오

Ryzen AI Max PRO 400은 일반적인 게임 플랫폼 역할보다 로컬 AI에 더 강하게 초점을 맞추고 있습니다. CPU, GPU, NPU 및 통합 메모리는 개별 메모리 풀을 가진 별도 구성 요소가 아니라 단일 APU 플랫폼의 일부로 작동합니다.

Radeon 8065S는 다음과 같은 작업에 대한 관심을 끌 수 있습니다:

  • 8-12 GB VRAM에 맞지 않는 모델에 대한 로컬 LLM 실행;
  • AI 파이프라인의 추론 및 테스트;
  • 긴 컨텍스트 처리;
  • 이미지 생성 및 확산 모델;
  • 로컬 AI 에이전트 및 자동화된 시나리오;
  • PyTorch/ROCm, ONNX, Ollama, llama.cpp, Amuse 및 기타 도구 - 특정 구성의 지원에 따라.

대형 모델을 처음부터 훈련하는 것은 서버 가속기를 위한 작업으로 남아 있습니다. 그러나 실행, 테스트, 로컬 개발, 소규모 재학습 및 일반 모바일 GPU에 맞지 않는 모델 작업 등에서 Ryzen AI Max+ PRO 495와 Radeon 8065S는 특히 흥미롭게 보입니다.

ROCm, PyTorch 및 제한사항

이 플랫폼의 강점은 CUDA와의 호환성이 아니라 대량의 통합 메모리 풀 및 AMD 스택에서 지원되는 시나리오에 있습니다. 그러나 여기에 과도한 기대를 품지 않는 것이 중요합니다. AMD는 여전히 AI 생태계에서 NVIDIA를 따라잡고 있으며, 호환성은 특정 운영 체제, ROCm 버전, PyTorch, 모델 및 도구에 따라 확인해야 합니다.

하나의 시나리오에서 Radeon 8065S는 가속기로 잘 작동할 수 있지만, 다른 시나리오에서는 프로그램이 이를 GPU로 사용하지 않거나 우회 경로를 요구할 수 있습니다. 따라서 8065S는 모든 소프트웨어를 위한 범용 AI 가속기로 설명하기보다는, 대량의 사용 가능한 메모리가 주요 강점인 로컬 AI를 위한 새로운 AMD 플랫폼의 일부로 설명하는 것이 좋습니다.

CUDA에 의존하는 소프트웨어는 Radeon의 목표가 아닙니다. 프로그램이 CUDA를 요구한다면 NVIDIA GPU가 필요합니다. Radeon 8065S는 다른 의미를 갖습니다: AMD 스택에서 지원되는 도구를 통한 로컬 모델 실행 및 메모리가 CUDA와의 호환성을 초월하여 더 중요한 작업을 처리하는 데 활용됩니다.

Radeon 8065S의 위치

현재 Radeon 8065S는 Radeon 8000S 계열에서 상위 모델로 보입니다. 그 아래에는 Radeon 8060S, Radeon 8050S 및 Radeon 8040S가 있습니다. 8065S와 8060S 사이에는 그래픽 블록에서의 작은 차이에도 불구하고 플랫폼 맥락에서의 눈에 띄는 차이가 있습니다.

Radeon 8060S는 Ryzen AI Max 300을 위한 고급 iGPU로 자리 잡았습니다. Radeon 8065S는 Ryzen AI Max PRO 400의 업데이트된 최고 모델이 되었습니다. 게임 성능에서는 거의 동일한 클래스에 해당하지만, AI에서는 8065S가 특히 Ryzen AI Max+ PRO 495와 그 확장된 메모리 한도로 인해 이점을 가집니다.

주요 단점 - 가격 및 틈새

Radeon 8065S는 별도로 구매할 수 없습니다. 이는 고급 전문 플랫폼인 Ryzen AI Max+ PRO 495의 일부입니다. 따라서 그 가치는 "8065S Graphics"라는 이름보다는 전체 장치의 가격과 사용자에게 로컬 AI 시나리오가 필요한지에 따라 다릅니다.

단순히 게임용 노트북이 필요하다면, RTX 4060 또는 RTX 4070이 장착된 모델이 더 합리적인 선택일 수 있습니다: 별도의 비디오 메모리, DLSS, 익숙한 게임 생태계 및 CUDA를 지원하는 소프트웨어. 그러나 방대한 통합 메모리, 강력한 CPU, 내장 그래픽 및 대형 모델을 로컬에서 실행할 수 있는 컴팩트한 워크스테이션이 필요하다면, Radeon 8065S는 훨씬 더 흥미로운 선택이 됩니다.

이는 일반 게임 노트북을 위한 대중적인 솔루션이 아닙니다. 이는 로컬 AI, 워크스테이션 및 컴팩트 시스템을 위한 AMD의 틈새 플랫폼의 고급 iGPU로, 큰 메모리가 그래픽 성능만큼 중요합니다.

결론

AMD Radeon 8065S Graphics는 Radeon 8060S에 비해 순수한 GPU 측면에서 혁신적이지 않습니다. 이는 동일한 아이디어의 더 신선하고 확장된 버전입니다: 대형 APU 플랫폼 내부의 40-CU RDNA 3.5 그래픽으로, 로컬 AI와 통합 메모리에 중점을 둡니다.

게임에 있어 Radeon 8065S는 매우 강력한 내장 그래픽으로 남지만, 개별 GPU를 대체하지 않습니다. AI 측면에서 더욱 흥미롭습니다: 이는 AMD가 소프트웨어 생태계에서 NVIDIA와 동등해졌기 때문이 아니라, Ryzen AI Max+ PRO 495가 모바일 시스템에서 쉽게 접할 수 없는 최대 192GB의 통합 메모리를 제공하기 때문입니다.

Radeon 8065S가 중요한 이유는 게임 성능에서 8060S보다 눈에 띄게 더 빠르기 때문이 아니라, Ryzen AI Max의 새로운 의미를 확립하기 때문입니다: 이는 더 이상 단순히 강력한 APU가 아니라, 로컬 모델을 위한 메모리가 주요 인자가 되는 클라이언트 AI 플랫폼입니다.

기초적인

라벨 이름
AMD
플랫폼
Integrated
출시일
May 2026
모델명
AMD Radeon 8065S Graphics
세대
Radeon 8000S
부스트 클럭
3000 MHz
버스 인터페이스
Integrated
레이 트레이싱 코어
40
컴퓨트 유닛
40
텐서 코어
?
Tensor Cores는 딥러닝을 위해 특별히 설계된 특수 처리 유닛으로, FP32 훈련과 비교하여 더 높은 훈련 및 추론 성능을 제공합니다. 이들은 컴퓨터 비전, 자연어 처리, 음성 인식, 텍스트 음성 변환 및 맞춤형 추천과 같은 영역에서 빠른 계산을 가능하게 합니다. Tensor Cores의 가장 주목할 만한 응용 분야는 DLSS (Deep Learning Super Sampling)와 잡음 감소를 위한 AI Denoiser입니다.
No
텍스처 매핑 유닛
?
텍스처 매핑 유닛(TMU)은 GPU의 구성 요소로서, 이진 이미지를 회전, 스케일링 및 왜곡하여 주어진 3D 모델의 임의의 평면에 텍스처로 배치할 수 있는 기능을 제공합니다. 이 과정을 텍스처 매핑이라고 합니다.
160
파운드리
TSMC
제조 공정 크기
4 nm
아키텍처
RDNA 3.5

메모리 사양

메모리 크기
System Shared
메모리 타입
System Shared LPDDR5x
메모리 버스
?
메모리 버스 너비는 비디오 메모리가 한 클럭 주기 내에 전송할 수 있는 데이터의 비트 수를 의미합니다. 버스 너비가 크면 한 번에 전송되는 데이터 양이 많아지므로, 비디오 메모리의 중요한 매개 변수 중 하나입니다. 메모리 대역폭은 다음과 같이 계산됩니다: 메모리 대역폭 = 메모리 주파수 x 메모리 버스 너비 / 8. 따라서 메모리 주파수가 비슷한 경우, 메모리 버스 너비가 메모리 대역폭의 크기를 결정합니다.
256-bit
메모리 클럭
LPDDR5x-8533
대역폭
?
메모리 대역폭은 그래픽 칩과 비디오 메모리 간의 데이터 전송 속도를 의미합니다. 이는 초당 바이트로 측정되며, 계산하는 공식은 다음과 같습니다: 메모리 대역폭 = 작동 주파수 × 메모리 버스 너비 / 8 비트입니다.
273 GB/s

이론적 성능

픽셀 속도
?
픽셀 필률은 그래픽 처리 장치(GPU)가 초당 렌더링할 수 있는 픽셀 수를 나타내는 지표로, MPixels/s(백만 픽셀/초) 또는 GPixels/s(십억 픽셀/초) 단위로 측정됩니다. 그래픽 카드의 픽셀 처리 성능을 평가하는 가장 일반적으로 사용되는 측정 항목입니다.
192 GPixel/s
텍스처 속도
?
"Texture fill rate"은 GPU가 1초에 픽셀에 매핑할 수 있는 텍스처 맵 요소 (텍셀)의 수를 나타냅니다. "텍스처 채움 속도"는 GPU가 1초에 단일 픽셀에 매핑할 수 있는 텍스처 맵 요소 (텍셀)의 수를 의미합니다.
480 GTexel/s
FP16 (반 정밀도)
?
GPU 성능을 측정하는 중요한 지표 중 하나는 부동 소수점 연산 능력입니다. 반 정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다. 단 정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되며, 이중 정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학적 계산에 필요합니다.
30.72 TFLOPS
FP64 (배 정밀도)
?
GPU 성능을 측정하는 중요한 지표 중 하나는 부동 소수점 연산 능력입니다. 반 정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다. 단 정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되며, 이중 정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학적 계산에 필요합니다.
480 GFLOPS
FP32 (float)
?
GPU 성능을 측정하는 중요한 지표는 부동 소수점 컴퓨팅 기능입니다. 단정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되는 반면, 배정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학 컴퓨팅에 필요합니다. 반정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다.
15.36 TFLOPS

여러 가지 잡다한

새딩 유닛
?
가장 기본적인 처리 단위는 스트리밍 프로세서(SP)이며, 여기서 특정 명령과 작업이 실행됩니다. GPU는 병렬 컴퓨팅을 수행하며, 즉 여러 개의 SP가 동시에 작업을 처리하는 것을 의미합니다. "가장 기본적인 처리 단위는 스트리밍 프로세서(SP)이며, 여기서 특정 명령과 작업이 실행됩니다. GPU는 병렬 컴퓨팅을 수행하며, 다수의 SP가 동시에 작업을 처리합니다."
2560
OpenCL 버전
2.1
OpenGL
4.6
DirectX
12
CUDA
No
전원 연결자
None
쉐이더 모델
6.8
렌더 출력 파이프라인
?
래스터 작업 파이프라인(ROPs)은 게임에서 조명 및 반사 계산을 처리하고 안티 앨리어싱(AA), 고해상도, 연기, 불 등과 같은 효과를 관리하는 것이 주된 역할입니다. 게임에서 안티 앨리어싱과 조명 효과가 더욱 요구되는 경우 ROPs의 성능 요구 사항이 더 높아질 수 있으며, 그렇지 않은 경우 프레임 속도가 급격히 감소할 수 있습니다.
64

벤치마크

FP32 (float)
점수
15.36 TFLOPS

다른 GPU와 비교

FP32 (float) / TFLOPS