AMD Radeon 8060S Graphics

AMD Radeon 8060S Graphics
AMD Radeon 8060S Graphics 그래픽 카드 리뷰

AMD Radeon 8060S Graphics: AMD AI 플랫폼을 위한 통합 그래픽

AMD Radeon 8060S Graphics는 단순한 게임용 강력한 통합 그래픽이 아닙니다. 이는 AMD가 로컬 AI 컴퓨터 분야에 진출하기 위해 사용하는 Ryzen AI Max 플랫폼의 그래픽 부분으로 보는 것이 더 정확합니다.

AI 분야에서 AMD는 여전히 추격자의 입장입니다. NVIDIA는 CUDA, 성숙한 프레임워크 생태계 및 전문 소프트웨어에서의 광범위한 지원을 보유하고 있습니다. Ryzen AI Max는 이러한 이점을 무효화하지 않으며 Radeon 8060S를 RTX의 보편적인 대안으로 만들지 않습니다. AMD의 전략은 다릅니다: 대규모의 통합 메모리 풀, 강력한 RDNA 그래픽, 강력한 CPU 및 NPU를 하나의 케이스에 집약합니다.

그래서 Radeon 8060S는 단순히 FPS로 평가할 수 없습니다. 게임에서는 실제로 통합 그래픽으로서는 상당히 강력하게 보이지만, Ryzen AI Max의 주요 의미는 로컬 AI입니다. 이러한 장치에서 대규모 모델을 처음부터 학습시키는 것은 불가능하지만, 로컬에서 실행하고, 추론을 사용하며, 파이프라인을 테스트하고, 이미지 생성 작업을 수행하며, 메모리가 충분하고 필요한 스택이 지원되는 경우 소규모 재학습을 시도할 수 있습니다.

Radeon 8060S가 Ryzen AI Max에 중요한 이유

일반적인 통합 그래픽은 계산 블록의 수뿐만 아니라 메모리의 한계에도 직면합니다. 강력한 iGPU라도 빠르게 대역폭 및 사용 가능한 용량의 제한에 직면할 수 있습니다. 하지만 Ryzen AI Max는 다릅니다: Radeon 8060S는 별도의 VRAM이 아닌 전체 플랫폼의 통합 메모리와 함께 작동합니다.

이는 자동으로 디스크리트 그래픽 카드보다 빠르다는 의미는 아닙니다. 대신, 이러한 그래픽이 의미를 갖는 작업의 수준을 변화시킵니다. 게임에는 FPS가 중요하지만, AI의 경우 종종 메모리 용량이 결정적인 역할을 합니다. 모델이나 큰 컨텍스트가 8GB VRAM에 들어가지 않으면, 계산 성능만으로는 상황을 해결할 수 없습니다. Ryzen AI Max는 큰 모델과 AI 부하를 실행할 수 있는 큰 통합 메모리 풀을 고객 장치에 제공하려고 합니다.

Ryzen AI Max+ 395에서는 Radeon 8060S가 40 개의 그래픽 코어를 가지고 있으며, 최대 2900MHz의 주파수와 256비트 LPDDR5x-8000 메모리를 제공하고 최대 128GB의 통합 메모리 구성을 지원합니다. AMD는 또한 NPU를 포함하여 최대 126 TOPS의 AI 성능을 명시하고 있습니다. 통합 그래픽으로서는 매우 다른 규모입니다.

Radeon 8060S는 단순히 "잔여 통합"이 아니라 전체 플랫폼 존재의 이유 중 하나입니다. AMD는 CUDA 소프트웨어에서 NVIDIA를 직접 이기려 하지 않습니다. 대신, 필수적인 그래픽 성능만큼이나 큰 통합 메모리가 중요한 노트북, 미니 PC 또는 워크스테이션 형식의 컴팩트한 AI 머신을 제안합니다.

Radeon 8060S의 라인업 위치

Radeon 8060S는 Ryzen AI Max 300의 상위 칩에서 사용되며, include Ryzen AI Max+ 395, Ryzen AI Max+ PRO 395, Ryzen AI Max+ 392 및 Ryzen AI Max+ 388이 포함됩니다. 이는 Strix Halo 300의 전체 그래픽 변형입니다.

하위에는 Radeon 8050S 및 Radeon 8040S가 있습니다. Radeon 8050S는 그래픽 부분이 상당히 축소되어 있으며, Radeon 8040S는 더 하위 모델입니다. 이들 사이의 차이는 단순한 외관적 차이가 아니라 동일한 플랫폼 아이디어 내에서 다른 수준의 iGPU입니다.

Radeon 8065S가 등장하면서 8060S의 지위는 더욱 정확하게 설명되어야 합니다. Radeon 8060S는 Ryzen AI Max 300의 상위 그래픽이지만, 전체 AMD 라인업에서 절대적 최고는 아닙니다. Ryzen AI Max PRO 400에서 Radeon 8065S는 동일한 넓은 그래픽 블록을 사용하지만, 더 높은 주파수와 증가된 통합 메모리 한계를 가진 더 최신 플랫폼을 제공합니다.

벤치마크: 더 이상 일반 iGPU가 아니다

합성 테스트에서 Radeon 8060S는 전형적인 통합 그래픽이 아니라 중급 모바일 디스크리트 GPU와 경쟁하는 모습입니다. Notebookcheck 기준으로 볼 때, 테스트 및 특정 장치에 따라 GeForce RTX 4060 Laptop과 RTX 4070 Laptop 사이에 있습니다.

테스트 Radeon 8060S RTX 4060 Laptop RTX 4070 Laptop
3DMark Time Spy ~10842 ~10250 ~11732
3DMark Time Spy Graphics ~10946 ~9943 ~11609

이 숫자는 지침으로서 중요하지만, 모든 노트북에서 RTX 4070 수준의 약속으로 읽어서는 안 됩니다. Radeon 8060S는 통합 메모리를 가진 통합 그래픽으로 남아 있습니다. 그 성능은 전력 한계, 냉각, 케이스 및 제조업체 설정에 따라 달라집니다. 잘 냉각된 장치에서 Radeon 8060S는 모바일 RTX 4060과 비슷한 성능을 보일 수 있지만, 컴팩트한 케이스에서는 그 결과가 낮을 것입니다.

게임의 실질적인 수준은 이해하기 쉽습니다: 1080p가 기본 모드이며 종종 중간 또는 높은 설정으로 진행됩니다. 1440p는 덜 비싼 게임이나 FSR이 적용된 경우 가능합니다. 4K 및 무거운 레이 트레이싱은 이 그래픽의 영역이 아닙니다. Radeon 8060S의 강점은 디스크리트 그래픽 카드를 대체하는 것이 아니라 통합 그래픽이 이제 비싼 APU 플랫폼에서 진지한 논거가 되는 것입니다.

AI: 플랫폼의 주된 의미

Ryzen AI Max의 가장 중요한 부분은 로컬 AI 작업입니다. AMD는 Ryzen AI Max+ 395를 바로 생성적 AI 플랫폼으로 홍보합니다: 대규모 통합 메모리, Radeon 8060S, LLM 실행 및 장치에서의 이미지 생성과 함께.

AMD 자료에서는 Stable Diffusion 3.5 Large, Phi-4 14B, DeepSeek-R1-Distill-Llama-70B, ONNX-GenAI, Ollama 및 Amuse가 언급됩니다. 또한 128GB의 통합 메모리와 GPU에서 사용 가능한 최대 112GB의 메모리가 명시되어 있습니다. 이는 단순히 마케팅의 "AI" 문구가 아닙니다: 대규모 통합 메모리 풀은 실제로 고객 장치에서 어떤 모델을 실행할 수 있는지를 변화시킵니다.

그와 동시에, Radeon 8060S에 대한 과도한 기대는 금물입니다. 이는 대규모 모델을 처음부터 학습하는 가속기도 아니며, 서버 GPU의 대체품도 아닙니다. 플랫폼의 목적인 대규모 모델을 로컬에서 실행하고, 추론하며, 로컬 보조 도구, 이미지 생성, 파이프라인 테스트, 재학습 또는 재조정하는 데 메모리가 충분하고 ROCm, PyTorch 또는 다른 백엔드가 이미 필요한 구성을 지원하는 곳입니다.

로컬 AI의 경우, 이러한 접근 방식은 일반 디스크리트 그래픽 카드의 작은 VRAM 용량보다 더 중요할 수 있습니다. 지원되는 작업에서는 RTX가 더 빠를 가능성이 높지만, 모델이 메모리에 들어가지 않으면 속도가 문제가 되지 않습니다. Ryzen AI Max는 예전에는 별도의 워크스테이션을 요구했던 것을 클라이언트 형식으로 가져오려 하고 있습니다: 대규모 모델과 AI 부하를 위한 대규모 로컬 메모리 풀입니다.

ROCm, PyTorch 및 제한 사항

여기서 AMD는 중요한 장점을 가지고 있습니다: Ryzen AI Max를 위한 ROCm이 Promise를 넘어 서서 점차 현실이 되어가고 있다는 것입니다. 공식 ROCm 7.2.1 매트릭스에는 gfx1151 및 Ryzen AI Max+ 395가 명시되어 있으며, PyTorch 2.9.1 + ROCm 7.2.1에 공식 생산 지원 구성이 선언되었습니다. 이 경우 공식적으로 검증된 것은 FP16뿐이며, 다른 데이터 타입은 작동할 수 있지만 보장되지는 않습니다.

이는 중요한 제한입니다. 한 시나리오에서는 모델이 ROCm이나 PyTorch를 통해 Radeon 8060S를 정상적으로 사용할 수 있지만, 다른 경우에는 도구가 우회 경로를 요구하거나 CPU를 통해서만 작동하거나 iGPU를 적합한 가속기로 전혀 인식하지 못할 수 있습니다. 따라서 호환성은 특정 운영 체제, ROCm 버전, PyTorch, 모델 및 계산 유형에 따라 확인해야 합니다.

Radeon 8060S는 모든 소프트웨어에 대한 범용 AI 가속기로 강력한 것이 아니라, AMD가 통합 메모리, ROCm, ONNX, DirectML, Ollama, Amuse 및 로컬 모델에 집중하는 플랫폼의 일부로서 강력합니다. 하드웨어는 매우 흥미롭지만, 소프트웨어 스택은 여전히 따라잡는 중입니다.

Radeon 8065S와의 차이점

Radeon 8065S는 Radeon 8060S의 가치를 떨어뜨리지는 않지만, 그 포지셔닝을 이동시킵니다. 8060S는 여전히 Ryzen AI Max 300의 상위 그래픽으로 남아있지만, 8065S는 Ryzen AI Max PRO 400을 위한 더 최신 옵션이 됩니다.

주요 차이점은 GPU의 개념이 아닌 플랫폼에 있습니다. Ryzen AI Max+ PRO 495에서는 Radeon 8065S Graphics, 40 개의 그래픽 코어, 최대 3000MHz 주파수, LPDDR5x-8533 및 최대 192GB의 메모리가 명시되어 있습니다. 게임에서 이는 극적인 차이를 만들지 않을 것이지만, 로컬 AI의 경우 추가 메모리는 약간의 주파수 증가보다 더 중요합니다.

따라서 Radeon 8060S는 8065S가 등장하면서 약해지지 않았습니다. 이제 그 위치가 명확해졌습니다: 이는 Ryzen AI Max의 첫 번째 물결에서 강력한 iGPU이며, 전체 새로운 라인의 정점이 아닙니다.

주요 단점 - 가격 및 전문성

Radeon 8060S는 별도로 구매할 수 없습니다. 이는 비싼 Ryzen AI Max 플랫폼의 일부이기 때문에 그 가치는 언제나 전체 장치의 가격에 의존합니다.

단순한 게이밍 노트북이 필요하다면, 디스크리트 RTX 4060 또는 RTX 4070 모델이 이해하기 더 쉬울 수 있습니다: 독립된 비디오 메모리, DLSS, 보다 익숙한 게임 및 전문 스택이 있습니다. 그러나 강력한 CPU, 대용량의 통합 메모리 및 로컬 AI 모델을 실행할 수 있는 능력이 있는 컴팩트한 컴퓨터가 필요하다면, Ryzen AI Max는 훨씬 더 흥미롭게 보이기 시작합니다.

이는 모두를 위한 대중적인 플랫폼이 아닙니다. CUDA 생태계를 통해서가 아니라 대규모 통합 메모리 풀과 CPU, GPU, NPU 통합을 통해 로컬 AI 분야에 진출하려는 AMD의 비싸고 니치한 시도입니다. CUDA는 여전히 NVIDIA의 플랫폼으로 남아 있으므로, CUDA에 의존하는 소프트웨어는 Radeon 8060S의 목표 시나리오가 아닙니다.

결론

AMD Radeon 8060S Graphics는 AMD가 Ryzen AI Max를 왜 개발했는지를 보여줍니다: 단순한 게임용 iGPU가 아니라, 대규모 모델을 로컬에서 실행하고, 이미지 생성, ONNX, Ollama, ROCm 및 PyTorch 시나리오를 별도의 그래픽 카드 없이 처리할 수 있는 클라이언트 AI 플랫폼을 위해서입니다.

Radeon 8060S는 모든 작업에서 디스크리트 GPU를 대체하는 것이 아니며, 노트북을 대규모 모델 학습을 위한 서버로 만드는 것도 아닙니다. 그러나 이것은 Ryzen AI Max를 최근 몇 년간 가장 독특한 APU 플랫폼 중 하나로 만들어 줍니다: 대규모 통합 메모리가 그래픽 성능만큼이나 중요한 주장으로 작용하는 컴팩트한 시스템입니다.

기초적인

라벨 이름
AMD
플랫폼
Integrated
출시일
January 2025
모델명
AMD Radeon 8060S Graphics
세대
Radeon 8000S
부스트 클럭
2900 MHz
버스 인터페이스
Integrated
레이 트레이싱 코어
40
컴퓨트 유닛
40
텐서 코어
?
Tensor Cores는 딥러닝을 위해 특별히 설계된 특수 처리 유닛으로, FP32 훈련과 비교하여 더 높은 훈련 및 추론 성능을 제공합니다. 이들은 컴퓨터 비전, 자연어 처리, 음성 인식, 텍스트 음성 변환 및 맞춤형 추천과 같은 영역에서 빠른 계산을 가능하게 합니다. Tensor Cores의 가장 주목할 만한 응용 분야는 DLSS (Deep Learning Super Sampling)와 잡음 감소를 위한 AI Denoiser입니다.
No
텍스처 매핑 유닛
?
텍스처 매핑 유닛(TMU)은 GPU의 구성 요소로서, 이진 이미지를 회전, 스케일링 및 왜곡하여 주어진 3D 모델의 임의의 평면에 텍스처로 배치할 수 있는 기능을 제공합니다. 이 과정을 텍스처 매핑이라고 합니다.
160
파운드리
TSMC
제조 공정 크기
4 nm
아키텍처
RDNA 3.5

메모리 사양

메모리 크기
System Shared
메모리 타입
System Shared LPDDR5x
메모리 버스
?
메모리 버스 너비는 비디오 메모리가 한 클럭 주기 내에 전송할 수 있는 데이터의 비트 수를 의미합니다. 버스 너비가 크면 한 번에 전송되는 데이터 양이 많아지므로, 비디오 메모리의 중요한 매개 변수 중 하나입니다. 메모리 대역폭은 다음과 같이 계산됩니다: 메모리 대역폭 = 메모리 주파수 x 메모리 버스 너비 / 8. 따라서 메모리 주파수가 비슷한 경우, 메모리 버스 너비가 메모리 대역폭의 크기를 결정합니다.
256-bit
메모리 클럭
LPDDR5x-8000
대역폭
?
메모리 대역폭은 그래픽 칩과 비디오 메모리 간의 데이터 전송 속도를 의미합니다. 이는 초당 바이트로 측정되며, 계산하는 공식은 다음과 같습니다: 메모리 대역폭 = 작동 주파수 × 메모리 버스 너비 / 8 비트입니다.
256 GB/s

이론적 성능

픽셀 속도
?
픽셀 필률은 그래픽 처리 장치(GPU)가 초당 렌더링할 수 있는 픽셀 수를 나타내는 지표로, MPixels/s(백만 픽셀/초) 또는 GPixels/s(십억 픽셀/초) 단위로 측정됩니다. 그래픽 카드의 픽셀 처리 성능을 평가하는 가장 일반적으로 사용되는 측정 항목입니다.
186 GPixel/s
텍스처 속도
?
"Texture fill rate"은 GPU가 1초에 픽셀에 매핑할 수 있는 텍스처 맵 요소 (텍셀)의 수를 나타냅니다. "텍스처 채움 속도"는 GPU가 1초에 단일 픽셀에 매핑할 수 있는 텍스처 맵 요소 (텍셀)의 수를 의미합니다.
464 GTexel/s
FP16 (반 정밀도)
?
GPU 성능을 측정하는 중요한 지표 중 하나는 부동 소수점 연산 능력입니다. 반 정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다. 단 정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되며, 이중 정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학적 계산에 필요합니다.
29.7 TFLOPS
FP64 (배 정밀도)
?
GPU 성능을 측정하는 중요한 지표 중 하나는 부동 소수점 연산 능력입니다. 반 정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다. 단 정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되며, 이중 정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학적 계산에 필요합니다.
464 GFLOPS
FP32 (float)
?
GPU 성능을 측정하는 중요한 지표는 부동 소수점 컴퓨팅 기능입니다. 단정밀도 부동 소수점 숫자(32비트)는 일반적인 멀티미디어 및 그래픽 처리 작업에 사용되는 반면, 배정밀도 부동 소수점 숫자(64비트)는 넓은 숫자 범위와 높은 정확도를 요구하는 과학 컴퓨팅에 필요합니다. 반정밀도 부동 소수점 숫자(16비트)는 낮은 정밀도가 허용되는 기계 학습과 같은 응용 프로그램에 사용됩니다.
14.85 TFLOPS

여러 가지 잡다한

새딩 유닛
?
가장 기본적인 처리 단위는 스트리밍 프로세서(SP)이며, 여기서 특정 명령과 작업이 실행됩니다. GPU는 병렬 컴퓨팅을 수행하며, 즉 여러 개의 SP가 동시에 작업을 처리하는 것을 의미합니다. "가장 기본적인 처리 단위는 스트리밍 프로세서(SP)이며, 여기서 특정 명령과 작업이 실행됩니다. GPU는 병렬 컴퓨팅을 수행하며, 다수의 SP가 동시에 작업을 처리합니다."
2560
OpenCL 버전
2.1
OpenGL
4.6
DirectX
12
CUDA
No
전원 연결자
None
쉐이더 모델
6.8
렌더 출력 파이프라인
?
래스터 작업 파이프라인(ROPs)은 게임에서 조명 및 반사 계산을 처리하고 안티 앨리어싱(AA), 고해상도, 연기, 불 등과 같은 효과를 관리하는 것이 주된 역할입니다. 게임에서 안티 앨리어싱과 조명 효과가 더욱 요구되는 경우 ROPs의 성능 요구 사항이 더 높아질 수 있으며, 그렇지 않은 경우 프레임 속도가 급격히 감소할 수 있습니다.
64

벤치마크

쉐도우 오브 더 툼 레이더 2160p
점수
38 fps
쉐도우 오브 더 툼 레이더 1440p
점수
80 fps
쉐도우 오브 더 툼 레이더 1080p
점수
115 fps
사이버펑크 2077 2160p
점수
16 fps
사이버펑크 2077 1440p
점수
38 fps
사이버펑크 2077 1080p
점수
65 fps
FP32 (float)
점수
14.85 TFLOPS
3DMark Steel Nomad
점수
2038
3DMark 타임 스파이
점수
10010
Blender
점수
1335.18
Vulkan
점수
87196
OpenCL
점수
94271

다른 GPU와 비교

쉐도우 오브 더 툼 레이더 2160p / fps
73 +92.1%
45 +18.4%
26 -31.6%
쉐도우 오브 더 툼 레이더 1440p / fps
157 +96.3%
103 +28.8%
63 -21.3%
쉐도우 오브 더 툼 레이더 1080p / fps
214 +86.1%
163 +41.7%
94 -18.3%
70 -39.1%
사이버펑크 2077 2160p / fps
66 +312.5%
33 +106.3%
사이버펑크 2077 1440p / fps
74 +94.7%
42 +10.5%
11 -71.1%
사이버펑크 2077 1080p / fps
118 +81.5%
85 +30.8%
68 +4.6%
21 -67.7%
FP32 (float) / TFLOPS
15.983 +7.6%
15.562 +4.8%
14.413 -2.9%
3DMark 타임 스파이
19416 +94%
12617 +26%
5781 -42.2%
3DMark Steel Nomad
2093 +2.7%
2088 +2.5%
2003 -1.7%
Blender
2323 +74%
721.37 -46%
363.3 -72.8%
Vulkan
195059 +123.7%
120050 +37.7%
60353 -30.8%
34688 -60.2%
OpenCL
191319 +102.9%
134417 +42.6%
69319 -26.5%
48679 -48.4%