从基本规格来看,锐龙AIMAX+以及锐龙AIMAX系列采用Zen5架构设计,集成40个图形计算单元,集成50TOPS算力的XDNA2架构NPU,并且拥有全新的256GB/s超高带宽的内存接口。
性能方面,参考锐龙AIMAX+395与酷睿Ultra9288V的测试对比,前者在3D渲染性能方面平均比后者高出2.6倍;图形性能平均高出1.4倍。甚至在与苹果M4Pro的对比上,锐龙AIMAX+395的3D渲染性能也更加出色,尤其在Bler、Corona以及V-Ray测试中全面超越14核苹果M4Pro处理器。
这也使得基于其打造的Copilot+PC成为世界首款能够运行70B大语言模型的AIPC。而且对比RTX409024GB显卡时,它的AI性能是后者的2.2倍,但TDP比后者低87%,这样的AI性能与能效表现相当夸张。
全新的锐龙AIMAX+系列包含锐龙AIMAX+395核锐龙AIMAX+PRO395,均采用16核32线程设计,加速频率5.1GHz,总缓存高达80MB,峰值AI算力为50TOPS,cTDP为45-120W,集成40个图形核心。
锐龙AIMAX系列包含锐龙AIMAX390/PRO390、锐龙AIMAX385/PRO385以及锐龙AIMAXPRO380,具体参数如下图所示,这里就不再多做赘述了。
最近我们终于拿到了搭载AMD锐龙AIMax+395处理器的产品,一番测试下来,我们终于搞懂了它为何能够带来PPT中所讲的那些性能优势。
锐龙AIMax+395是锐龙AIMax+系列的顶配型号,原生16颗超大核心32线程设计,最高加速频率5.1GHz,总缓存高达80MB,NPU峰值AI算力为50TOPS,cTDP为45-120W,集成40个图形核心的Radeon8060SiGPU,并且支持高达128GB容量的LPDDR5x8000高速统一内存。下面咱们看看它的性能表现。
首先参考CINEBENCHR23和2024测试,锐龙AIMax+395处理器在R23测试标准下,单核得分1985,多核得分36648;2024标准下单核得分113,多核得分1752,整体性能表现非常出色,甚至可以探到移动端HX级别处理器的性能水准。因此锐龙AIMax+395并非“AI偏科生”,而是有着极其扎实的单核和多核性能实力。
通过AIDA64FPUCPU单烤机测试可见,这颗处理器的长时稳定功耗释放可以保持在103W附近,平均核心温度99.1℃,3分钟以内的短时功耗释放甚至可以达到120W。
锐龙AIMax+395之所以能够胜任70B大模型运行,很重要的一点是它采用了128GB统一内存,并且可以将一部分内存容量分配给Radeon8060SiGPU,而且最高可以分配96GB容量。这使得集成显卡也能通过超大显存顺利运行大参数量的大语言模型。
同时,统一内存的优势在于读写与拷贝速度更快,通过AIDA64内存性能测试可以看到,其读取速度高达119.34GB/s,写入速度高达210.1GB/s,拷贝速度高达153.49GB/s。
锐龙AIMax+395之所以能够胜任大参数量AI大模型的需求,很重要的原因在于它集成的Radeon8060SiGPU,这颗GPU在集成显卡中可以说是超模的存在。它拥有2560个流处理器,6GBLPDDR5显存,128GB/s显存带宽,核心频率高达2900MHz,显存频率1000MHz,比当前任何一款集成显卡的性能都要强很多。
参考3DMark各项测试可以看到,Radeon8060SiGPU在SpeedWayDX12性能方面得分达到了2025,远超其它集成显卡的性能。PortRoyal光追性能达到了5884分,基本达到了RTX4060独显的水平(5957分左右)。而TimeSpy以及FireStrike图形分也分别达到了11498和30713分,作为集成显卡,它的理论图形性能其实达到甚至超越了RTX4060独显的水平,着实让人感到惊艳。
锐龙AIMax+395除了在AI应用方面有优势之外,日常生产力、游戏等应用方面也完全不瘸腿。
7-Zip压缩与解压缩测试中,锐龙AIMax+395处理器得益于16颗超大核心32线程设计,压缩速度达到了150617KB/s,解压缩速度达到了2063057KB/s,总评分高达177.76GIPS,是目前移动级处理器中T0级别的性能水准。
渲染方面,V-RayBencmark1分钟采样率达到38813vsamples;CoronaBenchmark渲染速度达到了11248700Rays/sec,渲染用时仅43秒。
接下来再看看Radeon8060SiGPU相关的应用性能。
首先是V-RayBenchmark的加速测试,1分钟渲染速度达到了1812vpaths,在集成显卡中鹤立鸡群。
Blerbenchmark的表现同样出色,monster、junkshop、classroom三项渲染采样率分别达到560.23、199.86以及252.34samples/min,同样远超当前其它集成显卡的性能。
目前,搭载AMD锐龙AIMax+395处理器的产品主要是笔记本与迷你电脑,价格在13999元到20000多不等,对于大众用户这个价格不便宜,但是如果将它与动辄数万、数十万元的AI一体机来做对比的话,这款机器可以说是目前成本相当低的AI学习、开发、应用平台,对初步上手AI的人群来说非常适合。
了解AI的朋友都知道,显存和内存在AI应用中非常重要,Radeon8060S虽然图形性能极为出色,但其显存也不过就是6GB,应对AI大语言模型的应用需求有点捉襟见肘。不过通过AMD独特的统一内存技术,在AMD软件控制中心,我们可以将其128GB内存分配给集成显卡作显存,最高可以分配96GB,这样就可以承担起大参数量大语言模型的应用需求了。
在AI应用测试之前,我们先来看看锐龙AIMax+395处理器的CPU、GPU以及NPU三大AI计算单元的算力表现。参考ULProcyon的CPUInteger、GPUFloat16以及NPUInteger测试,三项评分分别为248、987以及1783分,相对此前的锐龙8040系列的处理器来说,锐龙AIMax+395处理器的CPUAI算力提升不算太大,但GPU和NPUAI算力提升幅度基本都超过了3倍!
理论性能了解之后,我们看看锐龙AIMax+395在实际AI应用中的表现。
首先通过ULProcyon测试了、Mistral7B、以及Llama213B四款经典大语言模型,生成速度分别达到了69.56tokens/s、44.87tokens/s、38.01tokens/s以及25.45tokens/s,速度非常快。另外值得一提的是,即便是RTX5060笔记本电脑GPU,因为其作为独立显卡也只有可怜的8GB显存,所以也无法正常运行参数量较大的Llama2大模型,而Radeon8060S不仅成功运行,且生成速度能够达到25.45tokens/s,日常应用完全没有问题。此时,锐龙AIMax+395平台的独特优势就彻底显现出来了。
接下来我们通过LMStudio进行了15B及以下小参数量大语言模型和22B及以上大参数量大语言模型的测试。
首先在各类小参数量稠密大模型测试中可以看到,锐龙AIMax+395表现非常出色,凭借内存分配带来的超大显存支持,即便是遇到BF16高精度的Mistral-small24B以及Gemma227B大模型,生成速度也分别达到了12.37tokens/s和11.62tokens/s,表现出色。而对于更高性能的DeepSeekR114B、Phi-415B,速度也能达到19.63tokens/s和12.24tokens/s;低精度的DeepSeekR17B生成速度更是达到了41.94tokens/s,而则达到了92.67tokens/s,可见在面对小参数量大模型时,锐龙AIMax+395无论是面对高精度模型还是低精度模型,都能提供足够快的生成速度。
在面对大参数量大语言模型时,其实首要解决的问题不是能不能使用大模型,而是能不能正常加载大模型。就比如RTX5060笔记本电脑GPU,虽然其性能比Radeon8060S要强,但如果大模型参数量较大,前者大概率也过不了加载这一关,更别提进一步应用了。
从下图可以看到,我们在加载Qwen3-235B-A22B-IQ2_S的MoE混合大模型时,内存峰值占用高达63.6GB,如果没有128GB超大内存支持的话,加载这一关就过不了。
在各类大参数量大语言模型测试中,Qwen3-235B-A22B-IQ2_SMoE模型生成速度达到了14.72tokens/s,表现出色;DeepSeekIQ2_M、DeepSeekR1DistillLlama70B大参数量稠密模型也能够正常运行,并且可以达到4.91tokens/s和5.31tokens/s的生成速度。而Q4量化版本的DeepSeekR1Qwen32B蒸馏模型以及QWQ32B大模型生成速度分别可以达到9.71tokens/s和9.79tokens/s的生成速度。
另外这里要说明的一点是,Qwen3-235B-A22B-IQ2_S这个模型虽然参数量达到了235B,但它并非是常见的稠密模型,而是MoE(Mixtureofexperts)混合专家模型。简单来说,MoE模型虽然总参数量很大,但以Qwen3-235B-A22B-IQ2_S模型为例,它虽然拥有235B总参数量,但运行时实际只会调用22B(模型中A22B标识就表示运行时只会调用22B参数量)的参数进行计算,因此对于硬件的压力要小很多。
也正是因为有着这种大参数、低算力特性,MoE模型或许会成为未来大模型发展的主流趋势。
反之,稠密模型每一次计算都会调用所有参数,这也就是为什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeekR132B、QWQ32B大模型要快的原因。
总体来说,锐龙AIMax+395是非常不错的AI计算平台,配合大内存并通过AMD统一内存技术分配给显存之后,常规的AI应用基本没有太大压力,完全可以作为个人或者小型工作室、小型企业用户的AI终端设备。尤其相比动辄数万、数十万元的AI一体机来说,它绝对是一个高性价比的解决方案。
AMD锐龙AIMax+395处理器,是锐龙AIMax+系列的顶配型号,原生16颗超大核心32线程设计,最高加速频率5.1GHz,总缓存高达80MB,NPU峰值AI算力为50TOPS,cTDP为45-120W,集成40个图形核心的Radeon8060SiGPU。
【CPU单核/多核性能】
参考CINEBENCHR23和2024测试,锐龙AIMax+395处理器在R23测试标准下,单核得分1985,多核得分36648;2024标准下单核得分113,多核得分1752,整体性能表现非常出色,甚至可以探到移动端HX级别处理器的性能水准。因此锐龙AIMax+395并非“AI偏科生”,而是有着极其扎实的单核和多核性能实力。
【CPU功耗释放】
得益于极摩客EVO-X2桌面AI超算中心较大体积带来的内部空间,AIDA64FPUCPU单烤机实测这颗处理器的长时稳定功耗释放可以保持在103W附近,平均核心温度99.1℃,3分钟以内的短时功耗释放甚至可以达到120W。
【内存读写性能】
锐龙AIMax+395在设计时针对AI应用角度的这种特性,大幅提升了内存带宽,所以AIDA64内存性能测试的结果极为出色。这款机器配备的双通道128GBLPDDR5x8000高速内存读取速度高达119.34GB/s,写入速度高达210.1GB/s,拷贝速度高达153.49GB/s,速度极快。
【硬盘读写性能】
存储方面,极摩客EVO-X2桌面AI超算中心一步到位配备了2TB容量的雷克沙固态硬盘,实测顺序读取速度为7116.8MB/s,顺序写入速度为6440.38MB/s,4K随机读取速度为69.5MB/s,4K随机写入速度为207.96MB/s,达到了固态硬盘的高端性能水准。这非常有助于大参数量大语言模型的载入速度。
【GPU图形性能】
锐龙AIMax+395之所以能够胜任大参数量AI大模型的需求,很重要的原因在于它集成的Radeon8060SiGPU,这颗GPU在集成显卡中可以说是超模的存在。它拥有2560个流处理器,6GBLPDDR5显存,128GB/s显存带宽,核心频率高达2900MHz,显存频率1000MHz,比当前任何一款集成显卡的性能都要强很多。
参考3DMark各项测试可以看到,Radeon8060SiGPU在SpeedWayDX12性能方面得分达到了2025,远超其它iGPU性能。PortRoyal光追性能达到了5884分,基本达到了RTX4060独显的水平(5957分左右)。而TimeSpy以及FireStrike图形分也分别达到了11498和30713分,作为集成显卡,它的理论图形性能其实达到甚至超越了RTX4060独显的水平,着实让人感到惊艳。
·综合应用性能评估
CPU、内存、硬盘、GPU理论性能了解之后,我们来看看如此出色的综合性能能够在实际应用中获得怎样的体验?
【CPU应用性能】
首先是CPU相关的应用性能表现。
7-Zip压缩与解压缩测试中,锐龙AIMax+395处理器得益于16颗超大核心32线程设计,压缩速度达到了150617KB/s,解压缩速度达到了2063057KB/s,总评分高达177.76GIPS,是目前移动级处理器中T0级别的性能水准。
渲染方面,V-RayBencmark1分钟采样率达到38813vsamples;CoronaBenchmark渲染速度达到了11248700Rays/sec,渲染用时仅43秒。
【GPU应用性能】
接下来再看看GPU相关的应用性能。
首先是V-RayBenchmark的加速测试,1分钟渲染速度达到了1812vpaths,在集成显卡中鹤立鸡群。
Blerbenchmark的表现同样出色,monster、junkshop、classroom三项渲染采样率分别达到560.23、199.86以及252.34samples/min,同样远超当前其它集成显卡的性能。
【综合应用性能】
最后看看综合应用性能。
·AI性能评估
搭载AMD锐龙AIMax+395处理器的极摩客EVO-X2售价为14999元,对于大众用户这个价格不便宜,但是如果将它与动辄数万、数十万元的AI一体机来做对比的话,这款机器可以说是目前成本相当低的AI学习、开发、应用平台,对初步上手AI的人群来说非常适合。
了解AI的朋友都知道,显存和内存在AI应用中非常重要,Radeon8060S虽然图形性能极为出色,但其显存也不过就是6GB,应对AI大语言模型的应用需求有点捉襟见肘。不过通过AMD独特的统一内存技术,在AMD软件控制中心,我们可以将极摩客EVO-X2的128GB内存分配给集成显卡作显存,最高可以分配96GB,这样就可以承担起大参数量大语言模型的应用需求了。
在AI应用测试之前,我们先来看看锐龙AIMax+395处理器的CPU、GPU以及NPU三大AI计算单元的算力表现。参考ULProcyon的CPUInteger、GPUFloat16以及NPUInteger测试,三项评分分别为248、987以及1783分,相对此前的锐龙8040系列的处理器来说,锐龙AIMax+395处理器的CPUAI算力提升不算太大,但GPU和NPUAI算力提升幅度基本都超过了3倍!
理论性能了解之后,我们看看锐龙AIMax+395在实际AI应用中的表现。
首先通过ULProcyon测试了、Mistral7B、以及Llama213B四款经典大语言模型,生成速度分别达到了69.56tokens/s、44.87tokens/s、38.01tokens/s以及25.45tokens/s,速度非常快。另外值得一提的是,即便是RTX5060笔记本电脑GPU,因为其作为独立显卡也只有可怜的8GB显存,所以也无法正常运行参数量较大的Llama2大模型,而Radeon8060S不仅成功运行,且生成速度能够达到25.45tokens/s,日常应用完全没有问题。此时,锐龙AIMax+395平台的独特优势就彻底显现出来了。
接下来我们通过LMStudio进行了15B及以下小参数量大语言模型和22B及以上大参数量大语言模型的测试。
首先在各类小参数量稠密大模型测试中可以看到,锐龙AIMax+395表现非常出色,凭借内存分配带来的超大显存支持,即便是遇到BF16高精度的Mistral-small24B以及Gemma227B大模型,生成速度也分别达到了12.37tokens/s和11.62tokens/s,表现出色。而对于更高性能的DeepSeekR114B、Phi-415B,速度也能达到19.63tokens/s和12.24tokens/s;低精度的DeepSeekR17B生成速度更是达到了41.94tokens/s,而则达到了92.67tokens/s,可见在面对小参数量大模型时,锐龙AIMax+395无论是面对高精度模型还是低精度模型,都能提供足够快的生成速度。
在面对大参数量大语言模型时,其实首要解决的问题不是能不能使用大模型,而是能不能正常加载大模型。就比如RTX5060笔记本电脑GPU,虽然其性能比Radeon8060S要强,但如果大模型参数量较大,前者大概率也过不了加载这一关,更别提进一步应用了。
从下图可以看到,我们在加载Qwen3-235B-A22B-IQ2_S的MoE混合大模型时,内存峰值占用高达63.6GB,如果没有128GB超大内存支持的话,加载这一关就过不了。
在各类大参数量大语言模型测试中,Qwen3-235B-A22B-IQ2_SMoE模型生成速度达到了14.72tokens/s,表现出色;DeepSeekIQ2_M、DeepSeekR1DistillLlama70B大参数量稠密模型也能够正常运行,并且可以达到4.91tokens/s和5.31tokens/s的生成速度。而Q4量化版本的DeepSeekR1Qwen32B蒸馏模型以及QWQ32B大模型生成速度分别可以达到9.71tokens/s和9.79tokens/s的生成速度。
另外这里要说明的一点是,Qwen3-235B-A22B-IQ2_S这个模型虽然参数量达到了235B,但它并非是常见的稠密模型,而是MoE(Mixtureofexperts)混合专家模型。简单来说,MoE模型虽然总参数量很大,但以Qwen3-235B-A22B-IQ2_S模型为例,它虽然拥有235B总参数量,但运行时实际只会调用22B(模型中A22B标识就表示运行时只会调用22B参数量)的参数进行计算,因此对于硬件的压力要小很多。
也正是因为有着这种大参数、低算力特性,MoE模型或许会成为未来大模型发展的主流趋势。
反之,稠密模型每一次计算都会调用所有参数,这也就是为什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeekR132B、QWQ32B大模型要快的原因。
总体来说,锐龙AIMax+395是非常不错的AI计算平台,配合大内存并通过AMD统一内存技术分配给显存之后,常规的AI应用基本没有太大压力,完全可以作为个人或者小型工作室、小型企业用户的AI终端设备。尤其相比动辄数万、数十万元的AI一体机来说,14999元的极摩客EVO-X2绝对是一个高性价比的解决方案。
其三,设备成本支出更低的同时,本地化部署带来的另一大好处就是使用成本几乎为零。用户无需额外支付Token费用,也不受网络质量影响。同时拥有更加可靠的用户隐私、数据安全,算法模型数据不容易外泄。
此外,锐龙AIMax+395的NPU也可以参与YOLO等适配模型的相关任务,分担负载,从而让多模态应用拥有最优的算力表现。
·游戏性能评估
锐龙AIMax+395集成的Radeon8060S本身拥有相当不错的图形性能,因此对于游戏玩家来说也是不错的选择。所以性能测试的最后一部分,我们进行了四款热门游戏的测试。
《三角洲行动》,极高画质(次高画质),2560x1600分辨率,平均帧率可以达到96fps,流畅运行无压力。
《荒野大镖客2》,中等画质,2560x1600分辨率,开启FSR,平均帧率可以达到89fps,运行非常流畅。
《赛博朋克2077》,超级画质,未开启光追,2560x1600分辨率,平均帧率可以达到59.23fps,接近60fps的表现已经远超当前其它集成显卡了。
《黑神话:悟空》,超高画质(非影视级画质),2560x1600分辨率,平均帧率达到了62fps,可以流畅游玩。
可见极摩客EVO-X2不仅拥有出色的AI性能,同时还有着不错的游戏性能,再加上出色的生产力性能,这款产品可以说是相当能打的一款综合性迷你主机了。而且确实不负“桌面AI超算中心”之名!
·简约干练的外观设计
AMD锐龙AIMax+395处理器,是锐龙AIMax+系列的顶配型号,原生16颗超大核心32线程设计,最高加速频率5.1GHz,总缓存高达80MB,NPU峰值AI算力为50TOPS,cTDP为45-120W,集成40个图形核心的Radeon8060SiGPU。
【CPU单核/多核性能】
参考CINEBENCHR23和2024测试,锐龙AIMax+395处理器在R23测试标准下,单核得分1985,多核得分36648;2024标准下单核得分113,多核得分1752,整体性能表现非常出色,甚至可以探到移动端HX级别处理器的性能水准。因此锐龙AIMax+395并非“AI偏科生”,而是有着极其扎实的单核和多核性能实力。
【CPU功耗释放】
得益于极摩客EVO-X2桌面AI超算中心较大体积带来的内部空间,AIDA64FPUCPU单烤机实测这颗处理器的长时稳定功耗释放可以保持在103W附近,平均核心温度99.1℃,3分钟以内的短时功耗释放甚至可以达到120W。
【内存读写性能】
锐龙AIMax+395在设计时针对AI应用角度的这种特性,大幅提升了内存带宽,所以AIDA64内存性能测试的结果极为出色。这款机器配备的双通道128GBLPDDR5x8000高速内存读取速度高达119.34GB/s,写入速度高达210.1GB/s,拷贝速度高达153.49GB/s,速度极快。
【硬盘读写性能】
存储方面,极摩客EVO-X2桌面AI超算中心一步到位配备了2TB容量的雷克沙固态硬盘,实测顺序读取速度为7116.8MB/s,顺序写入速度为6440.38MB/s,4K随机读取速度为69.5MB/s,4K随机写入速度为207.96MB/s,达到了固态硬盘的高端性能水准。这非常有助于大参数量大语言模型的载入速度。
【GPU图形性能】
锐龙AIMax+395之所以能够胜任大参数量AI大模型的需求,很重要的原因在于它集成的Radeon8060SiGPU,这颗GPU在集成显卡中可以说是超模的存在。它拥有2560个流处理器,6GBLPDDR5显存,128GB/s显存带宽,核心频率高达2900MHz,显存频率1000MHz,比当前任何一款集成显卡的性能都要强很多。
参考3DMark各项测试可以看到,Radeon8060SiGPU在SpeedWayDX12性能方面得分达到了2025,远超其它iGPU性能。PortRoyal光追性能达到了5884分,基本达到了RTX4060独显的水平(5957分左右)。而TimeSpy以及FireStrike图形分也分别达到了11498和30713分,作为集成显卡,它的理论图形性能其实达到甚至超越了RTX4060独显的水平,着实让人感到惊艳。
·综合应用性能评估
CPU、内存、硬盘、GPU理论性能了解之后,我们来看看如此出色的综合性能能够在实际应用中获得怎样的体验?
【CPU应用性能】
首先是CPU相关的应用性能表现。
7-Zip压缩与解压缩测试中,锐龙AIMax+395处理器得益于16颗超大核心32线程设计,压缩速度达到了150617KB/s,解压缩速度达到了2063057KB/s,总评分高达177.76GIPS,是目前移动级处理器中T0级别的性能水准。
渲染方面,V-RayBencmark1分钟采样率达到38813vsamples;CoronaBenchmark渲染速度达到了11248700Rays/sec,渲染用时仅43秒。
【GPU应用性能】
接下来再看看GPU相关的应用性能。
首先是V-RayBenchmark的加速测试,1分钟渲染速度达到了1812vpaths,在集成显卡中鹤立鸡群。
Blerbenchmark的表现同样出色,monster、junkshop、classroom三项渲染采样率分别达到560.23、199.86以及252.34samples/min,同样远超当前其它集成显卡的性能。
【综合应用性能】
最后看看综合应用性能。
·AI性能评估
搭载AMD锐龙AIMax+395处理器的极摩客EVO-X2售价为14999元,对于大众用户这个价格不便宜,但是如果将它与动辄数万、数十万元的AI一体机来做对比的话,这款机器可以说是目前成本相当低的AI学习、开发、应用平台,对初步上手AI的人群来说非常适合。
了解AI的朋友都知道,显存和内存在AI应用中非常重要,Radeon8060S虽然图形性能极为出色,但其显存也不过就是6GB,应对AI大语言模型的应用需求有点捉襟见肘。不过通过AMD独特的统一内存技术,在AMD软件控制中心,我们可以将极摩客EVO-X2的128GB内存分配给集成显卡作显存,最高可以分配96GB,这样就可以承担起大参数量大语言模型的应用需求了。
在AI应用测试之前,我们先来看看锐龙AIMax+395处理器的CPU、GPU以及NPU三大AI计算单元的算力表现。参考ULProcyon的CPUInteger、GPUFloat16以及NPUInteger测试,三项评分分别为248、987以及1783分,相对此前的锐龙8040系列的处理器来说,锐龙AIMax+395处理器的CPUAI算力提升不算太大,但GPU和NPUAI算力提升幅度基本都超过了3倍!
理论性能了解之后,我们看看锐龙AIMax+395在实际AI应用中的表现。
首先通过ULProcyon测试了、Mistral7B、以及Llama213B四款经典大语言模型,生成速度分别达到了69.56tokens/s、44.87tokens/s、38.01tokens/s以及25.45tokens/s,速度非常快。另外值得一提的是,即便是RTX5060笔记本电脑GPU,因为其作为独立显卡也只有可怜的8GB显存,所以也无法正常运行参数量较大的Llama2大模型,而Radeon8060S不仅成功运行,且生成速度能够达到25.45tokens/s,日常应用完全没有问题。此时,锐龙AIMax+395平台的独特优势就彻底显现出来了。
接下来我们通过LMStudio进行了15B及以下小参数量大语言模型和22B及以上大参数量大语言模型的测试。
首先在各类小参数量稠密大模型测试中可以看到,锐龙AIMax+395表现非常出色,凭借内存分配带来的超大显存支持,即便是遇到BF16高精度的Mistral-small24B以及Gemma227B大模型,生成速度也分别达到了12.37tokens/s和11.62tokens/s,表现出色。而对于更高性能的DeepSeekR114B、Phi-415B,速度也能达到19.63tokens/s和12.24tokens/s;低精度的DeepSeekR17B生成速度更是达到了41.94tokens/s,而则达到了92.67tokens/s,可见在面对小参数量大模型时,锐龙AIMax+395无论是面对高精度模型还是低精度模型,都能提供足够快的生成速度。
在面对大参数量大语言模型时,其实首要解决的问题不是能不能使用大模型,而是能不能正常加载大模型。就比如RTX5060笔记本电脑GPU,虽然其性能比Radeon8060S要强,但如果大模型参数量较大,前者大概率也过不了加载这一关,更别提进一步应用了。
从下图可以看到,我们在加载Qwen3-235B-A22B-IQ2_S的MoE混合大模型时,内存峰值占用高达63.6GB,如果没有128GB超大内存支持的话,加载这一关就过不了。
在各类大参数量大语言模型测试中,Qwen3-235B-A22B-IQ2_SMoE模型生成速度达到了14.72tokens/s,表现出色;DeepSeekIQ2_M、DeepSeekR1DistillLlama70B大参数量稠密模型也能够正常运行,并且可以达到4.91tokens/s和5.31tokens/s的生成速度。而Q4量化版本的DeepSeekR1Qwen32B蒸馏模型以及QWQ32B大模型生成速度分别可以达到9.71tokens/s和9.79tokens/s的生成速度。
另外这里要说明的一点是,Qwen3-235B-A22B-IQ2_S这个模型虽然参数量达到了235B,但它并非是常见的稠密模型,而是MoE(Mixtureofexperts)混合专家模型。简单来说,MoE模型虽然总参数量很大,但以Qwen3-235B-A22B-IQ2_S模型为例,它虽然拥有235B总参数量,但运行时实际只会调用22B(模型中A22B标识就表示运行时只会调用22B参数量)的参数进行计算,因此对于硬件的压力要小很多。
也正是因为有着这种大参数、低算力特性,MoE模型或许会成为未来大模型发展的主流趋势。
反之,稠密模型每一次计算都会调用所有参数,这也就是为什么235B的Qwen3-235B-A22B-IQ2_S生成速度反而比DeepSeekR132B、QWQ32B大模型要快的原因。
总体来说,锐龙AIMax+395是非常不错的AI计算平台,配合大内存并通过AMD统一内存技术分配给显存之后,常规的AI应用基本没有太大压力,完全可以作为个人或者小型工作室、小型企业用户的AI终端设备。尤其相比动辄数万、数十万元的AI一体机来说,14999元的极摩客EVO-X2绝对是一个高性价比的解决方案。
其三,设备成本支出更低的同时,本地化部署带来的另一大好处就是使用成本几乎为零。用户无需额外支付Token费用,也不受网络质量影响。同时拥有更加可靠的用户隐私、数据安全,算法模型数据不容易外泄。
此外,锐龙AIMax+395的NPU也可以参与YOLO等适配模型的相关任务,分担负载,从而让多模态应用拥有最优的算力表现。
·游戏性能评估
锐龙AIMax+395集成的Radeon8060S本身拥有相当不错的图形性能,因此对于游戏玩家来说也是不错的选择。所以性能测试的最后一部分,我们进行了四款热门游戏的测试。
《三角洲行动》,极高画质(次高画质),2560x1600分辨率,平均帧率可以达到96fps,流畅运行无压力。
《荒野大镖客2》,中等画质,2560x1600分辨率,开启FSR,平均帧率可以达到89fps,运行非常流畅。
《赛博朋克2077》,超级画质,未开启光追,2560x1600分辨率,平均帧率可以达到59.23fps,接近60fps的表现已经远超当前其它集成显卡了。
《黑神话:悟空》,超高画质(非影视级画质),2560x1600分辨率,平均帧率达到了62fps,可以流畅游玩。
可见极摩客EVO-X2不仅拥有出色的AI性能,同时还有着不错的游戏性能,再加上出色的生产力性能,这款产品可以说是相当能打的一款综合性迷你主机了。而且确实不负“桌面AI超算中心”之名!
·简约干练的外观设计
(10071377)