自最新的通义千问大模型Qwen3发布以来,凭借其优秀的模型表现,备受关注。在当前AI大模型快速发展的时代,AMD AI生态伙伴模优优科技继成功实现DeepSeek V3大模型的AI PC优化部署后,第一时间成功将全尺寸Qwen3-235B模型优化,部署到基于AMD锐龙 AI Max+ 395处理器的mini PC上,推理速度达到14tokens/s。
AMD 锐龙 AI Max+ 395:为大模型量身打造的终端算力
AMD 锐龙 AI Max+ 395处理器拥有16核32线程、最高加速时钟频率5.1GHz,集成了基于RDNA 3.5架构的40个计算单元的Radeon 8060S GPU,以及高达50+ TOPS 的"XDNA 2"架构 NPU。
模优优异构加速方案的技术亮点
模优优科技基于对AMD平台的深度优化,为Qwen3-253B模型部署提供了全面的异构加速解决方案:
·精细量化与内存优化:针对Qwen3模型的混合专家架构特性,模优优团队采用了差异化量化策略,对关键层和路由专家进行精细量化处理,在保持模型精度的前提下,显著降低了内存需求。
·多硬件协同加速:方案充分整合了GPU和CPU资源,实现了硬件资源的高效利用,推理速度达到14tokens/s,为用户提供媲美云端的对话体验。
·动态计算调度:针对Qwen3模型支持思考模式和非思考模式切换的特性,模优优技术团队开发了自适应计算调度系统,根据任务复杂度动态分配计算资源,实现性能与体验的最优平衡。
对企业和个人用户的价值
1.隐私安全保障:大模型完全在本地运行,敏感数据无需上传云端,从根本上解决数据安全问题。
2.成本显著降低:相比云端API调用,本地部署可大幅降低长期使用成本,尤其适合高频率使用场景。
3.离线使用能力:无需依赖网络连接,即可随时随地获得强大的AI助手支持。
4.解决方案可扩展:模优优的异构加速技术可应用于更广泛的硬件平台,为不同行业场景提供定制化解决方案。
未来展望
随着Qwen3系列模型的发布和端侧部署能力的突破,模优优科技与AMD将持续合作,推动AI解决方案在更多端侧场景化应用落地,进一步释放大模型在终端的应用潜力。