不靠英伟达！华为原生模型比肩DeepSeek-R1！

2025-04-15 15:18:47 来源：IT之家作者：汪淼编辑：孤独时代的从心　浏览：loading

华为利用纯昇腾集群训练出的盘古 Ultra，在数学竞赛、编程等推理任务当中，和DeepSeek-R1打得有来有回。关键是模型参数量只有135B，整个训练过程零英伟达含量，而且没有出现损失尖峰。

通过改进的模型架构和系统优化策略，盘古 Ultra 拥有优异的性能表现和 52% 以上的算力利用率。并且有网友表示，训练过程中没有出现损失尖峰这一特征，似乎此前从未实现。

在预训练阶段模型的评测中，盘古 Ultra在绝大部分英文基准任务和全部中文任务上取得了最佳性能，优于Llama 405B、DeepSeek-V3等baseline模型。

尤其在MMLU、TriviaQA、GSM8K等具有挑战性的数据集上，盘古 Ultra展现出了卓越的语言理解和推理能力。

经过指令调优后，盘古 Ultra 的性能进一步提升，尤其在AIME 2024、MATH-500等数学推理任务和 LiveCodeBench 等编程竞赛题上达到了 SOTA 水平。同时，盘古 Ultra在Arena Hard、MMLU-pro等涵盖通用语言理解和推理的评测中也表现优异。

综合来看，盘古 Ultra超越了包括GPT-4o、Mistral-Large 2等强大模型，与DeepSeek-R1等MoE 模型竞争激烈。

人喜欢

游民星空APP

随时掌握游戏情报

新浪微博 QQ 微信

举报| 收藏|

休闲娱乐

综合热点资讯

单机游戏下载

好物推荐

游民星空联运游戏