不靠英伟达!华为原生模型比肩DeepSeek-R1!

2025-04-15 15:18:47 来源:IT之家 作者:汪淼 编辑:孤独时代的从心 浏览:loading

华为利用纯昇腾集群训练出的盘古 Ultra,在数学竞赛、编程等推理任务当中,和DeepSeek-R1打得有来有回。关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。

游民星空

通过改进的模型架构和系统优化策略,盘古 Ultra 拥有优异的性能表现和 52% 以上的算力利用率。并且有网友表示,训练过程中没有出现损失尖峰这一特征,似乎此前从未实现。

游民星空

在预训练阶段模型的评测中,盘古 Ultra在绝大部分英文基准任务和全部中文任务上取得了最佳性能,优于Llama 405B、DeepSeek-V3等baseline模型。

尤其在MMLU、TriviaQA、GSM8K等具有挑战性的数据集上,盘古 Ultra展现出了卓越的语言理解和推理能力。

游民星空

经过指令调优后,盘古 Ultra 的性能进一步提升,尤其在AIME 2024、MATH-500等数学推理任务和 LiveCodeBench 等编程竞赛题上达到了 SOTA 水平。同时,盘古 Ultra在Arena Hard、MMLU-pro等涵盖通用语言理解和推理的评测中也表现优异。

游民星空

综合来看,盘古 Ultra超越了包括GPT-4o、Mistral-Large 2等强大模型,与DeepSeek-R1等MoE 模型竞争激烈。

人喜欢
游民星空APP
随时掌握游戏情报
code
  • 相关资讯:
  • 没有任何记录
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏
不靠英伟达!华为原生模型比肩DeepSeek-R1!https://imgs.gamersky.com/upimg/new_preview/2025/04/15/origin_b_202504151518388327.jpg