华为利用纯昇腾集群训练出的盘古 Ultra,在数学竞赛、编程等推理任务当中,和DeepSeek-R1打得有来有回。关键是模型参数量只有135B,整个训练过程零英伟达含量,而且没有出现损失尖峰。
通过改进的模型架构和系统优化策略,盘古 Ultra 拥有优异的性能表现和 52% 以上的算力利用率。并且有网友表示,训练过程中没有出现损失尖峰这一特征,似乎此前从未实现。
在预训练阶段模型的评测中,盘古 Ultra在绝大部分英文基准任务和全部中文任务上取得了最佳性能,优于Llama 405B、DeepSeek-V3等baseline模型。
尤其在MMLU、TriviaQA、GSM8K等具有挑战性的数据集上,盘古 Ultra展现出了卓越的语言理解和推理能力。
经过指令调优后,盘古 Ultra 的性能进一步提升,尤其在AIME 2024、MATH-500等数学推理任务和 LiveCodeBench 等编程竞赛题上达到了 SOTA 水平。同时,盘古 Ultra在Arena Hard、MMLU-pro等涵盖通用语言理解和推理的评测中也表现优异。
综合来看,盘古 Ultra超越了包括GPT-4o、Mistral-Large 2等强大模型,与DeepSeek-R1等MoE 模型竞争激烈。