小红书开源首个大模型 部分性能与阿里Qwen3模型相当

2025-06-10 17:04:43 来源:微博 作者:搜狐科技 编辑:宁静海 浏览:loading

据媒体报道,小红书hi lab(人文智能实验室)团队近期在Github、Hugging Face等平台发布首款开源文本大模型dots.llm1。

小红书hi lab团队开源了所有模型和必要的训练信息,包括微调Instruct(dots.llm1.inst)模型、长文base(dots.llm1.base)模型、退火阶段前后的多个base模型、超参数以及每1万亿个token的中间训练checkpoint等内容。目前来看,dots.llm1大部分性能与阿里Qwen 2.5模型,部分性能与阿里Qwen 3模型相当。

游民星空

dots.llm1是一个1420亿参数的混合专家模型(MoE),在推理过程中仅激活140亿参数,能保持高性能的同时大幅度降低训练和推理成本。

此外,dots.llm1.ins在预训练阶段使用了11.2万亿的非合成数据,最终性能与阿里Qwen3-32b相比,在中英文、数学、对齐任务上表现接近。

人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏
小红书开源首个大模型 部分性能与阿里Qwen3模型相当https://imgs.gamersky.com/upimg/new_preview/2025/06/10/origin_b_202506101704377884.jpg