游民星空 > 资讯中心 > 正文

数据标注员什么时候会被AI替代?谷歌:现在就行

2023-09-13 17:14:30 来源:凤凰网科技 作者:未知 编辑:宁静海 浏览:loading

似乎自ChatGPT进入大众视野起,需要依靠人工进行数据标注,就成为人们对大语言模型(LLM)根深蒂固的印象之一。

游民星空

从两个以上大模型针对同一个问题给出的不同回答里,找到当中的语病、逻辑和事实错误,标记不同的错误类型,再对这些回答按照质量分别进行打分等,这些都是大模型数据标注员要干的事情。

这个过程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人类反馈的强化学习。RLHF也是被ChatGPT、Bard和LLaMA等新兴大模型带火的模型训练方法,它最大的好处就在于能够将模型和人类的偏好对齐,让大模型给出更符合人类表达习惯的回答。

不过最近发布在arXiv的一份论文表明,这份看起来只有人类能做的工作,也能被AI取代。

这份由谷歌研究团队发布的论文显示,RLAIF能够在不依赖数据标注员的情况下,表现出能够与RLHF相媲美的训练结果。如果拿传统的监督微调(SFT)训练方法作为基线比较,比起SFT,1200个真人“评委”对RLHF和RLAIF给出答案的满意度都超过了70%(两者差距只有2%);另外,如果只比较RLHF和RLAIF给出的答案,真人评委们对两者的满意度也是对半分。

游民星空

需要说明的是,谷歌的这篇论文也是第一个证明了RLAIF在某些任务上能够产生与RLHF相当的训练效果的研究。

最早提出让AI反馈代替人类反馈用于强化学习训练的研究,是来自2022年Bai et al.发布的一篇论文。这篇论文也首次提出了RLAIF的概念,并发现了AI标注的“天赋”,不过研究者在当时还并没有将人类反馈和AI反馈结果进行直接比较。

总之谷歌的这一研究成果一旦被更多人接受,将意味着不用人类指点,AI也能训练自己的同类了。

该论文的发布很快收获了不少关注。比如有从业者评论道,等到GPT-5可能就不需要人类数据标注员了。

不过针对谷歌这篇论文中用到的研究方法,身为著名软件工程师、AI专家的Evan Saravia也认为,研究人员只在论文中分析了RLAIF和RLHF在“生成摘要”这一任务上的表现,其他更加泛化的任务表现如何还有待观察。

此外,研究人员也没有将人工标注和使用AI成本的因素考虑在内。

其实以上网友预测未来的大模型将不再需要人类标注员,也侧面体现出目前RLHF方法因为过于依赖人工而遇到的瓶颈:大规模高质量的人类标注数据可能会非常难以获取。大模型数据标注员往往是流动性非常高的工种,并且由于数据标注很多时候非常依赖标注员的主观偏好,也就更加考验标注员的自身素质。

游民星空

短期内也许会像这位从业者说的,“我不会说这(RLAIF)降低了人工标注的重要性,但有一点可以肯定,人工智能反馈的RL可以降低成本。人工标注对于泛化仍然极其重要,而RLHF+RLAIF混合方法比任何单一方法都要好。”

人喜欢
游民星空APP
随时掌握游戏情报
code
休闲娱乐
综合热点资讯
单机游戏下载
好物推荐
游民星空联运游戏
数据标注员什么时候会被AI替代?谷歌:现在就行https://imgs.gamersky.com/upimg/new_preview/2023/09/12/origin_b_202309121729104318.jpg