不久前,ChatGPT在纽约联邦法院的一份文件中引用了“虚假”案例,导致涉案的纽约律师可能面临制裁,这一情况再次引起了大众对于AI“说谎”的担忧。
面对这一情况,ChatGPT的开发商OpenAI近日发布了一篇研究论文,阐述了一种解决AI“胡编乱造”问题的方法,通过“过程监督”来提高AI大模型的数学推理能力。
这种方法会在AI模型推理出答案的每个正确步骤上给予自我奖励,而不仅仅是等到推理出正确的最终结论时才给予奖励。
研究人员表示,这种方法被称为“过程监督”,与之相反的是“结果监督”,这可能会训练出更好的可解释AI,因为这种策略鼓励模型按照更类似人类的“思考”方式进行推理。
目前,根据OpenAI数学论文生成器研究员卡尔·科布的说法,OpenAI已经发布了一个附带的数据集,其中包含80万个人类标注,它们将被用于训练研究论文中提到的模型。
科布表示,OpenAI“可能会将(论文)提交给未来的会议进行同行评审。”OpenAI没有回应该公司计划何时将新策略实施到ChatGPT及其其他产品中。
日本出现151cm24kg的女生 霸道总裁爱小脑萎缩的囧图
《三男一狗》吉米30多岁还在家里蹲啃老 麦克受不了
《黑夜君临》修女全皮肤舔墙合集:翘臀勾勒完美曲线!
曝《战神》将亮相TGA!阿特柔斯取代奎托斯成主角?
《给他爱5》麦克DLC现已上线!玩家终于圆梦了
洗澡水一人一杯不许多盛 bur兄弟这胸也太大了的囧图