ChatGPT前期为什么免费给大家用?原来是因为它?
微wx笑 2023-06-03【人工智能】 0 0关键字: ChatGPT RLHF
RLHF 是 Reinforcement Learning from Human Feedback 的缩写。它是一种强化学习技术,利用人类反馈来训练 AI 系统。在 LLMs(大型语言模型)的上下文中,RLHF 通常涉及:1. 展
RLHF 是 Reinforcement Learning from Human Feedback 的缩写。它是一种强化学习技术,利用人类反馈来训练 AI 系统。在 LLMs(大型语言模型)的上下文中,RLHF 通常涉及:1. 展示 LLM 生成的响应给人类用户2. 请求人类评分或选择他们最喜欢的响应3. 使用这些反馈来进一步培训和改进 LLM4. 重复此过程以逐步提高 LLM 的质量这与传统的监督学习方法不同,后者通常需要人工注释大量数据来开始训练模型。RLHF 允许更加 iteratively 和有针对性地收集反馈,并迅速应用反馈来改进模型。Open Assistant 在上下文中使用 RLHF 来构建一个开源 Chatbot,名为 Koala。他们采集了来自人类用户对 ChatGPT 和 Koala 的响应偏好的反馈,并使用这些反馈来改进 Koala,直到达到与 ChatGPT 相当的水平。所以总体来说,RLHF 是一种有希望的技术,可以通过有针对性且高质量的人类反馈来提高 LLMs 的质量,而无需人工注释大量训练数据。它允许更快、更精细和更经济高效地训练这些模型。
本文由 微wx笑 创作,采用 署名-非商业性使用-相同方式共享 4.0 许可协议,转载请附上原文出处链接及本声明。
原文链接:https://www.ivu4e.cn/blog/ai/2023-06-03/1903.html
上一篇:人工智能创新策源地是什么意思?
下一篇:Koala:学术研究的对话模型