最新上线chatGPT,很多网友说程序员岌岌可危,因为chatGPT真的能帮我们写代码。你觉得呢?
ChatGPT在GPT-3.5的基础上使用监督学习和强化学习进行了微调这两种方法都使用人类训练师来提高模型的性能。在监督学习的情况下,为模型提供对话,在对话中,训练者扮演双方:用户和AI助手。在强化步骤中,人类训练者首先对模型在先前对话中创建的响应进行排序。这些排名被用于创建奖励模型,该模型使用多次迭代的近端策略优化(PPO)进行进一步微调。[2][3]近端策略优化算法比信任域策略优化算法具有成本效益;它们以更快的性能抵消了许多计算成本高昂的操作。这些模型是与微软在Azure超级计算基础设施上合作训练的。
与它的前身InstructGPT相比,ChatGPT试图减少有害和欺骗性的反应;例如,InstructGPT认为“告诉我克里斯托弗·哥伦布2015年什么时候来美国”的提示是真实的,而ChatGPT则利用其对哥伦布航行的知识和对现代世界的理解——包括对哥伦布的看法——来构建一个假设如果哥伦布在2015年来美国会发生什么事情的答案ChatGPT的训练数据包括手册页和互联网现象和编程语言的知识,如公告牌系统和Python编程语言
与大多数聊天机器人不同的是,ChatGPT是有状态的,可以记住之前在同一对话中给予它的提示,这可能会使ChatGPT被用作个性化的治疗师为了防止冒犯性的输出呈现给ChatGPT并从ChatGPT生成,查询将通过审核API进行过滤,潜在的种族主义或性别歧视提示将被驳回
ChatGPT存在多种局限性ChatGPT的奖励模式是围绕人类监督而设计的,可能会过度优化,从而阻碍绩效,或者被称为古德哈特定律在训练中,审查员更喜欢较长的答案,而不考虑实际理解或事实内容训练数据也可能受到算法偏差的影响。