/?infothcguux/

openai 把 gpt-皇冠盘网址查询

2024-06-25 05:48:00 来源: 新华社
字号:默认超大|打印|

除了 openai 自己,其实还有别人可以用。 gpt-4-base 版??也就是说,未经微调的预训练版不会对话聊天,只会完成句子的模型。

epfl(瑞士洛桑联邦理工学院)团队申请访问权限研究“上下文学习是否足以让大模型遵循指令?”。

也就是说,微调不需要监督,也不需要监督 rhlf 或者其他加强学习对齐的方法,只有提示词才能走多远?

预训练模型能否一步登天,直接转化为聊天机器人或 ai 助手?

如果可行,类别将大大降低。 chatgpt 开发大模型的难度。

无微调对齐可靠吗?

免微调对齐,让新发布的预培训模式不仅会“补充文本”,还会学会从提示词中与用户交谈,遵循指令,这一直是业界关注的研究方向。

目前的 sota 方法 urial 艾伦研究所使用系统提示词 一些风格示例可以达到很好的效果。

但 epfl 团队发现,urial 与指令微调模型的差距仍然无法完全弥补,尤其是在多轮对话中。

实验中,在 llama 系列、mistral 系列与普通人无法接触的系列 gpt-4-base 这种现象都被观察到了。

其中 gpt-4-base 的 api 访问权限从 openai researcher access program 在项目中申请。

epfl 从这里开始,团队尝试了各种方法来提高上下文学习的效果。

首先,他们增加了示例的数量,但他们发现这并没有多大帮助,也没有随着示例数量的增加而提高性能的趋势。这与图像分类、机器翻译等任务不同。

接着,他们使用了贪婪的搜索算法,从许多例子中选择最佳添加到上下文。

这种方法可以进一步提高性能,但与指令微调模型的差距仍然存在,特别是在 alpacaeval 2.0 在基准测试中。

此外,他们还发现,贪婪搜索是为特定模型找到的最佳例子,不能可靠地迁移其他模型。

也就是说,不同的例子适合不同的模型。

为了更好地了解上下文学习的工作原理,团队还进行了一系列消融实验。

他们发现,在 mt-bench 在这种综合评价中,例子包括正确的“问题-正确答案”是非常重要的。

这与之前大模型在分类任务中的发现大不相同,只要有很多例子,有些标签是错误的。

因此,最终的结论是,即使采用更复杂的改进方法,完全缩小上下文学习与指令微调之间的差距也是一个挑战,即使对于上下文很长的大模型。

在论文的最后分析中,大语言模型可能只学习如何通过上下文学习模仿例子中的答案风格,但并没有真正理解执行指令的逻辑。

指令跟随任务相对复杂开放,不那么容易掌握。

想让 ai 助手更“听话”,暂时还是很难走捷径。

论文地址:

https://arxiv.org/abs/2405.19874。

  • 参考链接:

[1]https://x.com/maksym_andr/status/1796574297894318136。

  • 本文来自微信微信官方账号:量子位 (id:qbitai),作者:梦晨。

广告声明:文本中包含的外部跳转链接(包括不限于超链接、二维码、密码等形式)用于传递更多信息,节省选择时间。结果仅供参考。it之家的所有文章都包括本声明。

责任编辑:新华社
扫一扫在手机打开当前页
网站地图