有关"trust钱包怎么添加自定义代币"网页版/手机app通知 hd 17.03-皇冠盘网址查询
根据新一期《自然·人类行为》发表的论文,它测试了追踪他人心理状态的能力——也被称为心理理论(theory of mind)在任务中,两种大语言模型(llm)特定情况下的表现与人类相似,甚至更好。
?。
研究团队测试了流行的llm。图片来源:《自然·人类行为》。
心理理论对人类社会互动非常重要,是人类沟通和共鸣的关键。之前的研究表明,llm等人工智能(ai)可以解决复杂的认知任务,如多选决策。然而,人们一直不知道llm在心理理论任务(被认为是人类独特的能力)中的表现是否与人类相当。
这一次,德国汉堡-埃彭多夫大学医学中心团队选择了测试心理理论不同方面的任务,包括发现错误的想法、理解间接的语言和识别粗鲁。随后,他们比较了1907人完成任务的能力,以及两个流行的llm家族-gpt和llama2模型。
团队发现,gpt模型在识别间接要求、错误想法和误导性方面的表现可以达到甚至超过人类平均水平,而llama2的表现不如人类;llama2在识别不当方面比人类强,但gpt表现不佳。研究人员指出,llama2的成功是因为对答案的偏见较低,而不是因为它真的对粗鲁敏感;gpt的失败实际上是因为对坚持结论的超级保守态度,而不是因为推理错误。
研究团队认为,llm在心理理论任务上的表现与人类相当,并不意味着他们有人类的“情商”,也不意味着他们能够掌握心理理论。但他们也指出,这些结果是未来研究的重要基础,并建议进一步研究llm的心理推断,以及它们将如何影响人类在人机交互中的认知。
(原标题:人工智能心理推断能力或与人类相当,但并不意味着他们有像人一样的情商)。