Nature 研究引争议:AI 如人类般思考,真的成立吗?

日期:2025-07-04 13:32:49 / 人气:5


若人工智能能像人类一样 “思考”,或许能为理解人类思维方式,尤其是抑郁、焦虑等不同心理状态人群的决策机制提供新视角,进而助力人类健康研究。近日,权威科学期刊《Nature》发表的一篇研究论文,似乎让这一假设的实现有了可能,但也随之引发了学界的广泛质疑。
人类认知 AI 模型 Centaur 的诞生与突破
来自德国慕尼黑亥姆霍兹中心的研究团队宣称,他们构建的人类认知基础模型 Centaur,在预测人类决策方面表现卓越。该模型不仅能精准预测人们在赌博、记忆游戏和问题解决等多种场景下的决策,其表现甚至超过了心理学中用于描述人类选择的经典理论。
研究团队认为,Centaur 的出现为深入理解人类认知机制、完善心理理论开辟了新路径,其潜在应用范围广泛,从分析经典心理实验到模拟临床环境中个体的决策过程,比如针对抑郁症或焦虑症患者的相关研究。论文第一作者兼通讯作者、慕尼黑亥姆霍兹中心认知科学家 Marcel Binz 表示:“你基本上可以在计算机模拟环境中进行实验,而非在实际人类参与者身上进行,这在传统研究进展缓慢或难以招募儿童、精神疾病患者等研究对象时,可能会有所帮助。”
挪威特隆赫姆科技大学心理语言学家 Giosuè Baggio 也认为:“在认知科学领域构建理论非常困难,借助机器的帮助探索新想法,确实令人兴奋。” 这一成果表明,基于数据驱动的认知领域通用模型发现是一条有前景的研究道路,下一步的研究方向应是将这一通用计算模型转化为人类认知的统一理论。
Centaur 的突破在于将可解释理论与预测能力这两个此前相互独立的领域结合起来,既能识别常见的决策策略,又能灵活适应不断变化的场景,甚至能以惊人的精度预测反应时间。“我们创建了一个工具,能够预测和模拟任何用自然语言描述的情境中的人类行为,就像一个虚拟实验室。”Binz 说道。
据介绍,Centaur 是在名为 “Psych-101” 的数据集上,采用 LoRA 方法对 Llama 进行微调构建而成。该数据集包含超过 1000 万个独立决策,这些决策来自 6 万多名参与者在 160 个心理实验中的表现,涵盖了从冒险行为、奖励学习到道德困境等人类行为的广泛领域。未来,研究团队计划进一步扩展该数据集,加入人口统计和心理特征等信息。
在实验中,研究团队用 90% 的人类数据训练模型,用剩下 10% 的数据测试模型输出,发现 Centaur 与人类数据的对齐水平高于更具任务特异性的认知模型。例如,在两臂老虎机决策中,该模型生成的数据比专门用于捕捉人类在该任务中决策方式的模型更接近参与者的实际选择。
更值得一提的是,Centaur 在其训练数据未包含的修改任务上,也能产生类似人类的输出。比如在两臂老虎机实验中添加第三个老虎机后,它依然能有符合人类逻辑的表现。Binz 认为,这意味着研究人员可以利用 Centaur 在计算机模拟中开发实验,再将其应用于人类参与者,或用于开发人类行为的新理论。
此外,Centaur 还适用于自动化认知科学领域的更多场景。例如,它可用于实验研究的计算机模拟原型设计,帮助研究人员确定哪些实验设计能产生最大效应量、如何优化实验设计以减少所需参与者数量,或估算某一步骤的效果。慕尼黑亥姆霍兹 Human - Centered AI 研究所主任 Eric Schulz 表示:“我们才刚起步,就已然看到了巨大的潜力。”
接下来,研究人员计划对 Centaur 进行更深入的分析,探究哪些计算模式对应特定的决策过程,以及能否用其推断人们处理信息的方式,还有健康个体与精神健康问题患者的决策策略有何差异。他们坚信:“这些模型有潜力从根本上深化我们对人类认知的理解 —— 前提是我们负责任地使用它们。”
学界质疑:“像人类一样思考” 的说法荒谬吗?
尽管 Centaur 在精准预测人类行为方面展现出惊人能力,且有望为医学、环境科学及社会科学等领域的科研与实际应用开辟新可能,但多位认知科学家对此提出了质疑。
麦吉尔大学、魁北克人工智能研究所计算神经科学家 Blake Richards 直言:“我认为科学界很大一部分人会对这篇论文持怀疑态度,并对其提出严厉批评。” 他指出,该模型并未真正模拟人类认知过程,也无法保证其生成的结果能始终与人类行为相匹配。
布里斯托尔大学认知科学家 Jeffrey Bowers 则认为这一模型有点 “荒谬”。他和团队对 Centaur 进行测试后发现,其行为明显非人类化。在短期记忆测试中,该模型能回忆多达 256 位数字,而人类通常只能记住约 7 位;在反应时间测试中,该模型甚至能以 “超人类” 的 1 毫秒速度做出响应。由此,Bowers 得出结论:该模型无法在训练数据之外进行有效泛化。
Bowers 还打了个比方:“就像模拟时钟与数字时钟可以显示相同时间,但内部运作原理截然不同,虽然 Centaur 能够产生类似人类的输出,但其依赖的机制与人类思维完全不同。”
马克斯・普朗克学会恩斯特・斯特朗格曼神经科学研究所计算认知科学家 Federico Adolfi 对此表示赞同。他指出,进一步的严格测试很可能会表明该模型 “非常容易失效”。同时,他认为尽管 Psych - 101 数据集规模可观,但 160 个实验只是 “认知的无限汪洋中的一粒沙子”,难以全面涵盖人类复杂的认知领域。
不过,也有部分学者对这项研究给予了肯定。伊利诺伊大学厄巴纳 - 香槟分校视觉科学家 Rachel Heaton 认为,虽然该模型并未提供理解人类认知的有效工具,但 Psych - 101 数据集本身具有重要价值,其他研究人员可利用它来测试自己模型的有效性。Richards 也表示,未来对 Centaur 内部运作机制的研究可能具有重要意义。
奥克兰大学计算视觉神经科学家 Katherine Storrs 则认为,尽管该论文提出了一些缺乏依据的笼统结论,但研究团队在数据集和模型方面投入了大量时间和精力,这项工作 “从长远来看可能在科学上有所回报”。
这场围绕 AI 是否能像人类一样思考的争议,凸显了认知科学与人工智能交叉领域的复杂性。Centaur 模型究竟是打开人类认知奥秘的新钥匙,还是只是一场看似美好的 “荒谬” 尝试,或许还需要更多的研究和验证来给出答案。

作者:天美娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 天美娱乐 版权所有