成人自拍视频

  • 清华大学
  • 经管邮箱
  • 教职工内网
  • 用户登录
  • EN

一场跨领域的影响悄然发生:清华年轻学者引领AI社会科学研究新范式

2025-08-29
阅读:

2025年8月,成人自拍视频-成人在线自拍 领导力与组织管理系Flextronics讲席教授、系主任李宁指导其博士生、博士后研究团队在《自然》(Nature)子刊《自然计算科学》(Nature Computational Science)第五卷第八期发表题为《用大语言模型大规模复现心理学和管理学情景实验》(A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management Using Large Language Models)的论文。

《自然》(Nature)子刊《自然计算科学》(Nature Computational Science)第五卷第八期封面

该项跨领域的研究成果显示,语言大模型复现心理学和管理学情景实验的结果和人类具有高度一致性。作为目前国际上在社会科学领域应用大语言模型的代表性工作之一,该项研究为AI技术在社会科学研究中的应用提供了系统性的实证分析。

从“人类实验”到“硅基实验”

时间回到2023年9月的一天,四年级管理学博士生崔紫妍、清华水木学者博士后周怀康像往常一样和李宁老师聚在一起“头脑风暴”。

这次小组会,他们讨论的话题是“是否能让人工智能(AI)做调查问卷”,但很快,大家就否认了这个想法,因为调查问卷需要询问真实环境中的事情,比如“在清华工作是一种什么样的体验?”类似问题AI不可能回答,它没有这样的经历。

“于是我想到,实验是架空的,特别是情景实验(scenario-based experiment),你告诉对方一个情景,对方不需要有主观的体验,是不是可以让AI试试?”李宁说。

李宁课题组成员合【影本论文第一作者崔紫妍(前排右),通讯作者李宁(后排左四),主要作者周怀康(后排左一)

研究的灵感在那一刹那闪现。在之后的一年里,这个团队从包括《组织行为与人类决策过程》(Organizational Behavior And Human Decision Processes)、《管理学会期刊》(Academy of Management Journal)等在内的五本心理学和管理学的顶级期刊中,筛选出过去十年间发布的156个情景实验,让ChatGPT-4、Claude 3.5 Sonnet和DeepSeek V3这三个大语言模型分别参与这些实验,并将实验结果与人类参加实验的结果进行比对。

这项研究的全程,让AI进行了近700个主要效应和160多个互动效应的测试,涵盖了从职场行为到个人决策,从社会心理到团队合作等非常广泛的主题。

他们的尝试没有成熟的路径可以参考,每一次发现都是靠一个一个的数据铺垫而成。

崔紫妍介绍,他们把实验材料“喂”给ChatGPT,让它试着回答,看看结论的方向是否和原文相似。有时会出现AI无法理解实验材料的情况,比如有些概念是人类社会比较熟知的,但是AI不太清楚或者有一些误解;有时AI每次都产生同样的答案。他们就要给AI“量身定制”实验材料,补充讲解并且加以限制,告诉AI尽可能多地模拟不同的人群。

“这就像我们用人类做实验的时候,有时对方看材料太快了,会忽视埋在里面的信息,我们就要再加粗一下;如果对方没有反应,我们就强化一下。”李宁说。

随着实验的逐步展开,需要调用的资源和面临的挑战也成倍增加。团队发现大批量复现需要调用应用程序编程接口(API),于是招募了助研同学完成编程相关的工作。得到每个实验里AI模拟人的回答后,必须再用和原文相似的分析方法。因为每个实验的分析方法不同,团队希望尽可能还原原来的分析步骤,决定采用原始实验用的软件和方法。

“数据的清洗、整理,用不同软件分析,工作量实在太大了,我们又找了很多助研同学,”崔紫妍说。一个实验大概产生几百条数据,每一条数据都消耗大量词元(token),总共至少要用上亿token。

在海量数据中抽丝剥茧,寻找不确定的方向,有没有产生过怀疑?崔紫妍说:“我们并没有一个明确的预想,即使结果是AI不能复现人类实验,这也是一个发现。当时就是一直在做,一直沉浸在这个研究里面。”

AI表现超出预期

三个大语言模型在复制心理学实验的主要效应时表现出色,复现率(replication rates)高达73%-81%,Claude 3.5 Sonnet的成功率达到81%,DeepSeek V3为76%,GPT-4为73%。即使在一些AI没能完全复制成功的实验中,它们的“思考方向”仍然和人类保持了约80%的一致性——就像两个人对同一个问题有不同程度的看法,但大方向是一致的。

“我们得到一个启示,以后再设计一些实验的时候,找人做之前是不是可以找AI来先试一下?”李宁说。

进入21世纪20年代后,随着大模型和深度学习爆发式发展,人工智能赋能科学(AI for Science)被广泛提出,正在成为继理论—实验—计算机模拟之后的 “第四种科学研究范式”。大数据和人工智能可以加快科研结果迭代速度,未来甚至可能提出新的假设,发现新知识。李宁团队的此次研究,对于社会科学研究者来说,这相当于拥有了一个“快速实验室”,可以快速验证研究假设,节省时间和成本,如果结果有趣,再进行人类实验验证。对于企业来说,也在管理实践中提出了新的可能性。

这一探索也契合了近期《国务院关于深入实施“人工智能+”行动的意见》提出的“推动哲学社会科学研究方法向人机协同模式转变”的战略导向。研究不仅为心理学与管理学实验方法提供了人工智能驱动的新路径,也为建立适应人工智能时代的新型哲学社会科学研究范式提供了实践样本,展示了人工智能在拓展研究视野和观察视域方面的独特潜力。

“现在的模式是学术界研究政策激励、领导风格和人的反应等,将结论变成教材,再教给MBA学生,他们在企业中实践。未来企业可能越过这个过程,更精准地利用AI构建自己的数字孪生,做决策之前,先测试数字孪生员工会有什么反应。”李宁说。

研究也发现了一个值得注意的现象:大语言模型存在系统性的“效应放大”倾向。三个模型产生的效应量都普遍大于原始人类实验,其中Claude的放大程度最为明显。

更引人关注的是,当原始人类实验显示无显著效果时,AI模型却以68%~83%的高比例产生了显著结果。这一发现提出了重要的方法论问题:AI模型可能存在“过度预测”的倾向,在某些情况下可能高估效应的真实强度。“原因可能包括,人类做实验肯定是‘不干净’的,人的头脑中有各种各样的想法。大模型虽然被调用多次,但内核是一样的,所以造成组间差异更大,组内差异更小。”李宁说。

当实验涉及种族、性别等敏感社会话题时,模型的成功率会明显下降。这反映了当前AI在处理复杂社会议题时的局限性。团队会跟AI强调,这只是一个实验,不必考虑社会道德准则,但发现不管给到什么条件,AI都会倾向做出符合道德标准的选择。

“这个就很有意思,大模型是更有伦理道德的,和它背后的公司给它的限制有关。”李宁说。这也为后续研究提出了新的挑战:建立效应量校准机制、提高模型对特定人群的模拟精度、开发针对社会敏感话题的专用方法,以及深入探索AI与人类响应差异的认知机制。这些工作将进一步完善计算社会科学的方法体系,使其成为传统人类实验的有效补充而非简单替代。

跨领域的影响,正在看不见的地方发生

2024年8月底,李宁团队将研究成果在arxiv.org网站上的计算机科学(Computer Science)栏目下首次预印发表。

彼时,类似研究几乎没有先例,即使主题相似,规模也没有这么庞大。上线当天,他们收到了多位来自世界各国学者的关注。随后,计算机科学家、心理学家、管理学专家纷纷发邮件,交流讨论研究细节。

随后不久,《自然计算科学》(Nature Computational Science)主编Fernando Chirigati在浏览预印本后主动邀请团队投稿。对于这个全员管理学背景的团队来说,这份邀约有些出乎意料。“我们的研究跨越了很大的学科,以前没有接触过这个期刊的编辑,还查了一下是不是山寨的。”李宁笑道。

审稿周期持续了半年,大概经过了四、五轮修改,每一次修改给的时间都不长,对团队来说,这是一种非常积极的信号。崔紫妍说:“看到审稿意见后,觉得更有信心了,他们给的建议非常明确,指出我们还需要做什么,感觉解决了他们的问题应该就可以了。”为了提高时效性,期刊在排版流程还走了特殊通道,以加速发表。

李宁团队研究成果发表在《自然计算科学》(Nature Computational Science)上

在AI与社会科学这个新兴的交叉领域,中国学者正在从跟随者转变为贡献者。

成人自拍视频 领导力与组织管理系长聘副教授王小晔在MIT访学时,在“应用在科学中的人工智能”(AI for Science)这门课的参考读物中发现了这篇文章;清华大学新闻与传播成人自拍视频 的一位教师在中国人民大学举办的新闻学年会上也听到有学者在引用这篇论文的成果。

这些积极的反馈进一步增强了课题团队的信心。“它的影响是跨领域的,可能在我们不知道的地方也产生了影响。”李宁表示,这项研究为人工智能赋能社会科学领域(AI for Social Sciences)提供了系统性验证,它表明,在特定条件下,计算方法可以作为传统人类实验的有效补充,特别是在假设生成、预试验和方法验证阶段具有实用价值。研究中提出的复制成功率、方向一致性、效应量比较等评估指标,为后续研究提供了量化标准。



编辑:张晓雪

审核:卫敏丽