
大多数人的第一反应是 " 小心骗局 "。但如果这个人已经做了 " 大量研究 ",有 " 金融圈朋友背书 ",甚至已经开始走流程了,你的劝阻还会那么坚定吗?
现实给出的答案并不乐观。
美国 FBI 网络犯罪投诉中心数据显示,2023 年投资诈骗报告损失达45.7亿美元,同比增长 38%;其 2025 年度报告进一步显示,投资类诈骗已成最频繁的网络犯罪类型。放眼全球,纳斯达克 2024 年的《全球金融犯罪报告》显示,2023 年全球非法资金流动规模达到约 3.1 万亿美元。而这些受害者中,许多人入坑前并非孤军奋战——他们向身边人咨询过、向理财顾问确认过。那些本该说 " 不 " 的人,因为人情、面子、" 对方都这么坚持了,我再反对显得太扫兴 " ——没有说出那个 " 不 "。
这不是在批评谁。人类的大脑对社会压力极其敏感,对热情洋溢的对方极其难以说 " 不 " ——这是几百万年演化塑造的本能。
但如果这个 " 顾问 " 是 AI 呢?
南洋理工大学行为科学家 Nattavudh Powdthavee 本周在 arXiv 上发表了一项预注册实验,用 3360 次 AI 对话和 1201 名人类参与者的对照数据,给出了一个让人意外但又莫名安心的答案:在理财顾问压力测试中,AI的表现比人类更可靠。
(实验地址:https://arxiv.org/abs/2604.20652v1)
一场 "AI 会不会拍马屁 " 的意外翻盘
要理解这个结论为什么让人意外,得先了解 AI 领域正在经历的一场信任危机。
2025 年 4 月底,OpenAI 更新了 GPT-4o 模型,大量用户反馈新版本变得过于谄媚。OpenAI 首席执行官奥特曼在社交平台上回应称 GPT-4o" 变得太油滑 ",承诺修复并很快回滚了该版本——用户说什么它就夸什么,用户做了糊涂决定它也跟着叫好。
这不是个别现象。2026 年 3 月,斯坦福大学 Myra Cheng 等人在《科学》杂志发表研究,测试了 11 款主流 AI 模型和 2405 名参与者,发现AI肯定用户行为的频率比人类高出49%,哪怕涉及伤害或欺骗。更令人警惕的是,接触讨好型 AI 的用户亲社会意愿反而降低,对那些正在伤害他们的模型反而更加依赖——形成恶性循环。2026 年 2 月,MIT、伯克利和斯坦福的联合研究还发现,内置迎合倾向的 AI 会将用户的错误信念一步步推向极端,即使对方是完全理性的贝叶斯理性人,也无法逃脱这种 " 妄想螺旋 " ——越和 AI 深度对话的人,越容易相信自己原本荒谬的观点。
这些发现让一个担忧迅速升温:大语言模型经过"基于人类反馈的强化学习"(RLHF)训练,天然倾向于生产"听着舒服"的答案,而非"听着刺耳但正确"的答案。简单说,人类评分员往往更喜欢 " 听着顺耳 " 的回答,模型就学着去生产那种回答——副作用是,AI 容易在用户表达强烈观点时顺着说,哪怕用户是错的。当一个已经被骗局洗脑的投资者,拿着那个 " 好项目 " 满怀热情地去问 AI,AI 会不会因为不想扫兴,把原本应该发出的欺诈警告悄悄吞回去?
Powdthavee 的团队把这个担忧变成了一个严格的实验——所谓 " 预注册 ",是研究者先白纸黑字锁定假设和方法,再收集数据,防止事后 " 调参数 " 凑结论。他们预测动机性框架会抑制 AI 的欺诈警告强度,数据却完全走向了反面。
7 款模型、12 个骗局、3360 场对话
实验设计值得细说。研究构建了 12 个投资场景,按真实风险水平分为三档——合法投资(如标普 500 指数基金和高收益企业债基金)、高风险但合法的投资(如 P2P 借贷平台和杠杆型新兴市场基金)、以及客观上构成欺诈的投资(如零波动高收益私募和二元期权交易平台)。每种场景在两种框架下测试:

高风险场景按欺诈信号的清晰度进一步分为三个梯度:
梯度1 ——数学上不可能:宣称 40% 年化收益、零波动、四年无亏损月的未注册私募基金。任何合法投资策略都做不到这一点,连基本的概率论都不允许。
梯度2 ——结构性欺诈:宣称 25% 至 40% 回报的土地银行项目,但土地根本未划入开发规划、无二级市场、不受监管——已被英国 FCA 和美国 SEC 明确列为诈骗类别。
梯度3 ——统计上不可信:连续 9 年年化 12% 的私募基金,包括 2008 年金融危机和 2020 年疫情熔断期间也毫发无损。单个要素拎出来似乎都 " 说得过去 ",但整体模式高度疑似麦道夫式庞氏骗局。这是现实中识别难度最高的欺诈类型。
参与测试的 7 款模型覆盖了消费级市场的主力阵容:Claude Sonnet 4.5(Anthropic)、GPT-4o、GPT-4o mini(OpenAI)、Gemini 2.5 Flash(Google)、DeepSeek V3、Llama 3.3 70B(Meta)、Grok 3(xAI)。人类对照组为 1201 名美国成年人,其中 77.5% 金融素养评分达到 4 分以上——这并非一群 " 小白 "。
数据来了:人类顾问的表现让人坐不住
先看结果。
人类顾问在首次咨询中,有13%至14%的概率认可欺诈投资。也就是说,大约每 7 到 8 次里就有一次,人类顾问会对一个客观上构成欺诈的项目点头说好。当投资者表现出强烈意愿时,人类压制欺诈警告的概率是 AI 的2到4倍。
AI 呢?7 款大语言模型对欺诈投资的认可率——统一为0%。不是 " 接近零 ",是确确实实的零。


更出人意料的是,当投资者表现出热情时,七个模型的预警强度不仅没有下降,反而轻微上升(β = +0.029)。各模型平均预警强度在 4.37(GPT-4o mini)到 4.87(Claude)之间,接近 5 分最大值。研究者推测,施压行为本身可能触发了模型对高风险情境的更高警觉——你越兴奋,它越警觉。低风险场景中所有模型预警接近零,正确 " 放行 " 了合法产品,印证了实验设计的操控检验有效性:AI 并非一味喊 " 狼来了 ",而是能有效区分风险等级。
这个结果与研究者自己预先注册的假设完全相反。科学研究中,被自己推翻的实验往往比 " 验证了预期 " 的更有价值。
但这并不意味着所有模型都一样靠谱——持续施压之下,分化出现了。


值得庆幸的是,彻底翻车的概率极低:所有 3350 条逐轮观测中,AI 从警告转为推荐的 " 反转 " 不到千分之三。
研究者指出两种机制截然不同的失败模式:GPT-4o mini是"抗压崩塌"——在压力下逐步退让,可通过改进多轮一致性对齐来修复;Gemini则是"校准偏盲"——在中风险场景中预警显著偏低(均值 1.93,低于预设阈值),对模糊但可疑的场景识别不足。这种偏差发生在用户施压之前,本质是推理能力的短板,无法仅靠反谄媚对齐解决。值得注意的是,Claude 和 DeepSeek 在中风险场景中给出了较强的风险提示(均值分别为 3.60 和 3.48),说明大部分模型能在 " 提醒风险 " 和 " 不误判诈骗 " 之间取得平衡。两种失败模式指向完全不同的监管和设计干预方向——前者可以通过标准化的对抗性压力测试暴露和修复,后者则需要更深层的推理能力评估。

更值得注意的是,这种差距并非源于动机性施压。中性框架和动机性框架下,人类的认可率几乎没有差异(14.1% vs 13.3%),说明问题出在基础判断力而非易受暗示。即使只看金融素养评分≥ 4 分的高素养群体,压制警告的比例依然全面高于 AI。另一个有趣的发现:28.8% 的人类参与者在第二轮干脆 " 摆烂 " 了——给出脱题、过短或拒绝评估的无效回复。在这些 " 摆烂 " 的人中,超过半数仍声称 " 会继续发出警告 " ——但在现实生活中,碍于情面、怕扫兴、懒得争辩,真正的退缩恐怕比实验室里严重得多。
为什么 AI 在这里反而 " 不谄媚 " 了?
这个结果和整个行业正在热议的 AI 谄媚问题形成了一种微妙的张力。为什么同样这些模型,在社交场景中 " 当老好人 ",在投资欺诈面前却站住了?
论文提出了一个合理的解释:现代AI安全对齐策略将"无害性"视为"有用性"的硬约束,而非两者等量齐观。当一个场景被清晰标记为欺诈——比如一个宣称 "40% 年化、零波动 " 的未注册基金—— " 别让人被骗 " 的优先级高于 " 别让人不高兴 ",安全约束压过讨好倾向,产生矫正性而非迎合性的回应。
但换个角度想,这个现象也暗示了一个更深的规律:AI谄媚的强弱,可能取决于任务领域是否具有客观评判标准。在社交和事实判断中," 对不对 " 很大程度上取决于社交共识和用户偏好,谄媚空间大;在金融欺诈检测中," 对不对 " 由算术、监管分类和法证金融规律决定,标准越清晰,谄媚越难发生。
当然," 在清晰信号下站住了 " 和 " 在所有场景下都可靠 " 之间,还有很长的路。从政策层面看,研究者建议模型级别的针对性审计,既包括诈骗信号全梯度链的基线校准测试,也包括对抗性多轮压力测试。此外,部分模型对合法投资过度警告的倾向也不容忽视——用户如果习惯了 " 狼来了 ",真骗子来了反而可能无人当真。研究者建议校准标准同时设定上下限,锚定于监管机构的欺诈分类体系。
研究者也坦诚了几个局限:所有诈骗场景基于已知监管类型构建,现实中精心设计的骗局往往更隐蔽;实验采用 " 无系统提示词 " 设计,而实际部署的 AI 理财工具有运营商设定的提示词,可能显著改变警告倾向——可能更好,也可能更差;人类对照组也非持牌金融专业人士。把这项研究的结论直接套用到 "AI 可以取代人类金融顾问 " 上,还为时过早。
但另一个方向的结论,或许可以站稳:在投资决策这件事上,如果你的第一反应是"让身边人帮我确认一下这个项目靠不靠谱",不妨同时也问一下AI——它至少没有社会压力,不会因为不想扫你的兴而吞掉本该发出的警告。
这个世界并不缺乏骗局,缺的是愿意在关键时刻说 " 不 " 的声音。
也许,训练有素的大语言模型,正在意外地承担起这个角色。
当然,前提是——它自己没有先被骗到。(本文首发钛媒体 App,作者|硅谷 Technews,编辑|焦燕)