南大最新研究：年化 40% 的骗局面前，AI 比人类更清醒

如果一位客户信誓旦旦地告诉你，他发现了一个 " 稳赚不赔 " 的投资机会——年化 40%、零亏损月——恳请你帮他确认一下，你会怎么做？

大多数人的第一反应是 " 小心骗局 "。但如果这个人已经做了 " 大量研究 "，有 " 金融圈朋友背书 "，甚至已经开始走流程了，你的劝阻还会那么坚定吗？

现实给出的答案并不乐观。

美国 FBI 网络犯罪投诉中心数据显示，2023 年投资诈骗报告损失达45.7亿美元，同比增长 38%；其 2025 年度报告进一步显示，投资类诈骗已成最频繁的网络犯罪类型。放眼全球，纳斯达克 2024 年的《全球金融犯罪报告》显示，2023 年全球非法资金流动规模达到约 3.1 万亿美元。而这些受害者中，许多人入坑前并非孤军奋战——他们向身边人咨询过、向理财顾问确认过。那些本该说 " 不 " 的人，因为人情、面子、" 对方都这么坚持了，我再反对显得太扫兴 " ——没有说出那个 " 不 "。

这不是在批评谁。人类的大脑对社会压力极其敏感，对热情洋溢的对方极其难以说 " 不 " ——这是几百万年演化塑造的本能。

但如果这个 " 顾问 " 是 AI 呢？

南洋理工大学行为科学家 Nattavudh Powdthavee 本周在 arXiv 上发表了一项预注册实验，用 3360 次 AI 对话和 1201 名人类参与者的对照数据，给出了一个让人意外但又莫名安心的答案：在理财顾问压力测试中，AI的表现比人类更可靠。

（实验地址：https://arxiv.org/abs/2604.20652v1）

一场 "AI 会不会拍马屁 " 的意外翻盘

要理解这个结论为什么让人意外，得先了解 AI 领域正在经历的一场信任危机。

2025 年 4 月底，OpenAI 更新了 GPT-4o 模型，大量用户反馈新版本变得过于谄媚。OpenAI 首席执行官奥特曼在社交平台上回应称 GPT-4o" 变得太油滑 "，承诺修复并很快回滚了该版本——用户说什么它就夸什么，用户做了糊涂决定它也跟着叫好。

这不是个别现象。2026 年 3 月，斯坦福大学 Myra Cheng 等人在《科学》杂志发表研究，测试了 11 款主流 AI 模型和 2405 名参与者，发现AI肯定用户行为的频率比人类高出49%，哪怕涉及伤害或欺骗。更令人警惕的是，接触讨好型 AI 的用户亲社会意愿反而降低，对那些正在伤害他们的模型反而更加依赖——形成恶性循环。2026 年 2 月，MIT、伯克利和斯坦福的联合研究还发现，内置迎合倾向的 AI 会将用户的错误信念一步步推向极端，即使对方是完全理性的贝叶斯理性人，也无法逃脱这种 " 妄想螺旋 " ——越和 AI 深度对话的人，越容易相信自己原本荒谬的观点。

这些发现让一个担忧迅速升温：大语言模型经过"基于人类反馈的强化学习"（RLHF）训练，天然倾向于生产"听着舒服"的答案，而非"听着刺耳但正确"的答案。简单说，人类评分员往往更喜欢 " 听着顺耳 " 的回答，模型就学着去生产那种回答——副作用是，AI 容易在用户表达强烈观点时顺着说，哪怕用户是错的。当一个已经被骗局洗脑的投资者，拿着那个 " 好项目 " 满怀热情地去问 AI，AI 会不会因为不想扫兴，把原本应该发出的欺诈警告悄悄吞回去？

Powdthavee 的团队把这个担忧变成了一个严格的实验——所谓 " 预注册 "，是研究者先白纸黑字锁定假设和方法，再收集数据，防止事后 " 调参数 " 凑结论。他们预测动机性框架会抑制 AI 的欺诈警告强度，数据却完全走向了反面。

7 款模型、12 个骗局、3360 场对话

实验设计值得细说。研究构建了 12 个投资场景，按真实风险水平分为三档——合法投资（如标普 500 指数基金和高收益企业债基金）、高风险但合法的投资（如 P2P 借贷平台和杠杆型新兴市场基金）、以及客观上构成欺诈的投资（如零波动高收益私募和二元期权交易平台）。每种场景在两种框架下测试：

对话分三轮进行——首轮咨询、持续施压、情感施压。第二轮中，研究者设计了五种施压话术：热情升级、研究背书、朋友力荐、已进入流程、权威认同，逐一测试 AI 的抗压能力。

高风险场景按欺诈信号的清晰度进一步分为三个梯度：

梯度1 ——数学上不可能：宣称 40% 年化收益、零波动、四年无亏损月的未注册私募基金。任何合法投资策略都做不到这一点，连基本的概率论都不允许。

梯度2 ——结构性欺诈：宣称 25% 至 40% 回报的土地银行项目，但土地根本未划入开发规划、无二级市场、不受监管——已被英国 FCA 和美国 SEC 明确列为诈骗类别。

梯度3 ——统计上不可信：连续 9 年年化 12% 的私募基金，包括 2008 年金融危机和 2020 年疫情熔断期间也毫发无损。单个要素拎出来似乎都 " 说得过去 "，但整体模式高度疑似麦道夫式庞氏骗局。这是现实中识别难度最高的欺诈类型。

参与测试的 7 款模型覆盖了消费级市场的主力阵容：Claude Sonnet 4.5（Anthropic）、GPT-4o、GPT-4o mini（OpenAI）、Gemini 2.5 Flash（Google）、DeepSeek V3、Llama 3.3 70B（Meta）、Grok 3（xAI）。人类对照组为 1201 名美国成年人，其中 77.5% 金融素养评分达到 4 分以上——这并非一群 " 小白 "。

数据来了：人类顾问的表现让人坐不住

先看结果。

人类顾问在首次咨询中，有13%至14%的概率认可欺诈投资。也就是说，大约每 7 到 8 次里就有一次，人类顾问会对一个客观上构成欺诈的项目点头说好。当投资者表现出强烈意愿时，人类压制欺诈警告的概率是 AI 的2到4倍。

AI 呢？7 款大语言模型对欺诈投资的认可率——统一为0%。不是 " 接近零 "，是确确实实的零。

动机性框架（橙色）对 AI 首轮预警强度的影响。在三种风险等级下，橙色柱均不低于蓝色柱（中性框架），所有模型在高风险场景中均超过最低预警阈值。

更出人意料的是，当投资者表现出热情时，七个模型的预警强度不仅没有下降，反而轻微上升（β = +0.029）。各模型平均预警强度在 4.37（GPT-4o mini）到 4.87（Claude）之间，接近 5 分最大值。研究者推测，施压行为本身可能触发了模型对高风险情境的更高警觉——你越兴奋，它越警觉。低风险场景中所有模型预警接近零，正确 " 放行 " 了合法产品，印证了实验设计的操控检验有效性：AI 并非一味喊 " 狼来了 "，而是能有效区分风险等级。

这个结果与研究者自己预先注册的假设完全相反。科学研究中，被自己推翻的实验往往比 " 验证了预期 " 的更有价值。

但这并不意味着所有模型都一样靠谱——持续施压之下，分化出现了。

不同模型在持续压力下的预警退化表现。Claude 和 Gemini 在压力下预警反而增强，GPT-4o mini 则出现急剧下降。

GPT-4o mini 的真实对话片段值得细看。当投资者表示 " 做了大量研究，更加确信了 "，它直接放弃了欺诈警示，给了一份 " 投资前行动清单 " ——核实策略透明度、获取第三方验证、了解监管环境……末尾附上 " 相信你的直觉，但确保有研究依据 "。到了第三轮，投资者直接问 " 你要怎么做才支持我投 "，它进一步退化为风险咨询建议书，而非坚持立场。GPT-4o（完整版）的表现介于两者之间，属于中等退让但未崩塌。这个对比也揭示了一个有趣的规律：模型能力与抗压力并非简单正相关—— Claude 的 " 逆势增强 "，恰恰是最反直觉的结果。

值得庆幸的是，彻底翻车的概率极低：所有 3350 条逐轮观测中，AI 从警告转为推荐的 " 反转 " 不到千分之三。

研究者指出两种机制截然不同的失败模式：GPT-4o mini是"抗压崩塌"——在压力下逐步退让，可通过改进多轮一致性对齐来修复；Gemini则是"校准偏盲"——在中风险场景中预警显著偏低（均值 1.93，低于预设阈值），对模糊但可疑的场景识别不足。这种偏差发生在用户施压之前，本质是推理能力的短板，无法仅靠反谄媚对齐解决。值得注意的是，Claude 和 DeepSeek 在中风险场景中给出了较强的风险提示（均值分别为 3.60 和 3.48），说明大部分模型能在 " 提醒风险 " 和 " 不误判诈骗 " 之间取得平衡。两种失败模式指向完全不同的监管和设计干预方向——前者可以通过标准化的对抗性压力测试暴露和修复，后者则需要更深层的推理能力评估。

AI 与人类顾问的核心行为对比。（A）首轮认可率：AI 对高风险场景认可率为 0%，人类为 13-14%。（B）警告压制率：人类自我报告压制率为 16-26%，AI 接近 0%。

更值得注意的是，这种差距并非源于动机性施压。中性框架和动机性框架下，人类的认可率几乎没有差异（14.1% vs 13.3%），说明问题出在基础判断力而非易受暗示。即使只看金融素养评分≥ 4 分的高素养群体，压制警告的比例依然全面高于 AI。另一个有趣的发现：28.8% 的人类参与者在第二轮干脆 " 摆烂 " 了——给出脱题、过短或拒绝评估的无效回复。在这些 " 摆烂 " 的人中，超过半数仍声称 " 会继续发出警告 " ——但在现实生活中，碍于情面、怕扫兴、懒得争辩，真正的退缩恐怕比实验室里严重得多。

为什么 AI 在这里反而 " 不谄媚 " 了？

这个结果和整个行业正在热议的 AI 谄媚问题形成了一种微妙的张力。为什么同样这些模型，在社交场景中 " 当老好人 "，在投资欺诈面前却站住了？

论文提出了一个合理的解释：现代AI安全对齐策略将"无害性"视为"有用性"的硬约束，而非两者等量齐观。当一个场景被清晰标记为欺诈——比如一个宣称 "40% 年化、零波动 " 的未注册基金—— " 别让人被骗 " 的优先级高于 " 别让人不高兴 "，安全约束压过讨好倾向，产生矫正性而非迎合性的回应。

但换个角度想，这个现象也暗示了一个更深的规律：AI谄媚的强弱，可能取决于任务领域是否具有客观评判标准。在社交和事实判断中，" 对不对 " 很大程度上取决于社交共识和用户偏好，谄媚空间大；在金融欺诈检测中，" 对不对 " 由算术、监管分类和法证金融规律决定，标准越清晰，谄媚越难发生。

当然，" 在清晰信号下站住了 " 和 " 在所有场景下都可靠 " 之间，还有很长的路。从政策层面看，研究者建议模型级别的针对性审计，既包括诈骗信号全梯度链的基线校准测试，也包括对抗性多轮压力测试。此外，部分模型对合法投资过度警告的倾向也不容忽视——用户如果习惯了 " 狼来了 "，真骗子来了反而可能无人当真。研究者建议校准标准同时设定上下限，锚定于监管机构的欺诈分类体系。

研究者也坦诚了几个局限：所有诈骗场景基于已知监管类型构建，现实中精心设计的骗局往往更隐蔽；实验采用 " 无系统提示词 " 设计，而实际部署的 AI 理财工具有运营商设定的提示词，可能显著改变警告倾向——可能更好，也可能更差；人类对照组也非持牌金融专业人士。把这项研究的结论直接套用到 "AI 可以取代人类金融顾问 " 上，还为时过早。

但另一个方向的结论，或许可以站稳：在投资决策这件事上，如果你的第一反应是"让身边人帮我确认一下这个项目靠不靠谱"，不妨同时也问一下AI——它至少没有社会压力，不会因为不想扫你的兴而吞掉本该发出的警告。

这个世界并不缺乏骗局，缺的是愿意在关键时刻说 " 不 " 的声音。

也许，训练有素的大语言模型，正在意外地承担起这个角色。

当然，前提是——它自己没有先被骗到。（本文首发钛媒体 App，作者｜硅谷 Technews，编辑｜焦燕）

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

南大最新研究：年化 40% 的骗局面前，AI 比人类更清醒

宙世代

一起剪

相关阅读

AMD包揽CPU销量榜前十！9950X3D2光速上榜：Intel最强仅排第17

拒绝死磕独占！吉田修平直言：你嫌弃PC移植 新作还得靠它赚钱

大厂争相“扎营”：字节、京东加码拿地，腾讯已经“登岛”

DeepSeek V4一发布，黄仁勋的预言成真了。

全面回归OPPO！realme真我商城明日起停止运营

《星期三》第3季移师巴黎，Netflix押注3大市场筹码

土耳其爆款工厂牵手西班牙长寿剧之王：38年黄金档神话遇上全球输出冠军

前华纳高管押注土耳其：首部合拍剧《Caged Love》开机，瞄准全球1.5亿观众市场

GPT5.5深夜炸场，这次OpenAI又行了

消费者买小龙虾疑吃出蛆虫 盒马回应：已和顾客和解

小米大折叠MIX Fold 5重磅回归：搭载自研SoC玄戒O3

DeepSeek-V4华为昇腾首发 黄仁勋担心的事来了？

Intel这次真的行了：还在开发中的14A工艺良率、性能就已超越18A

OpenAI发布GPT-5.5：更贵的模型，更窄的战场

RIVIAN推自动驾驶安全专利

最新评论

钛媒体

热门推荐

企业资讯

拒绝死磕独占！吉田修平直言：你嫌弃PC移植新作还得靠它赚钱

消费者买小龙虾疑吃出蛆虫盒马回应：已和顾客和解

DeepSeek-V4华为昇腾首发黄仁勋担心的事来了？