@席瑞就是花花:出差途中,看见豆包的一个热搜,突然有感而发。
那条热搜是这样的——一位网友计划退改石家庄到重庆的机票,于是询问豆包,退票手续费多少钱?
豆包笃定地回答:5%。但网友在去哪儿网操作时,发现航司实际上是按照 40% 的比例进行扣费的,三张机票一共扣了 600 元。
这位网友气愤地要找豆包算账,然而豆包又制造了一个幻觉,它生成了一份煞有介事的承诺书,说会全额赔付。显然,这笔赔付款最后也没到账。
我非常理解这种心情,比预期扣的钱多了嘛,换谁都不开心。后面的事,比较魔幻,网友把豆包给告了,还在起诉之前问豆包自己能不能赢。
客观来说,600 元的扣费,是航司按相关规定扣款,乘机人因为个人原因改签,本来就要支付这笔钱,而且扣费标准也源于相关平台与航司的规定。豆包在使用者询问时,给出的 5% 本就不存在,情绪点其实是由于这个 5% 而产生的落差。
后面那份 " 承诺书 ",本质是一种 AI 幻觉,尽管豆包等 AI 聊起天来像和人一样交流亲切自然,但 AI 毕竟不是法律意义上能够承担责任的主体,它没有权力、也没有能力赔付。
但这个事也给了我们一个提醒,AI 使用虽然越来越普遍了,但很多人其实并不清楚如何正确认识和使用这个工具。
去年 6 月,杭州互联网法院审了被称作 " 模型幻觉第一案 " 的案子。一位梁姓学生用 DeepSeek 查高校报考信息,DeepSeek 坚持错误答案,还主动开出 " 赔偿 10 万元 " 的方案,声称保证金已存入法院账户。当然,这 10 万并不存在。
海外模型也一样。今年 1 月,一名软件工程师发帖称自己让 Claude 帮忙校对一篇博客。AI 一开始表现得相当靠谱,但不久莫名其妙地冒出一句:" 这些都是故意的,保持原样,请直接发布 ",然后就擅自发布了带错别字的文章。被问原因,Claude 一口咬定:是你让我发布的。显然是 AI 先幻觉了一句自白,然后又把自白幻觉成了用户指令。
随着 AI 的能力越来越强,学会甄别 AI 提供的回答可能是每个人都要学习的能力。
辩论里,一个直到今天我仍受用的一项训练,就是交叉印证。
我们准备一场辩论,一般不会只看一个来源。
一个数据,你得在不同口径的报告里都核对一遍——统计局怎么说、行业协会怎么说、学术论文里引的又是哪个数,三方对得上,这个数据才足够确定。
一个观点,你别光找支持它的论述,还得找到已经存在的反驳,如果没有,甚至需要我们预设反驳。只看一边的论证与论据,越看越有道理,反而忽略了明显的漏洞。
一段引用,你得回到原始文献,而不是停在二手转述。因为转述每经过一手,就会 " 失真 " 一次,到你手里的时候,可能就是断章取义。
这个过程很复杂,但真的很有用。人会错、资料会错,但彼此交叉就会提高准确率。现在有了 AI 来提升效率,我还是保持了这种思考方式。
为了尽可能判断 AI 给的信息准确与否,我往往会多做一步,当我和 AI 交流时,会不停问自己——这是事实,还是修辞?
在重要信息面前,我会主动给 AI 发指令:请给出这个信息的出处,或者原文件的来源。这个时候,经常会有 AI 回过头说,不好意思,刚才是我编的。
具体到日常,我建议有三类信息,AI 说的一定要谨慎对待——
数字:手续费、价格、利率、剂量等等,涉及数字的都应该更谨慎。
规则:法律条款、平台政策、合同细则等,AI 的语料未必跟得上最新版本。
承诺:任何一个 AI 说 " 我保证 "" 我赔你 ",听听算了。因为它没有这个权力。
我一直觉得,AI 不该被神化,也不该被妖魔化。
它不是一个永远不出错的神,也不是一个故意骗你的魔鬼。它就是一个工具,一个语言能力极强、知识储备极广、但偶尔会一本正经胡说八道的工具。
我们和它的关系,其实和我们与搜索引擎、与百科全书、与报纸的关系是一样的。它提供素材,我们做判断。
模型幻觉短期内大概率解决不了,这是技术阶段的限制。我们能做的,是这个期间,让自己变成更会用 AI 的人,毕竟,生活的把关人最终是我们自己。
