腾讯研究院《AI原生工作报告2026》驾驭AI从信任鸿沟到可靠协作的十个关键词
2023 年,全球最大开发者社区 Stack Overflow 的年度开发者调 查显示 AI 编程工具的信任度是 40%。两年后,采用率从 70% 升到了 84%。信任度降到了 29%。用得越多,信得越少。为什 么我们很少见到一个技术是这样的? 这个不是简单的信任问题。Stack Overflow 自己的分析给了一 个精准的判断:这是一条学习曲线,伪装成了信任问题。这句 话值得琢磨。以当前AI应用最广的领域为例,软件工程师的职业 训练建立在确定性上。写同样的函数,传同样的参数,得到同 样的结果。然而,当 AI 来了。同一个问题问两遍,两个答案, 两种结构,两套取舍方案。都能跑。对于严谨的工程师来说, 这样的特性,需要一个适应过程。这种感受不是程序员独有的。 律师期望同一条法规的检索结果稳定一致,医生期望同一组指 标指向确定的诊断方向,金融分析师期望同一套参数产出可复 现的估值。概率性系统进入确定性职业的地盘,遇到的不是能 力质疑,是一种更原始的不适:认知摩擦。但信任低,不意味 着人们在验证。就目前来说,人们对于AI的信任偏差并没有形成 体系的方法论来约束它,利用好它。另一组非常矛盾的行为数据。代码质量平台 Sonar 的调查揭了 一组更值得琢磨的数字:96% 的开发者不完全信任 AI 代码的功 能正确性。但只有 48% 的人在提交前始终检查。几乎所有人都 说“我不信”,一半人说完就点了提交。为什么不查?不是因为懒。 38% 的开发者觉得审查 AI 代码比审查人类代码更费力。为什么 更费力?AI 产出“看起来正确但不可靠”,不像语法错误会让构 建直接失败,AI 写出来的是看着合理的逻辑,bug 藏在里面, 需要更高的专业判断力才能揪出来。这是一个隐蔽的成本转移:AI 把“写”的工作量砍下来了,但把 “查”的负担顶上去了。查的成本一旦超出预期,人们的反应不是 更仔细地查,是不查了。嘴上的不信任是安全的。手上的放行 才危险。除了上述的行为失控,还有更麻烦的感知失真,也就是说,你甚至不知道自己的判断已经偏了。斯坦福大学 Dan Boneh 团队 在 CCS 2023(计算机安全顶会)上发了一项随机对照实验。用 AI 助手的参与者在多数安全编程任务中写出了更多不安全的代 码。写出不安全代码的那批人,对 AI 的信任评分反而更高。你 越觉得它帮了你,它越可能在坑你。这时候你可能会说,经验 丰富的开发者是否可以避免这个问题?AI 安全评估机构 METR 在 2025 年做了另一个实验。16 名经验丰富的开源开发者,在自 己贡献多年的仓库上干活,用的是前沿模型。结果:实际慢了 19%。自我感觉快了 20%。感知和现实之间差了 39 个百分点。 研究团队也指出,在不熟悉的代码库或简单任务上,AI 可能确 实有帮助。但在高质量标准和复杂隐含要求的场景下,验证和 整合 AI 输出的开销把速度收益吃回去了。两种情况下,人们对 自身表现的判断都偏向乐观。要么留下了风险代码,要么增加 人工检查,反而导致效率下降。用了,并不一定等于用好了。