腾讯研究院《AI原生工作报告2026》深度拆解:从信任鸿沟到可靠协作的十个关键词
出品:腾讯研究院 · 2026年5月 · 49页深度报告
核心矛盾:信任鸿沟
全球最大开发者社区 Stack Overflow 的数据触目惊心:AI 编程工具的采用率从 70% 升至 84%,但信任度从 40% 降至 29%。用得越多,信得越少。这不是简单的信任问题,而是一条学习曲线伪装成了信任问题。
首尔国立大学的实验揭示了信任的三阶段曲线:形成(初次期望偏高)→ 冲击(一个可见错误,信任断崖)→ 修复(解释原因后信任部分恢复,且可超过初始基线)。经历过错误并被正确解释的信任,比从未经历过错误的信任更结实。
组织层面更令人不安:
- 95% 的企业 AI 试点未产生可衡量的业务回报
- 88% 的组织在用 AI,仅 7% 真正整合进业务流程
- 76% 高管认为员工对 AI 充满热情,实际仅 31% 一线员工认同
- 42% 高管承认 AI 采用正在"撕裂公司"
关键词一:驾驭工程(Harness Engineering)
核心理念: 决定 AI 好不好用的,不只是模型本身,还有你为它搭建的运行环境。
LangChain 做过一个实验:同样的前沿模型,只改周围的基础设施,在排行榜上的名次跃升了二十多位。
Harness 的四象限框架:
|
前馈(事前) |
反馈(事后) |
| 确定性 |
模板、规范、checklist |
linter、测试、pre-commit hook |
| 推理性 |
AGENTS.md、设计原则、价值观 |
AI 互审、专家评审 |
关键洞察: 大多数只做了前馈,很少有人做反馈,更少人将反馈建立成系统。
人在回路中的四阶段演进:
1. 环外(Outside the Loop):给 Agent 任务然后听天由命
2. 环内(In the Loop):审查每一行产出
3. 环上(On the Loop):不审查每行输出,而是审查产生输出的系统
4. 环周(Around the Loop):系统自己优化自己的规则
腾讯研究院内部实践: rules 从 200 行砍到 50 行,表现反而更好。关键转变:从修 AI 的输出,转向修产生输出的系统。
关键词二:记忆
核心反直觉发现: 记忆系统的核心挑战不是"怎么记住更多",而是"怎么忘得更精确"。
记忆系统三个基本动作:写入 → 管理 → 读取。大多数实现跳过了"管理"。
一项研究展示了管理的威力:存储量砍掉 45%,关键事实保留了 82.1%。更重要的是消融实验——拆掉记忆融合模块,准确率暴降 53.7%。光是忘掉不重要的不够,还得把留下的信息整合起来。
警示: 82.1% 意味着 17.9% 关键事实被遗忘。如果那是药物过敏信息呢?记忆策略必须根据场景区别对待。
2026 年三条工程路线正在分化:
- 路线 A:选择性记忆 + 主动遗忘
- 路线 B:分层存储 + 压缩归档
- 路线 C:外部知识图谱 + 按需检索
关键词三:技能(Skills)
核心观点: 最好用的,是自己持续维护的 skills。一个成熟的 skill 会越来越短,最终留下的就三样:精准描述、领域知识、踩坑记录。
让 Agent 具备专业能力的三条路径:
| 路径 |
本质 |
优缺点 |
| 微调 |
知识训练进权重 |
贵、脆弱、不透明 |
| RAG |
外部文档检索 |
只告诉"知道什么",不告诉"怎么做" |
| Skill |
可复用指令模块 |
运行时按需加载,告诉"怎么做" |
Skill 是第三条路——RAG 是图书馆,帮你找事实;Skill 是手,帮你做事情。
指令漂移: 大规则文件导致 AI 跟随最响亮最新的指令,忽略关键防护栏。50 个 Skill 以上,元数据层本身就成上下文管理问题。新 Skill 干扰旧 Skill 触发——你什么都没改,只是多装了一个,原来好好工作的突然不触发了。
Dreyfus 模型的启示: 新手靠规则,专家靠直觉。最高水平的表现出现在结构消退的时候——要留有灵光一闪的空间。
关键词四:评估
核心问题: 一个开发者用同一个模型生成了 107 个训练样本。Agent 自评:100% 通过率。然后同一个模型,开全新的上下文独立审查:5.5/10,5 个严重缺陷。
根因:上下文污染(Context Contamination)。 Agent 在同一个推理上下文中既生成又评估,自动补全会复用相同的推理路径——就像写文章马上校对,看到的不是写出来的,是"想写的"。
Anthropic 的经验: 工程化一个严格的评估者,比教一个生成者自省容易得多。别指望 AI 学会自我反省,给它一个独立的评判系统。
评估搭建路线图:
1. 先跑起来:20-50 个评估任务就够起步。把上周的 bug、用户反馈直接转成测试用例
2. 正反都要考:只考"该做的有没有做",会训练出什么都做的 Agent。也要考"不该做的有没有做"
3. 持续扩充题库:每发现一个新类型错误,加一个新测试用例
4. 人都要参与:最高频次在人这一层,但每次改的是系统而非产出物
关键词五:上下文管理
核心洞察: 信息太少让 AI 发散,信息太多也让 AI 犯蠢。AI 的问题不是不听话,是太听话了——把所有指令都当回事,包括不必要的。
n² 的代价: Transformer 每个 token 要与所有其他 token 建立注意力关系。10 个 token = 100 对,10,000 个 = 1 亿对。上下文膨胀的成本不是线性的。
Anthropic 的定义: 好的上下文工程 = 找到最小的高信号 token 集合,最大化期望结果的概率。
Karpathy 的类比: LLM 是 CPU,上下文窗口是内存(RAM),外部存储是磁盘。你不会把整个硬盘塞进内存。
反直觉发现:清空比压缩更有效。 实践数据反复显示:在长任务场景下,上下文重置(Context Reset)比原地压缩更高效。前提是进度已持久化在文件中——没有持久化的重置是失忆,有持久化的重置是睡了一觉精神抖擞。
关键词六:工作流
核心理念: 有 AI 工具不等于有 AI 工作流。
一个 10 步工作流的数学: 每步各占 10%,AI 让其中一步速度翻倍,整体从 100% 降到 95%。翻倍了单项效率,整体只得到 5% 的系统改善。
哈佛/INSEAD 的 RCT 实验(515 家初创公司): 两组资源完全相同——API 额度、前沿模型、每周培训——唯一差异是实验组多了一个 60 分钟的工作流设计工作坊。实验组判断 AI 能不能做自己工作的准确率高于对照组 41%。
长任务的核心: 不是让 AI 跑更久,而是设计完美的交班协议。三个独立项目的解法出奇一致——用文件系统管理长任务:Manus 用 task_plan.md + notes.md,OpenClaw 用 MEMORY.md,Claude Code 用 CLAUDE.md 层级 + Skills。
关键词七:多智能体
核心原则:用好一个,再加多个。
决策树: 单 Agent + 好 prompt + 合适工具能搞定吗?能,停。加 Agent 的理由:
1. 上下文放不下了
2. 不同子任务需要不同 prompt/工具/模型
3. 有独立子任务可以并行跑
4. 需要故障隔离
四条都不中,暂时不需要多 Agent。
Token 扩展: 升级模型可能比堆更多 token 更高效。子 Agent 模式(Subagents)比上下文累积模式少处理 67% 的 token。
管理学的老酒: 多 Agent 系统正在重新发现组织理论研究的核心问题:管理幅度(Span of Control)。Anthropic 最佳点是 3-5 个执行者(适用于研究任务,编码任务可能 1-2 个就够)。
关键词八:加法偏见
核心概念: 面对"怎么改变现状",人类系统性倾向于"加点什么",忽视"减掉什么"——哪怕减法是更优解。
Nature 论文的 8 个实验: 对照组仅 41% 想到减法;实验组加一句提示"移除是免费的",减法使用率升至 61%。不是不会减,是想不到。
双重偏见: 我们自己的加法偏见 + AI 放大后的加法偏见。大模型从人类语言训练,把加法偏见放大了。
55,315 个 Skill 的统计分析: 仅 38.5% 是可操作规则,40.7% 是背景解释,12.9% 是示例。超过 60% 的内容每次调用都被注入上下文,但多数不产生价值。 压缩后功能质量反而提升了 2.8%。
伯克利函数调用基准: 4 个工具时选对准确率 43%;32 个工具掉到 11%。
行动建议: 审计 Skill 库,几个月没触发过的标记废弃。单个 Skill 超过 500 字大概率 60% 不必要。每次想加新 Skill,先问能不能改现有的来覆盖。
关键词九:去技能化
现象: "我的动作不对了。"——一位 25 年经验的开发者,用 AI 全程开发后,准备重新亲自上手时发现。不是不会了,但那种笃定、手感消失了。
三种损失(纽约大学 Appiah 的分类):
| 类型 |
示例 |
严重程度 |
| 替代性 |
手写→打字,心算→计算器 |
不太需要担心 |
| 侵蚀性 |
飞行员手动飞行能力退化 |
需要关注 |
| 构成性 |
判断力、想象力、共情力 |
必须警惕 |
METR 实验: 经验丰富的开发者用 AI 后实际慢了 19%,却坚信自己快了 20%。AI 替代了费力但有价值的认知过程,而你根本没察觉。
可取困难(Desirable Difficulties): 短期让学习更困难的条件,反而增强长期记忆和迁移能力。犯错不是意外,是学习的必要条件。 要珍惜 AI 协作中出现的报错。
医学证据(柳叶刀): 约 1500 例肠镜,19 名内镜师,AI 辅助 3 个月后移除,标准检出率从 28.4% 降至 22.4%——仅 3 个月,而且是有经验的专业医生。
关键词十:知识工程
贯穿全篇的核心问题: 如果 AI 越来越强,人类还能留下什么?
方法会过时,工具会迭代。 但你的判断框架、因果链条、领域直觉——这些连起来,才是别人拿不走的东西。
从消耗到积累: 使用 AI 时常做的叫"消耗型学习"——消耗时间、token、注意力,但什么都没留下。对话窗口一关,经验归零。基本积累至少三个维度:写入(结构化存储)、管理(修剪压缩)、连接(关联已有知识)。
OpenKG 的数据: 结构化知识图谱将 DeepSeek 准确率从 80.7% 提升到 86.1%——同一个模型,更好的结构化知识。
Martin Fowler 的判断: 区分"在用 AI"的团队和"越来越善于用 AI"的团队的标准——不是用多前沿的模型、skills 和插件,而是这个团队有没有办法把每次交互变成可以共享的微小改进。
行动起点: 每次 AI 出错时花 10 秒把纠正写进上下文文件。最开始一个 markdown 文件就够了。
原文:腾讯研究院《AI原生工作报告2026》· 2026年5月