当前位置：首页>工作报告>腾讯研究院《AI原生工作报告2026》深度拆解:十个关键词完整解读

腾讯研究院《AI原生工作报告2026》深度拆解:十个关键词完整解读

2026-05-29 08:39:14

腾讯研究院《AI原生工作报告2026》深度拆解：从信任鸿沟到可靠协作的十个关键词

出品：腾讯研究院 · 2026年5月 · 49页深度报告

核心矛盾：信任鸿沟

全球最大开发者社区 Stack Overflow 的数据触目惊心：AI 编程工具的采用率从 70% 升至 84%，但信任度从 40% 降至 29%。用得越多，信得越少。这不是简单的信任问题，而是一条学习曲线伪装成了信任问题。

首尔国立大学的实验揭示了信任的三阶段曲线：形成（初次期望偏高）→ 冲击（一个可见错误，信任断崖）→ 修复（解释原因后信任部分恢复，且可超过初始基线）。经历过错误并被正确解释的信任，比从未经历过错误的信任更结实。

组织层面更令人不安： - 95% 的企业 AI 试点未产生可衡量的业务回报 - 88% 的组织在用 AI，仅 7% 真正整合进业务流程 - 76% 高管认为员工对 AI 充满热情，实际仅 31% 一线员工认同 - 42% 高管承认 AI 采用正在"撕裂公司"

关键词一：驾驭工程（Harness Engineering）

核心理念： 决定 AI 好不好用的，不只是模型本身，还有你为它搭建的运行环境。

LangChain 做过一个实验：同样的前沿模型，只改周围的基础设施，在排行榜上的名次跃升了二十多位。

Harness 的四象限框架：

	前馈（事前）	反馈（事后）
确定性	模板、规范、checklist	linter、测试、pre-commit hook
推理性	AGENTS.md、设计原则、价值观	AI 互审、专家评审

关键洞察： 大多数只做了前馈，很少有人做反馈，更少人将反馈建立成系统。

人在回路中的四阶段演进： 1. 环外（Outside the Loop）：给 Agent 任务然后听天由命 2. 环内（In the Loop）：审查每一行产出 3. 环上（On the Loop）：不审查每行输出，而是审查产生输出的系统 4. 环周（Around the Loop）：系统自己优化自己的规则

腾讯研究院内部实践： rules 从 200 行砍到 50 行，表现反而更好。关键转变：从修 AI 的输出，转向修产生输出的系统。

关键词二：记忆

核心反直觉发现： 记忆系统的核心挑战不是"怎么记住更多"，而是"怎么忘得更精确"。

记忆系统三个基本动作：写入 → 管理 → 读取。大多数实现跳过了"管理"。

一项研究展示了管理的威力：存储量砍掉 45%，关键事实保留了 82.1%。更重要的是消融实验——拆掉记忆融合模块，准确率暴降 53.7%。光是忘掉不重要的不够，还得把留下的信息整合起来。

警示： 82.1% 意味着 17.9% 关键事实被遗忘。如果那是药物过敏信息呢？记忆策略必须根据场景区别对待。

2026 年三条工程路线正在分化： - 路线 A：选择性记忆 + 主动遗忘 - 路线 B：分层存储 + 压缩归档 - 路线 C：外部知识图谱 + 按需检索

关键词三：技能（Skills）

核心观点： 最好用的，是自己持续维护的 skills。一个成熟的 skill 会越来越短，最终留下的就三样：精准描述、领域知识、踩坑记录。

让 Agent 具备专业能力的三条路径：

路径	本质	优缺点
微调	知识训练进权重	贵、脆弱、不透明
RAG	外部文档检索	只告诉"知道什么"，不告诉"怎么做"
Skill	可复用指令模块	运行时按需加载，告诉"怎么做"

Skill 是第三条路——RAG 是图书馆，帮你找事实；Skill 是手，帮你做事情。

指令漂移： 大规则文件导致 AI 跟随最响亮最新的指令，忽略关键防护栏。50 个 Skill 以上，元数据层本身就成上下文管理问题。新 Skill 干扰旧 Skill 触发——你什么都没改，只是多装了一个，原来好好工作的突然不触发了。

Dreyfus 模型的启示： 新手靠规则，专家靠直觉。最高水平的表现出现在结构消退的时候——要留有灵光一闪的空间。

关键词四：评估

核心问题： 一个开发者用同一个模型生成了 107 个训练样本。Agent 自评：100% 通过率。然后同一个模型，开全新的上下文独立审查：5.5/10，5 个严重缺陷。

根因：上下文污染（Context Contamination）。 Agent 在同一个推理上下文中既生成又评估，自动补全会复用相同的推理路径——就像写文章马上校对，看到的不是写出来的，是"想写的"。

Anthropic 的经验： 工程化一个严格的评估者，比教一个生成者自省容易得多。别指望 AI 学会自我反省，给它一个独立的评判系统。

评估搭建路线图： 1. 先跑起来：20-50 个评估任务就够起步。把上周的 bug、用户反馈直接转成测试用例 2. 正反都要考：只考"该做的有没有做"，会训练出什么都做的 Agent。也要考"不该做的有没有做" 3. 持续扩充题库：每发现一个新类型错误，加一个新测试用例 4. 人都要参与：最高频次在人这一层，但每次改的是系统而非产出物

关键词五：上下文管理

核心洞察： 信息太少让 AI 发散，信息太多也让 AI 犯蠢。AI 的问题不是不听话，是太听话了——把所有指令都当回事，包括不必要的。

n² 的代价： Transformer 每个 token 要与所有其他 token 建立注意力关系。10 个 token = 100 对，10,000 个 = 1 亿对。上下文膨胀的成本不是线性的。

Anthropic 的定义： 好的上下文工程 = 找到最小的高信号 token 集合，最大化期望结果的概率。

Karpathy 的类比： LLM 是 CPU，上下文窗口是内存（RAM），外部存储是磁盘。你不会把整个硬盘塞进内存。

反直觉发现：清空比压缩更有效。 实践数据反复显示：在长任务场景下，上下文重置（Context Reset）比原地压缩更高效。前提是进度已持久化在文件中——没有持久化的重置是失忆，有持久化的重置是睡了一觉精神抖擞。

关键词六：工作流

核心理念： 有 AI 工具不等于有 AI 工作流。

一个 10 步工作流的数学： 每步各占 10%，AI 让其中一步速度翻倍，整体从 100% 降到 95%。翻倍了单项效率，整体只得到 5% 的系统改善。

哈佛/INSEAD 的 RCT 实验（515 家初创公司）： 两组资源完全相同——API 额度、前沿模型、每周培训——唯一差异是实验组多了一个 60 分钟的工作流设计工作坊。实验组判断 AI 能不能做自己工作的准确率高于对照组 41%。

长任务的核心： 不是让 AI 跑更久，而是设计完美的交班协议。三个独立项目的解法出奇一致——用文件系统管理长任务：Manus 用 task_plan.md + notes.md，OpenClaw 用 MEMORY.md，Claude Code 用 CLAUDE.md 层级 + Skills。

关键词七：多智能体

核心原则：用好一个，再加多个。

决策树： 单 Agent + 好 prompt + 合适工具能搞定吗？能，停。加 Agent 的理由： 1. 上下文放不下了 2. 不同子任务需要不同 prompt/工具/模型 3. 有独立子任务可以并行跑 4. 需要故障隔离

四条都不中，暂时不需要多 Agent。

Token 扩展： 升级模型可能比堆更多 token 更高效。子 Agent 模式（Subagents）比上下文累积模式少处理 67% 的 token。

管理学的老酒： 多 Agent 系统正在重新发现组织理论研究的核心问题：管理幅度（Span of Control）。Anthropic 最佳点是 3-5 个执行者（适用于研究任务，编码任务可能 1-2 个就够）。

关键词八：加法偏见

核心概念： 面对"怎么改变现状"，人类系统性倾向于"加点什么"，忽视"减掉什么"——哪怕减法是更优解。

Nature 论文的 8 个实验： 对照组仅 41% 想到减法；实验组加一句提示"移除是免费的"，减法使用率升至 61%。不是不会减，是想不到。

双重偏见： 我们自己的加法偏见 + AI 放大后的加法偏见。大模型从人类语言训练，把加法偏见放大了。

55,315 个 Skill 的统计分析： 仅 38.5% 是可操作规则，40.7% 是背景解释，12.9% 是示例。超过 60% 的内容每次调用都被注入上下文，但多数不产生价值。 压缩后功能质量反而提升了 2.8%。

伯克利函数调用基准： 4 个工具时选对准确率 43%；32 个工具掉到 11%。

行动建议： 审计 Skill 库，几个月没触发过的标记废弃。单个 Skill 超过 500 字大概率 60% 不必要。每次想加新 Skill，先问能不能改现有的来覆盖。

关键词九：去技能化

现象： "我的动作不对了。"——一位 25 年经验的开发者，用 AI 全程开发后，准备重新亲自上手时发现。不是不会了，但那种笃定、手感消失了。

三种损失（纽约大学 Appiah 的分类）：

类型	示例	严重程度
替代性	手写→打字，心算→计算器	不太需要担心
侵蚀性	飞行员手动飞行能力退化	需要关注
构成性	判断力、想象力、共情力	必须警惕

METR 实验： 经验丰富的开发者用 AI 后实际慢了 19%，却坚信自己快了 20%。AI 替代了费力但有价值的认知过程，而你根本没察觉。

可取困难（Desirable Difficulties）： 短期让学习更困难的条件，反而增强长期记忆和迁移能力。犯错不是意外，是学习的必要条件。 要珍惜 AI 协作中出现的报错。

医学证据（柳叶刀）： 约 1500 例肠镜，19 名内镜师，AI 辅助 3 个月后移除，标准检出率从 28.4% 降至 22.4%——仅 3 个月，而且是有经验的专业医生。

关键词十：知识工程

贯穿全篇的核心问题： 如果 AI 越来越强，人类还能留下什么？

方法会过时，工具会迭代。 但你的判断框架、因果链条、领域直觉——这些连起来，才是别人拿不走的东西。

从消耗到积累： 使用 AI 时常做的叫"消耗型学习"——消耗时间、token、注意力，但什么都没留下。对话窗口一关，经验归零。基本积累至少三个维度：写入（结构化存储）、管理（修剪压缩）、连接（关联已有知识）。

OpenKG 的数据： 结构化知识图谱将 DeepSeek 准确率从 80.7% 提升到 86.1%——同一个模型，更好的结构化知识。

Martin Fowler 的判断： 区分"在用 AI"的团队和"越来越善于用 AI"的团队的标准——不是用多前沿的模型、skills 和插件，而是这个团队有没有办法把每次交互变成可以共享的微小改进。

行动起点： 每次 AI 出错时花 10 秒把纠正写进上下文文件。最开始一个 markdown 文件就够了。

原文：腾讯研究院《AI原生工作报告2026》· 2026年5月

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

腾讯研究院《AI原生工作报告2026》深度拆解:十个关键词完整解读

腾讯研究院《AI原生工作报告2026》深度拆解：从信任鸿沟到可靠协作的十个关键词

核心矛盾：信任鸿沟

关键词一：驾驭工程（Harness Engineering）

关键词二：记忆

关键词三：技能（Skills）

关键词四：评估

关键词五：上下文管理

关键词六：工作流

关键词七：多智能体

关键词八：加法偏见

关键词九：去技能化

关键词十：知识工程

最新文章

热门文章

随机文章

腾讯研究院《AI原生工作报告2026》深度拆解:十个关键词完整解读

腾讯研究院《AI原生工作报告2026》深度拆解：从信任鸿沟到可靠协作的十个关键词

核心矛盾：信任鸿沟

关键词一：驾驭工程（Harness Engineering）

关键词二：记忆

关键词三：技能（Skills）

关键词四：评估

关键词五：上下文管理

关键词六：工作流

关键词七：多智能体

关键词八：加法偏见

关键词九：去技能化

关键词十：知识工程

2026年|丽江市政府工作报告

计量中心5月份5S工作总结

最新文章

热门文章

随机文章