一周前读到了由腾讯研究院发布的“AI原生工作报告”,内容比较多,反复读了三遍。对报告中提到内容多有感触,自己在使用AI的过程中也遇到过报告里提到的问题。本篇文章是我对该报告内容的个人理解,以及对报告观点的分享。整个报告由序言和十个关键词组成,涵盖了当前AI应用中的核心内容。十个关键词依次为:驾驭工程(harness engineering)、记忆(memory)、技能(skill)、评估(evaluation)、上下文(context)、工作流(workflow)、多智能体(multi-agents)、加法偏见、去技能化和知识工程。内容上主要是理论研究和指导为主,不包含具体的实践。- AI编程工具生成的代码采用率两年间从70%升到84%,但信任度却从40%下降到了29%。采用的越多,却越不信任。
- 96%的开发者不完全信任AI编程工具生成的代码,却只有48%的开发者在提交代码前会进行检查。不信任AI,却大都不做检查。
现在的大语言模型本质上是一个概率性系统,并不是像人类大脑一样的智慧系统。软件工程师的职业训练建立在确定性上,写一个函数,传同样的参数,多次调用都会得到同样的结果。但AI编程工具不同,同样的问题描述,多次调用会得到不同的答案。这种特性的转变需要一个适应过程。这种感受不是程序员独有的,像律师、医生、金融分析师等都有类似的感受。这些数据和行为感受并不是简单的信任问题,而是一条学习曲线。每个使用AI的人都在走一条学习曲线,从惊艳到怀疑,再从怀疑中找到自己的节奏与方法。AI的推广和使用趋势已经不可阻挡,已经在深度影响每一个行业。我们要在依赖AI工具和控制程度中间找到“甜点”,在使用AI工具的过程中保留适当的自主检查和决策环节。在Ai产出出现问题时能够兜得住,并在使用过程中不断发现问题并完善系统,是这条学习曲线上需要重复多次实践的。二、驾驭工程-Harness Engineering驾驭工程无疑是2026年开年以来AI圈最火的概念和讨论最多的内容之一。同一个模型,换了一套执行环境,AI的执行效果就天差地别。驾驭工程成了除模型自身能力以外另一个能显著提升产出效果的工程方向,是继提示词工程和上下文工程之后爆火的理论。可以使用以下描述来说明驾驭工程:每当发现Agent犯了一个错误,花时间将解决方案工程化,让它再也不犯同样的错误;约束、反馈循环、自动验证、文档同步、架构强制,加在一起就是Harness。提示词工程阶段研究怎么跟AI说话-调措辞、加示例、调格式,优化的是一次性的输入。上下文工程阶段是为AI提供正确的背景信息,本质还是优化的“给AI看什么”。驾驭工程阶段则不再优化输入,而是开始设计AI运行的环境--约束系统、反馈循环、验证机制、状态管理。AI在我们设计好的环境里干活,在环境边界以内充分发挥,在边界上严格约束,不产生破坏性结果。驾驭工程以什么形态存在?报告中提到一个相对系统化且易于理解的分类体系。包括两个维度:- 控制方向:AI行动之前预防,行动之后检测纠正。前者叫前馈,后者叫反馈。只有前馈,AI记住了规则但不知道有没有用对。只有反馈,AI反复犯同一个错直到检测机制告诉它。
- 执行类型:确定性 vs 推理性。确定性靠自动化规则,毫秒级,零误报。推理性靠AI审查,耗时长,但能看到更高层的语义模式。
Harness(整体概念)|---- 前馈x确定性 -> 模板、规范等|---- 前馈x推理性 -> AGENTS.md、设计原则|---- 反馈x确定性 -> linter、测试、pre-commit hook|---- 反馈x推理性 -> AI互审、专家评审
在人机协作、部署驾驭工程的过程中人在什么位置呢?有几种情况:- 人在环外:给Agent一个任务任其自由发挥,结果听天由命。
- 人在环内:审查Agent的每一行输出,是安全了,但人成了瓶颈,人更累了且效率还没有提升。
- 人在环上:设计环境,监督Agent的执行,当结果不符合预期时不是直接修改产出物,而是修改生产产出物的系统。
- 代理飞轮:人与Agent合作,用Agent改进驾驭工程自身,评估表现,推荐改进,人审批后自动应用。驾驭工程开始自我迭代,持续进化。
我们需要往“人在环上”和“代理飞轮”的方向上实践,控制住自己直接修改产出物的冲动,而是修改生产产出物的系统环境,不断完善Agent的系统环境,避免相同的问题重复出现。要想高好的使用记忆,可能要先学会更精确地忘记。认知科学早就发现遗忘不是系统故障,而是设计特性,大脑通过主动丢弃低价值信息来保护高价值信息的检索效率。现在AI的记忆也在学同一课内容。AI记忆系统的三个基本动作:写入(write)、管理(manage)、读取(read)。但大多数实现只做了写入和读取,而忽略了管理的重要性。持续的写入积累,会逐步降低记忆的使用效果,出现更多干扰和不合理的丢弃。记忆管理包含了四件事:修剪--把不重要的记忆降权或删除;压缩--把冗长的历史提炼成关键事实;巩固--把反复出现的信息从短期记忆升级为长期记忆;冲突解决--两条记忆冲突时决定保留哪个。现在诸多记忆项目或插件大都是基于过去几十年认知科学研究而构建的,在实践的过程中有以下5条认知科学教训。- 教训1:容量在未来将不是瓶颈,注意力才是。将全部对话历史都塞进上下文窗口,相当于绕过了大脑的注意力过滤器。应该做的是在模型看到信息前就替它筛选好。
- 教训2:怎么存决定了能不能找到。更为有效存的方式是提取离散事实,进行深层处理,才可以提升检索的准确率。直做浅层处理(逐字存或压缩成摘要存)检索效率不高。
- 教训3:只追加而不整理的记忆存储,最终会变成一台干扰引擎。旧信息干扰新信息,新信息也干扰旧信息。当记忆规模逐渐增大后,整理是必须执行的工作,才能让记忆能用、好用。
- 教训4:遗忘。低相关的内容随时间衰减,最后删除,给高价值的信息腾出检索通道。
- 教训5:巩固需要时间。不是所有的短期记忆都需要立刻升级为长期记忆,需要一个考察期,逐层提升。
目前在记忆领域有三条正在发展中的工程路线,可以作为参考。- 选择性实时提取路线:从对话中自动提取离散事实,去重、更新、按需检索。信任的是系统的提取管线。对应认知科学里的语义记忆。
- 文档化自主管理:记忆是Agent自己维护的文档集合,由Agent自己决定写什么、怎么阻止、何时更新。信任的是Agent的组织能力。Anthropic在实践的路线。对应认知科学里的情景记忆。
- 结构化知识图谱:记忆是实体+关系+实践的图谱。最大的创新是推理记忆,不只记住事实,还记录怎么解决问题的完整推理痕迹。对应认知科学里的关系记忆。
关于如何开始实践?可以从在项目根目录创建一个记忆文件,不超过200行,声明核心约定、常见错误、偏好设置等。使用过程中发现问题持续增加记录,每周看一下文件大小,超过200行就整理以下。我们不需要一步到位上最复杂的系统,每一步都应该是由“现有能力解决不了的问题”驱动的,边用边改。skills从去年推出以来似乎变成万能的了,各种平台上开源出来的skill数量爆发式增长。铺天盖地的文章或短视频告诉你Agent用不好是没装哪些skills。似乎skill成了解决各种问题的灵丹妙药或万能工具。那skill是否能够解决我们所有的问题吗?是不是skill越多越好?我个人理解,理论上skill能够解决我们在使用AI使用过程中遇到的各种问题。skill本质上是某一个领域内的专家知识或解决方案的实践,补充AI不具备的能力。类似于工具之于人类,只要找到合适的工具就能解决人类遇到的各种问题,问题解决不了那可能是还没有找到正确的工具。skill并不是越多就越好。AI的上下文永远是稀缺资源,虽然skill的渐进式披露就是为了减少不合理的上下文占用,但过多的skill集成还是会导致上下文占用膨胀。更严重的情况是有相同触发词或能力有交叉的skill同时配置时,会导致指令漂移,模型性能骤降。另外,skill也不是越长越好。一个面面俱到的指令,实际上是把模型锁在了“新手模式”里,无法发挥模型的能力。成熟的skill越来越短,逐步向专家靠拢。最后什么样的skill才是一个好的skill呢?Anthropic内部运行着数百个生产级skill,工程师们总结的经验比理论框架更直接,有以下几个关键要点:- 精确的描述:描述不是摘要,是触发条件集,是写给模型看的。
- 不可替代的领域知识:不要写显而易见的东西,模型自己能做到的不需要你教,聚焦在那些能推动它超越默认思路的信息上。
- 踩坑记录:这是最有价值的部分,不是预先设想的,是基于真实失败积累的。每一条都对应一次Agent犯过的错
其余的都信任模型。模型的能力在不断增长,skill也是应该持续维护和清理的。最好用的skill是自己持续维护的skill,我们可以去学习那些优秀的skill是怎么写的,学习他们的思想,但自己动手实践并持续维护。遇到某个类型的问题,试着自己创建一个skill,最初只包含一个SKILL.md,不超过50行。然后放到生产环境去用,持续收集执行状况、错误、失败模式,然后完善。某些指令模型已经不需要了,就删掉。某个边界情况反复出现,加一条踩坑记录。确认skill变短了但变现没有下降,你就是在持续进步。使用AI编程工具时一个常见的问题就是制定方案、编写代码和审查代码用的都是同一个模型,大部分时间都还是在同一个会话周期内。往往审查的效果会非常不好,发现不了问题。这里的技术根因是:上下文污染,Agent在同一个推理上下文中即生成又评估,自动补全机制会复用相同的推理路径。处理上面这种问题的关键是把做工作的Agent和判断工作的Agent分开。受生成对抗网络(GAN)对抗反馈的启发,业界形成了一套叫PGE的三角色架构:规划者--负责把任务分解为结构化规格说明;生成者--按规格产出内容;评估者--对照规格审查产出,输出结构化批评。Anthropic在实战中用了这套思路,生成者和评估者各自跑在独立的上下文窗口里,靠文件系统通信。使评估效果大大提升了。评估这一环节在使用AI工具时往往容易遗漏,依靠使用者自己的经验来进行评估,或者简单使用AI再次评估下。这里也有一定的原因,我们使用AI处理的事情有我们熟悉的,也有我们不熟悉的领域。大多时候我们是不知道怎么评估效果,只能再交给AI进行评估,但效果自己又判断不清。报告中给出了搭建评估的实践建议:- 先跑起来:20~50个评估任务就够起步了,不要等题库完善后才开始。甚至你可以把你遇到的问题、bug直接转成评估任务成第一版。
- 正反都要考虑:只考“该做的事没做”,结果就是训练出一个什么都做的Agent,还需要考“不该做的事能不能忍住”。
- 只看结果,不管过程:别规定Agent必须按特定步骤执行,不然会惩罚创造性解法,只看最终结果达不达标。
- 先守住底线,再逐步加码:Agent上周能做对的事,这周别做错,这是底线。稳定之后加难度,测它现在做不到,但将来应该能做到的事。做到之后再纳入到底线,再加强度,逐步增强。
上下文是AI最重要的资源,永远是稀缺的。信息太少让AI太过发散,信息太多也会让AI犯蠢。AI的问题不是不听话,恰恰是太听话,它把所有指令都当回事,包括不必要的那些。关于上下文还有两个反直觉的发现。其一是结构化的内容反而让模型更容易犯错。当内容有逻辑连贯性时,模型被逻辑流吸引,把注意力分散到理解结构上,而不是集中在找答案。结构化的指令是好的,结构化的填充内容是坏的。比如让Ai写一封邮件,给它一句“用正式商务语气”可能就够了;但如果你塞进去两页的格式规范,字号、行距、段间距、称谓规则、落款格式等,模型反而会把注意力花在对齐格式上,而忽略了邮件本身的内容。其二是长任务场景下清空比压缩更有效。在长任务场景实验下,直觉上原地压缩应该优于重启,因为我们希望模型能记住之前讨论的话题,从而引导后续的任务完成。但实践数据反复显示:重启在很多场景下更有效。当我们工作很长时间后,更有效的方法是休息后再处理后续任务,而不是再努力集中注意力继续处理任务。上下文重置不是一个偶然的工程巧合,它对应了注意系统的一个基本特性。不要害怕清空对话重新开始,只要进度持久化在文件里了,清空往往比死撑着压缩更高效。大多数人在用AI加速单个任务,整体工作流没有动。真正卡住大家的是重新审视整个工作流。这也是大部分感觉使用AI提升的效果有限,甚至是降低了效率。一个为期十周的随机对照实验揭示了重构工作流的效果。两组有完全相同资源:API额度、前沿模型、每周3小时技术培训。唯一差异在每周1小时的工作坊:对照组学的是标准创业方法论;实验组学的是Ai原生企业如何围绕AI重组整个生产流程的前后对比案例。实验结果是:实验组比对照组在获得付费客户的概率高18%,总收入是对照组的1.9倍,资本需求降低了39.5%。研究者叫它映射问题:发现AI在生成流程中具体在哪里、如何创造价值本质上是一个搜索问题。对照组失败是因为局部搜索,在熟悉的地方找应用。实验组扩大了认知搜索空间,重构了整个生产流程。可用性支付Nielsen提出:自动化必须是端到端的,或者至少要覆盖关键路径上的所有环节。其给出了四个动作判断你是不是真正的工作流重设计:移除交接--两个环节之间不再需要人搬运数据;并行化变体--同时跑多个方案而非串行;把人类移到异常处理--常规路径全自动,人只处理出错的;增加评估循环--AI加速了生成,瓶颈转移到了评估。如果你是一个管理者,重新评估你的团队整个生产流程,找到需要人作为胶水的地方,尝试使用AI重构。非管理者可以先看下自己对接的上下游哪些是还需要人传递信息的部分,尝试应用AI改造它,逐步串起来。基于个人的工作流,可以先创建一个最基本的工作流开始,再逐步扩展完善,逐步熟悉各个环节再到不需要管理各环节。多智能体有非常广阔的应用场景,但也有复杂的应用边界,不是所有场景都适用。对于普通人,但Agent+好的提示词+合适的工具能搞定的,暂时不需要多Agent。先用好一个再用多个,可以打开更大的世界。加Agent的理由有四种:上下文不足了;不同子任务需要不同的提示词/工具/模型;有独立任务可以并行跑;需要故障隔离。如果四个理由一条都不满足,就不需要多Agent。另外,多Agent系统正在重新发现组织理论研究了几十年的问题:管理幅度,一个编排者管多少个执行者。目前,Anthropic提出的最佳点是3~5个,使用于研究任务;编码任务可能1~2个就够。人类在面对“怎么改变现状”时,系统性倾向于“加点什么”,忽视“减掉什么”。哪怕减法是更优解。如身体不舒服,第一反应是加点什么,补维生素、吃药、挂号看医生等。但有时候什么都不早,减少消化负担,身体自己就能更好地修复。加法偏见与一些相关理论--沉没成本谬误、损失厌恶、浪费厌恶等--是一伙的。2023年伯明翰大学一项研究揭示了更底层的原因:语言本身偏向加法。英语中add、more相关词的使用频率显著高于subtract、less。好消息是加法偏见不是铁律,是可以干预的,有意识地考虑减法,我们可以想办法去规避其副作用。LLM从人类语言中训练,语言本身偏向加法,在大语言模型上被放大呈现了,其比人类更极端偏向加法。我们面向的是双重偏见,我们自己的加法偏见加上AI放大后的加法偏见。做减法在AI时代不是可选的好习惯,而是必须被设计进系统的纪律。MCP、Skills、Rules等这些不是越多越好,我们需要控制其数量,甚至有意识地逐步减少。那如何做减法呢?做减法不是动手难,而是判断难。每条规则被写下来时都有道理,难的是判断它今天还有没有道理。AI研究者在几个不同的领域发现了相同的模式。黄石公园生态退化几十年,解法是重新引入狼,而不是派更多护林员。Steve Jobs砍掉了70%的产品线,救活了苹果,在功能机时代按键堆功能是管理,在触屏机时代这些惯例就变成了累赘。iphone不一定是功能最多的手机,但肯定是去掉大量过时惯性的手机。研究者称其为约束性流动:区分哪些规则是真实的物理边界,哪些只是历史惯性,某个时期合理、但在今天是已过时的做法。然后只动后者。目前这个判断AI还做不了,识别什么该减是人在AI工作流中绕不开的职责。如何开始做?审计你的skill库。几个月都没触发过的标记废弃。单个skill超过500字,大概率60%不必要。检查下有什么内容可以移往下一层或删除掉。每次想加一个新skill,考虑下边际复杂度是多少,能不能修改现有的来覆盖。加法是能力,减法是智慧。减法是反人性的,但纪律可以练。长期使用AI可能会让你失去“本来会做这件事”的能力,这即使去技能化。你可能会有这种感觉,长时间使用AI后,当某一天你需要自己再重新动手做自己之前做的那些事情时,比如编写代码,那种笃定、手感、不用想就知道下一步做什么的流畅消失了,你不像之前那么顺畅或熟练地能完成某件曾经熟练的事情了。更可怕的是你可能根本不会注意到这些。但并不是所有去技能化都一样疼,可以分为三种。一是替代性技能:旧技能被新工具替代。手写到打字,心算到计算器。这类不太需要担心。二是侵蚀性技能:技能因不适用而萎缩。如飞行员手动飞行能力消退。这类需要关注。三是构成性能力:改变人之为人的核心能力。判断力、想象力、共情力等。这类技能消退必须警惕,失去这些代价高昂。Anthropic在2026年1月的随机对照实验:52个开发者学习一个新python库,一半有AI辅助,一半没有。AI组得分平均50%,对照组67%,相差17%。AI组并没有显著更快,有人花了30%的时间在想怎么提问。实验最有意思的是使用模式分布,有6种使用模式,分为低分模式和高分模式两类。- 低分模式:AI委托--全交给AI。渐进依赖--逐步交出一切。迭代调试--粘贴报错不问为什么。
- 高分模式:概念查询--只问概念自己写。混合代码解释--要代码也要解释。生成后理解--先让AI生成再追问到听懂。
高分模式有一个共同点:认知参与,使用AI支撑思考而非替代思考。认知心理学家 Bjork 提出过“可取困难”:短期内让学习更困难的条件,反而增强长期记忆和迁移能力。犯错不是意外,是学习的必要条件。让AI快速迭代进步的捷径就是不断记录错别,并反馈自身,然后获得进步。人也是一样的,如果一直不犯错,也许我们的认知就会原地踏步不再进步。要珍惜AI协作过程中出现的报错。生产力的最优策略不等于学习的最优策略。Anthropic 的观察性研究显示:AI可能同时加速已有能力,又阻碍新能力的形成。也就是说,你得先不靠 AI 学会一件事,才能有效地用 AI 加速它。能最好地用 AI 的人,恰恰是那些不用 AI 也能判断产出质量的人。还有一个更麻烦的发现--核心专业技能空心化。知识工作者用了 AI 之后觉得任务变简单了,对 AI 的信心也变高了,但实际上是把解决问题的能力让渡给了系统。信心涨了,能力没跟上。产出漂亮了,内里是空的。如何防止去技能化?从现在开始每隔一两周找个小任务,完全不用 AI,自己动手去做。如果手感在下降、犹豫在增加,那就是信号。少吃数字垃圾食品,保留不被打断的深度思考时间,重新练习深度阅读。最后回到整个报告贯穿全篇的问题:如果AI越来越强,人类还能留下什么?前面讨论了一些列关键词,都是用好AI很重要的方法或思想。但方法是会过时的,工具会迭代。那我们能留下哪些不会过时的呢?报告认为是你的知识网络,包括错误识别模式、概念之间的因果关系、领域特定的判断框架等等。这些是帮助我们把事情做到机制的重要数据或隐性知识,他们是独特的,是从每个人身上实践长出来的。基本的积累过程有三个维度:写下来--把你教AI做事的方式变成Skill;记下来--让交互留下痕迹,决策、偏好、失败教训,解决“反复忘”的问题;连起来--让积累的东西之间产生关系。这些连起来才是真正的价值。三个维度是自然递进的螺旋,先写下来,积累够了再记下来,记得多了连接就会涌现。如果你只做写下来和记下来,你会得到一堆好用的Skill加一堆有用的记忆。虽然已经把大多数人要强了,但你的资产之间没有关系,是散落在桌子上的拼图碎片。企业敏捷开发的瓶颈不是模型能力,而是知识架构。Agent的通用训练知识和组织的特定做事方式之间存在结构性断裂,它不知道组织的命名规范、部署流程、操作禁区等。于是它会猜测、失败、你纠正、它重试,每一轮都在消耗上下文窗口。组织部署AI以提高生产力,但确认机构知识的AI反而降低了生产力。解药就是把散落的资产链接起来,形成知识工程。结构化的知识比单纯的语料堆砌更有效,但不要被组织级别的框架吓到。个人知识工程的投入产出比只有在连接数超过人脑能维持的阈值(大概几百个节点)时才为正。暂时不需要图数据库,只需要给Skill加依赖关系、给记忆加标签、给上下文文件增加版本好,连接自然会涌现。企业级知识库的典型实现也没有多复杂,其实就是 YAML 配置文件+版本化的MarkDown+通过API暴露的结构化目录表。如何开始?每次AI出错时花点时间把纠正写进上下文文件,开始时不需要系统、不需要数据库,最开始就一个markdown文件。文件多了之后再上你的记忆系统。建立一个专项记忆来处理,记下来,连起来。终于把这个报告的读后感写下来了,前后经过两周大概4~5晚下班后的时间给完成了。我读完报告的核心感受是其AI使用的思想和方法论,对我自己使用AI有一个理论指导作用。以前隐隐约约感受到的东西,但无法明确的瞬间想法,读完报告进一步清晰些了。在AI使用实践的过程中也在尝试使用这些思想和方法论,希望自己能越来越成体系。另外,能够加深自己的深度思考能力,总结出自己使用AI实践的一套理论或方法论。