最近尝试将工作中的工具整合到Agent中,打造一个面向SRE的协作智能体,过程中读到了很多好文章好思路,写下来一起分享。
好的问题,就是答案的一半
对比两个DeepResearch的效果:


Gemini的模型能力很强,但是截止25年7月,Gemini2.5Pro普通模式下依然不显示工具调用和辅助思考,因此在我的多次使用中,都出现了严重的幻觉和意图判断错误。即使是Gemini DeepResearch,最后给报告的感觉像是“综上所述”,没做到结合问题中的核心点来进行分析。
ChatGPT Deepresearch让我感觉最好用的点在于: 在第一次提问后,会围绕你的问题进行二次提问(意图识别+槽位分析),精准的帮用户分割问题,补充上下文,在Research过程中不断修正目标,最后的报告质量可用性非常高。
好的问题,就是答案的一半。 工作中常常看到因为错误的问题和方向,导致整个团队的返工。在使用AI的过程中,这句话又一次又一次的告诉我,解决问题就是定义问题,拆解成更多的问题,而这些问题值不值得、能否回答清楚,才是解决问题的关键所在。
时刻谨记惨痛的教训,做“船一样”的产品,而非“塔一样”的产品
选择做船的产品和决策,随着基座模型和底层能力的提升,产品能力/个人能力就会跟着提升,而做塔就会被淹掉。
充分利用巨大计算能力的通用方法,远胜于那些试图利用人类领域知识的方法。最终是、也几乎总是最有效的方法。
AI研究者不应过度专注于将现成的、人类的知识和思维方式塞进AI模型里。相反,我们应该致力于开发和改进那些能够随着计算能力增长而无限扩展的“元方法”(meta-methods),主要是搜索和学习。这些方法能够让AI自己去发现知识,而不是被动地接受人类赋予的知识。
大约一年前多,我用ChatGPT分析我的账单,结果就是,非常“气人”:驴唇不对马嘴不说,调用各种工具的成功率异常低,经常以报错结束。
而我们现在用ChatGPT的O3模型:

对于我们当前工作来说,什么是通用的力量:
基座模型的能力
使用工具的能力
智能体结合上下文的能力
因此我们其实能做很多,除了基座模型的力量我们能够提升的较慢以外。 我们能够丰富工具、丰富上下文,而这一切,都能够切实影响智能体的行为。
Agent is grown, not built
有一句很著名的话: Software is grown, not built
任何软件都不是设计来的,是自我成长来的。
Agent也是。
我们要打造动态的Agent,因此他的知识库要是活的,动态的。
因为员工是动态的,公司是动态的,业务是动态的。 并非不能使用固定的Prompt来解决特定的问题,而是指:一旦你使用了静态的Context/脚手架来约束AI,你应该清晰的了解其边界和能力范围。并尽量控制这样的场景重复发生。
Agent更像有生命的森林,给予阳光、雨露、适当的肥料和耐心,允许他用自己的方式成长。这个过程,远比按照你设定的更有生命力,更强大。
对于我们工作来说:
阳光:Agent生长方向,我们应当选择怎样的基座模型,如何最大潜力发挥这个模型的能力。
雨露:为Agent充分授权使用各种工具的权利。
适当的肥料:适当的上下文,合适的知识,数据约束。
耐心:Agent团队领导者的信心、决心和耐心。
现阶段,人机协作大于独立的人或独立的机器
读《人类简史》有一点很震撼,纵观人类历史,在漫长的历史进程中,不管人类自己如何认为,人类不是也永远不是那个最聪明、最终统治世界的生物,事实上,这样的生物也并不存在。
“碳基生命只是硅基生命的Bootloader”
我没觉得这句话从自然角度来讲,并非无法接受。如果你知道了这个残酷无情的事实,那你现在便拥有了下个阶段的钥匙。
给Agent充分的授权,设定可扩展的范围,用人去引导Agent理解这个世界,是Bootloader的使命。
但这个过程,也是让人更强的过程。