电话:020-66888888
逐步逐步制定的启动人物:如何系统地为AI代理创
作者:bet356体育官方网站 发布时间:2025-07-21 13:05
资料来源:Zhen Fund Z Talk是Zhen Fund共享意识的专栏。在“马努斯谈论YouTube的共同创作”中,他在“共同创建YouTube的共同创始人兼科学家”中,他说,每当一个团队都会讨论特定功能的技术实施时,他通常会想到。作为一般代理,每次手动措施添加功能时,团队都希望能够创建出具有现有特征的意外绑定效果。例如,在添加了图像阅读功能之后,Manus发现它可以净化自己生成的数据的可视代码,甚至可以通过其他模块神奇地解决问题。这些正是它们评估的综合效果。昨天,官方MANUS网站发表了一篇新文章。在上下文项目的建设过程中,Peak分享了他干预的困难。这是一个罪恶登记,详细且非常实用。峰已经组织了体验系统该团队通过证明和错误进行了轻微的措施,向建立AI代理的开发人员提供了参考,并导致Manus将勘探过程从0返回到1。Manus仍在前进。正如Peak在文章中所说的那样:“如果模型的进展正在增加,我希望马努斯是一艘船,而不是在海底钉钉的支柱。”如果您也正在建立自己的代理商,我希望这些摘要可以帮助您找到最快的方向。本文根据Kimi K2的翻译从创始人公园复制。原始汇编文本如下所示。在马努斯项目开始时,我和我的团队面临着重要的选择。在我在NLP注册的第一个十年中,我没有这样的奢侈选择。回顾伯特(Bert)出来的时候(是的,是七年前),在继续完成一项新任务之前,我必须调整和评估themodel。与当前LLM相比,当时模型的体积微不足道几周。快速重复应用程序,尤其是在PMF之前。就避免而言,如此缓慢的反馈电路几乎是致命的。这是最后一家创业公司的痛苦教训。该模型从头开始训练,以获取开放信息和语义搜索。之后,GPT-3和Flan-T5出现了,我的自我开发模型失去了当晚的所有含义。具有讽刺意味的是,这些新模型为上下文学习打开了大门,并指出了一条全新的道路。本课程赢得了努力,可以清楚地选择。马努斯在上下文工程上下注。这允许在数小时内发布改进,还允许该产品与基础模型正交。如果模型的进展正在上升,则预期。肛门是一条船,而不是柱子被困在海底。但是,上下文工程远非软导航。这是实验科学。我重建了四次代理框架。每次发现一种更好的方法来形成上下文之后。我们调用这个硕士伴随着爱的年度建筑搜索过程,呼吁“概率校友”调整和经验推断。它不是优雅的,但可以起作用。本文分享了通过自己的“ SGD”到达的本地最佳解决方案。如果您要建立自己的AI代理商,我们希望这些原则可以帮助您更快地收敛。如果您只能选择一个指标,专注于KV缓存,KV缓存配件率是孵化期的AI代理最重要的独特指标,并且直接影响延迟和成本。要了解为什么,让我们开始查看典型的代理工作流程。接收用户的Entrada后,代理通过一系列工具调用完成任务。在每次迭代中,模型都基于当前上下文选择一个预定义的动作空间的动作,在环境中执行动作(例如MANUS中的虚拟机盒)并生成观察值。动作和观察添加到上下文中,并成为下一次迭代的进入。这个周期一直持续到任务完成。您可以想象,上下文是在每个漫长的一步中,并且输出相对较短(通常是一个结构化功能调用)。与代理商的怀孕关系相比,这使聊天机器人非常不平衡。以手动为例,输出令牌比的平均输入约为100:1。幸运的是,具有相同前缀的上下文可以利用初始令牌(TTFT)和KV缓存的延迟,这显着降低了推断成本,是否使用自我主机模型或在推荐API中使用呼叫。这不是一个小的节省。以克劳德(Claude)的十四行诗为例,缓存入口的价格为0.30/mn/mn代币,而不需要的人的代币为300万美元/亿美元/亿美元,差异为10倍。从上下文工程的角度来看,提高KV Hills主机速率需要几种重要实践:1。稳定快速前缀。由于是由于LLM,即使令牌中只有一个差异,也有可能使该令牌的整个缓存无效。一个常见的错误是在系统应用程序的开头中包括一个时间标记。它特别精确。这允许模型指示当前时间,但将高速缓存速率恢复为零。 2。添加上下文。不要更改任何事先的行动或观察。确保序列化海洋确定性。许多语言和编程库不能保证密钥的顺序稳定以使JSON对象序列化。这会使您的缓存默默破坏。 3。清楚地标记缓存中断点(如有必要)。一些推理现金模型或机架的供应商不支持自动增量前缀缓存,但必须手动将缓存中断点插入上下文中。配置这些中断点时,请考虑缓存的潜在到期日期,至少确保中断点包括系统Application终止。此外,如果您使用框架为VLLM托管模型,则启用芯片前缀/缓存使用技术(例如会话ID),以始终如一地在分布式工人的节点中注册应用程序。因为代理商具有个技能,请通过掩盖而不是消除他们的组合选举。该动作的空间自然复杂。坦白说,工具的数量爆炸。 MCP最近的普及增加了大火的燃料。如果您希望用户自己配置工具,请相信我。肯定会在精心计划的行动空间中插入数百个神秘工具。结果,模型很容易选择不正确的操作或获得效率低下的路线。简而言之,一个完全武装的代理人变得愚蠢。自然的想法是设计动态动作空间。也许是关于按照抹布形式的要求加载工具。我也在马努斯尝试过。但是,实验结果提供了明确的RURes。除非绝对必要,否则避免在迭代过程中添加和消除动态工具。有两个主要原因。 1。在大多数LLM中,工具定义通常位于序列化后,通常是在上下文之前的系统应用程序之前和之后。因此,更改将取消KV缓存的所有后续操作和观察结果。 2。当先前的动作和观察结果是指在当前上下文中不再存在的工具时,模型会感到困惑。在没有解码限制的情况下,这通常会导致模式违规或惊人的行为。为了通过改善股票的选择来解决此问题,MANUS使用上下文意识状态机器来管理工具的可用性。实际上,它不会消除工具,而是在解码阶段阻止相应令牌的logit,基于当前上下文阻止(或应用)某些操作。实际上,大多数模型提供商和推理框架支持藻类形式响应以允许您限制行动空间,而无需更改工具的定义。函数调用通常具有三个实现方法:仅预入响应前缀:| im_start |稻病:该模型必须调用该功能,但是调用的特定功能不受限制。实现:填充的工具调用标签:| im_start |指定助手:该模型必须调用特定子集的功能。实现方法:与函数名称的开头进行预先关联:| im_start |助手{名称:“浏览器\ _用它直接应用于令牌logit以限制共享的选择。例如,如果用户提供了新的条目,则MANUS必须立即响应,并且无法对其进行响应。我们还设计了与browser the the the the the the the the the comment的所有工具相关的统一的动作前缀。 eNamel。从一组特定的工具中,不信任使用状态的Logitz处理器。 PDFS。损失信息。代理必须基于所有先前的状态固有地预测下一个操作。在10个步骤后,无法确定哪些观察结果将很重要。从逻辑的角度来看,不可逆的压缩是有风险的。因此,我们将文件系统视为Manus的最终上下文。无限,自然持久的能力,代理可以直接运行。该模型学会了根据要求读取和写文件,不仅将文件系统视为储藏室,而且也将其视为结构化的外部内存。我们的压缩策略可以保证始终是可回收的。例如,只要存储URL,您就可以消除上下文网站的内容。虽然该路线仍在沙箱中可用,但您也可以省略文档的内容。这使手掌缩短了上下文的长度而不会失去我永远的信息。在此特征的开发过程中,我开始想象使状态空间模型(SSM)在代理环境中有效运行的必要条件。与变压器不同,SSM没有完整的护理机制,很难处理长时间的反向单元。但是,如果您可以掌握基于文件的内存,并且如果您可以夸大长期状态而不是将它们存储在上下文中,则它们的速度和效率可能会导致全新的类代理。 SSM代理可能会成为图灵神经元机器的真正继任者。如果您使用MANUS,您会发现一些有趣的现象再次计数并操纵您的注意力。处理复杂的任务时,创建一个完整的.md文件,随着任务进行进展并逐步剪切完整的元素。这不是一个小的可爱动作,这是有意设计控制机制。在Manus中,典型的任务平均需要约50 C所有工具。这是一个漫长的循环。 Manus基于LLM来做出决策,使他可以轻松地偏离主题,或者在长篇小说和复杂的任务中忘记早期目标。通过不断重写您出色的任务列表,Manus是“收件人”的目标,直到文本结束为止。这样,全球计划就可以到达模型的短期关注范围,避免了“中间损失”的问题并减少客观不一致。实际上,它使用自然语言将注意力集中在任务的目标上,而没有任何特殊架构的任何变化。如果您保持错误的内容,智能将犯错。这不是一个缺陷,而是现实。语言模型会产生幻觉,环境返回错误,外部工具失败,而意外的边缘情况接一个地出现。在几个步骤任务中,失败也不例外,它们是循环的一部分。但是,一个常见的冲动是掩盖这些错误。清洁莫固定记录,再次尝试操作或恢复模型的状态,然后等待神秘的“温度”参数。这似乎更安全,更可控制,但是有一个价格。消除失败等同于擦除证据。没有证据,该模型无法改编。根据我们的经验,改善代理行为的M形式之一很简单,但非常误导。当模型分析电池的失败动作和随后的观察结果或痕迹时,巧妙地更新了内部信念。这将消除相似动作的进展,并减少重复相同错误的可能性。实际上,我们认为错误的恢复是具有代理商真实行为的最明确指标之一。但是,大多数学术研究和公共参考点仍然低估了在理想条件下关注任务成功的趋势。不要背叛某些镜头的射击迹象。这是一种改进的常见技术OVE LLM的输出,但在代理系统中可能会微妙的适得其反。语言模型是出色的模仿者。他们在上下文中模仿行为模式。如果上下文中充满了许多动作,则观察对等方面,即使不是最佳的,该模型也倾向于遵循此模式。在暗示重复决策和任务的情况下,这是危险的。例如,如果您使用Manus帮助20个课程,则您的代理人往往会节奏。这可能导致漂移,过度概括,有时甚至是幻觉。解决方案是增加多样性。 Manus引入了在动作和观察中构成的少量变化,包括几个序列化模板,方法,序列或形式中轻微干扰的替代表示。这种控制的随机性有助于打破固定模式并调整模型的注意力。换句话说,它没有被一些示例所阻止。上下文越简单,AG越脆弱Ent会。结论性工程仍然是一个新领域。但这对于代理系统至关重要。该模型可以更强大,更便宜,但是无论本地能力多么强大,都无法取代内存,环境或反馈。形成上下文的方式最终决定了代理的行为:操作速度,恢复能力和可扩展限制。在Manus中,我们在数百万用户中重写和统治,并通过现实世界的测试来学习这些经验。我们在这里共享的内容不是普遍的真理,而是我们尝试和验证的模型。如果他们帮助您避免重复痛苦,那么该出版物是值得的。代理的未来是通过上下文逐渐构建的。很好地设计它们。
电话
020-66888888