
尽管代理技术正在增长,但许多现有的流行代理仍然在很大程度上取决于人为定义的工具的库和工作流,从而显着限制了创造力,可扩展性和概括的能力。最近,普林斯顿AI实验室大学推出了阿里塔(Alita),他是一个遵守“最低限度的简单性是极端复杂性”哲学的普遍经纪人。通过“预定义”和“最小化自我进化”设计范式,代理商可以独立思考,搜索和创建必要的MCP工具。文档标题:Alita:允许推断具有最低定义和最大自我不断发展的纸质链接的可扩展代理的通才代理:https://arxiv.org/abs/2505.20286Twitter: https://x.com/jiahaoqiu99/status/19277777777728855555555555555532790gith: https://github.com/charlesq9/alitaalita is currently under verification ofGaia.参考测试获得了75.15%通过 @1和87.27%通过 @3的结果,超过了被称为Openai Deep Research的代理d玛努斯,成为将军的新参考点。在Gaia测试中,Alita还获得了72.43%的1分。最大的自我进化是简约的建筑设计,“允许代理商创建独立的MCP工具而不信任手动预设,”是Alita的中心设计的概念。现有的主要代理系统通常取决于许多手动定义的工具和复杂的工作流程。这种方法具有三种重要的不便:有限的覆盖范围:典型代理人所面临的各种现实世界任务以及所有可能的预定义工具都是不可行的或不可行的。此外,预定义的工具在盖亚(Gaia)中更有可能过多,并且不概括。创造力和灵活性限制了任务的难度可能超出预定义工具或流量的能力。在复杂的任务中,Groove Company的机构必须以创新的方式使用新工具,或以新的方式组合现有工具,并且预定义的库和工作流程限制这种创造力和灵活性。 Fullt的适应:不同工具的接口或环境可能与代理不兼容。例如,许多有用的工具不是用Python编写的,这使得很难(尽管不是不可能)在常规代理框架中访问它们,这主要是用Python编写的。这些挑战共同限制了现有普遍代理的创造力,可伸缩性和概括的能力。与日益复杂的趋势相反,Alita Group团队认为,对于普通代理商来说,“简单性是最好的完善”。遵循这一原则,Alita实现了可扩展的动态能力,更大的创造力和灵活性以及生态系统的一般兼容性。因此,Alita团队提出了两个主要设计范式:预定义的最小化:配备了最中心的基本功能,以避免设计特定任务或模式的预定义组件。最大化自我进化:授权代理创建,最佳不管需要实现自我进化的需求如何,IZE和重用MCP工具。具体而言,Alita仅将管理代理和Web代理作为中央内部组件,其中少量的通用模块可以接收自主功能的扩展,而无需依赖复杂和预定义工具或固定工作流程的库。 Alita使用模型上下文协议(MCP),这是一种开放协议,允许代理系统根据任务要求在MCP工具上生成,修改和重复使用。与创建通用工具相比,MCP的创建还提供了更好的再利用和易于环境管理的优势。从手动设计工具和工作流到立即构建MCP工具的这种过渡为构建简单和通用代理的新方法开辟了新方法。 Alita执行过程:一个简单有效的一般设计概念和系统体系结构。 Alita基于“最小定义 +最大自主权的设计范式ous evolution" Masu. Its general structure is very simple, and consists only of three important components. Manager: acts as a central coordinator, analyzing the requirements of the task, program several modules and tools, and performs the generation of aggregation and final responses. Web agent: responsible for seeking useful external information, such as Abert Code Codeor, documentation, etc. MCP creation component: It consists of three modules: MCP Brainstorming, ScriptGeneLingTool和CoderunningTool。调用MCP脑模块分析输入任务ES当前代理是否具有完成任务所需的功能和工具。如果您已经可以,我们将迅速向您发送相应的工具。如果缺少,将生成“竞争差距的描述”和“ MCP工具构建建议”,然后生成新的MCP工具。脚本生成模块:实时创建工具在检测验证功能差距后,Alita启动了脚本生成模块。该模块根据管理代理提供的任务描述以及创建工具的建议,生成可执行的外部MCP工具代码,并结合了智能Web主体获得的开源资源。 Alita生成的MCP工具代码已封装好且用途广泛,可以直接集成到任务过程中,并接收随后的重复使用。代码执行和验证模块:确保该工具有用,并且最近生成的工具在第一个虚拟环境中运行测试。 SYSTEM确定该工具是否根据输出达到期望。如果该工具成功执行,则将正式注册使用可重复使用的MCP服务,并包含在任务调用系统中。如果失败,系统将自动输入诊断和维修过程,将调整依赖项版本,更改重要参数并在必要时离开当前工具,然后转到新解决方案。此外,详细记录了每个执行过程,以支持对后续模型的学习和工具的演变,真正执行“自我进化”。自动工具:Alita的秘密武器Alita可以独立创建和优化任务所需的工具,最后包装MCP中的新工具。例如,用户的任务是问:“此PPT的页面计数是否指甲壳类动物?”如果预定义的PPT处理工具仅将所有内容转换为文本,则可能无法提取信息从页面上回答问题。但是,Alita动态创建了适当的PPT处理工具,并将其封装为MCP,足以解决任务。另一种情况是,用户的任务意味着了解YouTube视频。尽管现有流行代理的一些预定义的视频分析工具仅是YouTube字幕跟踪器,但某些视频理解任务需要详细的分析,并且单字符仅单独无法完全解决问题。 Alita可以创建MCP,以读取每个帧的视频帧,以求解更复杂的视频理解任务。任务的特定MCP创建已动态调整为任务的难度。他不是视频理解方面的专家,因此Alita的团队不知道在Alita自动提供此解决方案之前如何实现此工具。该视频组件后来在另一支球队中重复了Trabajar。 “多模式的历史推理:HistBench和Hystagent”(代码库是开源的)。请参阅:在前往的路上多模式历史推理:HistBench和HystagentLink:https://arxiv.org/abs/2505.20246突破:Gaia的最终结果到来,Alita到达了我使用的。在盖亚(Gaia)的参考点上,阿丽塔(Alita)表现出色。盖亚(Gaia)是评估典型AI助手的实际问题解决能力的参考测试,其中包括450个试验问题,这些问题涵盖了几个级别的难度。 Alita在Gaia验证测试中获得了75.15%的通过 @1和87.27%通过 @3 Precision,首先在所有普通代理中暂时分类,超过了OpenAI的深入研究(67.36%PASS @1)和MANUS。在数学数学推理测试和PATHVQA医学图像识别测试中,Alita分别获得了74.00%和52.00%的精度。更好的是,许多配备复杂工具库的智能系统。这些结果还表明,简单体系结构不是性能的限制,而是激发创意行为的关键代理商的IOR。通过最大程度地减少预编写工具并突出设计理念,该设计理念最大化自主进化,Alita成功实现了简单性和性能统一。有趣的是,在Alita Tweet团队的第二天,Gaia验证列表被淘汰,这表明是时候让Alita的团队朝HLE,Browsecomp和Xbench迈进了。 MCP多路复用:在Alita构造过程中,代理蒸馏的新范式和自我进化,该系统动态生成一系列高质量的MCP,作为用于解决任务的中间产品。值得注意的是,这些MCP比完成一项任务更有价值。阿丽塔(Alita)在随后的任务中称其为“他们”(Theman),从而大大提高了性能和效率,并且也可以由其他代理人重复使用。具体而言,Alita生成的MCP工具箱具有双重优势。首先,代理蒸馏(MCP自动生成的再利用)可以被视为一种新的代理蒸馏机制比传统的蒸馏方法便宜,更高效。强大的代理领导弱者:其他弱者可以重复使用这些MCP,而Alita(不是开发人员开发人员)可以通过设计和误差来通过设计适用于特定任务的足够MCP来显着提高性能。当打开对Gaia Smorajan的深度搜索而不改变基础模型的配置的平均精度时,我们实现了在所有难度下的绩效改进,从27.88%增加到33.94%,而无需更改基础模型的配置。基于大型的代理指南基于小型模型代理。这些MCP也可以由小型模型代理重复使用,并且可以大大提高性能。即使在计算机功率低和推理较弱的GPT-4O-MINI模型中,Alita生成的MCP也可以显着提高性能。精度率为21.82%。提高到29.09%,精确率对于3级,增加了3倍(3.85%至11.54%)。其次,自我进化允许通过@1方法实现通过@n效应。在将MCP工具箱连接到Alita之后,可以将测试的批准率提高到多次近似尝试。结论:阿丽塔未来发展的成功证据是阿丽塔(Alita)在简单设计中的范式,导致了普通代理商的未来发展。在代理设计中,简单性确实通知是功能限制,但是系统演变背后的驱动力。当传统解决方案进入“工具扩展和性能停滞”时,Alita通过动态协议机制认识到“建筑和容量开发简化和容量开发”的积极周期。他还认为,如果在大型语言模型中编写代码和理性的能力不断提高,Alita将会变得更强大。如果没有预定义的工具和WO直接解决问题的rkflow。取而代之的是,开发人员可以更多地专注于设计刺激普通代理的创造力和进化潜力的模块。随着人工智能技术为普遍化发展,这种范式整合了简单的设计和进化,您是独立的,不仅保持了中央系统的优雅和简单性,而且还提供了下一代代理,以通过持续进化获得几乎无限的扩展能力。这将是建造它的重要技术途径。