目前AI智能体开发市上有四种流行AI代理开发框挺火。分别是:LangChain的LangGraph、Amazon Bedrock的AI Agent框架、Rivet和Vellum。
最著名的就是LangChain:
它是一个工具,帮我们创建和管理语言模型(LLM)的工作流。你可以把它想象成一个图表,帮开发者把不同的任务和步骤连起来,这样,就能清楚地知道每一步该怎么做,调整起来也方便。
第二个是Amazon Bedrock的AI Agent框架:
这是亚马逊提供的一个框架,像一个工具箱,里面有很多现成的工具和资源;帮开发者快速搭建智能应用,你可以用它来设计和运行各种AI任务,不用从头开始。
第三个框架就是Rivet:
它是一个拖放式的图形用户界面(GUI)工具,专门用来构建语言模型的工作流。
我们可以把它想象成拼积木一样,把不同的功能和步骤拖到一起,形成一个完整的工作流程,这种方式简单直观,适合不太会编程的人。
最后一个是Vellum:
它也是一个图形用户界面工具,主要是用来构建和测试复杂的工作流;设计完成后,你可以在Vellum里测试,确保一切正常运行。就像一个实验室,让你可以在里面尝试各种方案。
四个工具区别在于:
LangGraph用图表连接任务和步骤;Amazon Bedrock的AI Agent框架提供全面的工具箱,让开发者不用从零开始;Rivet是一个拖放式的GUI工具,适合不懂编程的人;Vellum专注于复杂工作流的设计和测试。
1 个月前
根据《Nature》最新发表的研究,非营利研究机构METR发现了一项被称为“智能体摩尔定律”的规律,即AI智能体(Agent)在完成长期任务方面的能力每7个月翻一番。这一发现揭示了AI在任务完成时间跨度上的指数级增长趋势,并提出了“50%-任务完成时间跨度”这一新指标来衡量AI的能力变化。 核心发现 能力翻倍周期:自2019年以来,AI智能体完成任务的时间跨度每7个月翻一番。这意味着,如果2019年AI完成某项任务所需时间对应人类需要10分钟,那么7个月后,这一时间将缩短至20分钟。 加速趋势:2024年,AI能力的增长速度进一步加快,部分最新模型的能力每3个月翻一番。 未来预测:按照这一趋势,预计5年后(即2030年左右),AI将能够完成许多当前需要人类花费一个月时间才能完成的任务。 研究方法 METR团队通过以下步骤验证了这一规律: 任务设计:设计了170个多样化任务,涵盖软件工程、机器学习、网络安全等领域,并测量人类专家完成这些任务所需的时间,建立“人类基准线”。 指标引入:提出了“50%-任务完成时间跨度”指标,即AI在50%成功率下完成任务的时间长度。这一指标对数据分布的微小变化具有鲁棒性。 模型评估:评估了2019年至2025年间发布的13个前沿AI模型(如GPT系列、Sonnet 3.7等),通过逻辑回归分析计算每个模型的时间跨度。 验证与外部实验 为了验证结果的可靠性,研究团队进行了多项外部实验,包括: 回溯预测:使用2023-2025年数据验证趋势一致性。 任务混乱度分析:评估任务复杂性对AI性能的影响,发现AI在复杂任务上的提升速度与简单任务相似。 基准测试:在SWE-bench等数据集上验证了类似的指数增长趋势。 意义与影响 技术进步:这一发现标志着AI在执行长期任务能力上的显著进步,可能推动AI在软件开发、研究等领域的广泛应用。 劳动力市场影响:AI能力的快速提升可能对劳动力市场产生深远影响,未来或替代部分人类工作,尤其是重复性和耗时任务。 社会挑战:研究提醒社会各界需关注AI技术进步带来的就业和经济挑战,并提前制定应对策略。 未来展望 METR团队预测,按照当前趋势,AI可能在2028年11月达到一个月的任务时间跨度,保守估计则在2031年2月实现。尽管研究存在任务局限性和未来不确定性,但团队确信AI能力每年有1~4倍的增长趋势。 这项研究为AI技术的发展提供了新的量化标准,同时也引发了对AI未来应用和影响的深入思考。
1 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
1 个月前
判断 Manus 是否是“真正的 AGI”(通用人工智能)问世,还是仅仅一个噱头,需要从多个角度审视:AGI 的定义、Manus 的实际能力、当前 AI 技术边界,以及开发团队的宣传策略。以下是逐步分析: 1. AGI 的定义 通用人工智能(AGI)通常指具备人类级别的通用智能,能够自主学习、推理、解决问题,并在任意领域执行任务,而不仅仅局限于特定任务(即狭义 AI,如 ChatGPT 或图像生成模型)。真正的 AGI 应该: 跨领域能力:无需预先训练即可适应新任务。 自主性:独立制定目标并执行复杂计划。 自我改进:具备自我学习和优化能力。 目前全球公认的 AI 系统(包括 GPT-4、Claude 等)仍属狭义 AI,尽管功能强大,但依赖特定训练数据和预定义目标,距离 AGI 还有差距。 2. Manus 的能力 根据 Monica AI 官方宣传和公开演示,Manus 的核心特点是“自主性”和“任务执行力”。它能完成多步骤、现实世界的任务,例如筛选简历、分析股票、规划旅行等,并在 GAIA 基准测试中表现优异。具体能力包括: 多工具调用:自主搜索网页、生成图表、整合信息。 实时展示:用户可见其工作流程,类似“思维链”(Chain of Thought)。 多模型协同:采用“多签名”系统,可能由多个 AI 模块分工合作。 这些功能确实超越了传统对话型 AI(如 ChatGPT),更接近“代理型 AI”(AI Agent),即能主动执行任务而非仅提供建议。然而,这是否达到 AGI 水平仍需审视: 局限性未知:目前展示的任务虽复杂,但可能是预设场景,未证明其能在完全陌生领域自适应。 依赖性未明:不清楚其是否完全独立,还是仍需人类设计的框架和数据支持。 自我进化:暂无证据显示 Manus 能自我改进或自主学习新技能。 3. 当前 AI 技术边界 截至 2025 年 3 月,AI 技术在“代理”方向上进步显著,例如 OpenAI 的 o1 模型(擅长推理)和 xAI 的工作,但业界共识是 AGI 尚未实现。技术瓶颈包括: 泛化能力:现有模型难以跨领域迁移。 计算资源:AGI 可能需要远超当前的基础设施。 伦理与安全:真正的 AGI 需解决控制和可解释性问题。 Manus 的“多签名”系统和自主性可能是技术创新,但若仅基于现有大模型优化(例如 Claude 3.5 或 DeepSeek),它更可能是“高级狭义 AI”而非 AGI。 4. 宣传策略与噱头可能性 Monica AI 宣称 Manus 是“全球首款真正自主的 AI 代理”,并计划开源部分代码,这显示出自信。但科技领域常有夸大宣传先例: 吸引眼球:称其为 AGI 可能是营销策略,吸引投资和用户。 内测限制:目前仅限邀请码访问,缺乏第三方独立验证。 竞争背景:全球 AI 竞赛激烈,中国团队可能借此树立技术标杆。 然而,创始人肖鸿的履历(华中科技大学背景、Monica AI 的成功)和团队的技术实力表明,Manus 并非空洞炒作,至少是一个有实质进展的项目。 5. 判断 综合来看,Manus 更可能是高级 AI 代理的突破,而非“真正的 AGI”: 证据支持:其展示的能力令人印象深刻,但在跨领域泛化、自我学习等 AGI 核心标准上缺乏明确证明。 技术现实:当前 AI 生态距离 AGI 还有距离,Manus 可能是现有技术的优化组合。 噱头成分:宣传中“全球首款 AGI”的说法有夸张嫌疑,但不排除其在特定任务上接近 AGI 的表现。 结论 Manus 不是“真正的 AGI 问世”,但也不是单纯的噱头。它可能是一个强大的 AI 代理工具,在自主性和实用性上领先于现有产品,代表了中国在 AI 领域的野心和实力。要确认其真实水平,需等待内测开放后的用户反馈、第三方评测,或开源代码的披露。如果你是潜在用户或观察者,建议关注其后续发展,尤其是实际应用中的表现。 (以上评论由Grok3生成)
3 个月前
腾讯两大智能体平台:腾讯元器和 AppAgent。
3 个月前
Anthropic 于2024年12月发布的文章《Building effective agents》详细探讨了如何构建高效的大语言模型(LLM)代理系统。Anthropic 与数十个团队合作构建了跨行业的大语言模型(LLM) agent。最成功的实现往往不是使用复杂框架或专门库,而是采用简单、可组合的模式。本文分享Anthropic 的经验和实用建议: 1. 代理(Agents)的定义与分类 代理的定义: 代理可以被定义为完全自主的系统,能够在较长时间内独立运行,使用各种工具完成复杂任务。 也可以指遵循预定义工作流程的系统,这些系统通过预定义的代码路径协调LLM和工具。 工作流(Workflows)与代理(Agents)的区别: 工作流:通过预定义的代码路径编排LLM和工具,适合任务明确、步骤固定的场景。 代理:LLM动态指导自身的流程和工具使用,保持对任务完成方式的控制,适合需要灵活性和模型驱动决策的场景。 2. 何时使用代理 适用场景: 当任务复杂且需要灵活性和模型驱动的决策时,代理是更好的选择。 代理适合处理开放性问题,尤其是难以预测步骤或无法硬编码固定路径的任务。 不适用场景: 对于任务明确、步骤固定的场景,工作流提供更高的可预测性和一致性。 对于许多应用,优化单个LLM调用(配合检索和上下文示例)通常已足够。 3. 框架的使用建议 常用框架: LangGraph(LangChain)、Amazon Bedrock的AI Agent框架、Rivet(拖放式GUI工具)、Vellum(复杂工作流构建工具)。 使用建议: 开发者应优先直接使用LLM API,许多模式只需几行代码即可实现。 如果使用框架,需理解底层代码,避免因框架的抽象层增加调试难度和复杂性。 4. 构建模块与工作流模式 基础构建模块:增强型LLM 增强型LLM通过检索、工具使用和记忆等功能扩展能力,能够生成搜索查询、选择工具并保留重要信息。 核心工作流模式: 提示链(Prompt chaining):将任务分解为一系列步骤,每个LLM调用处理前一步的输出。适用于可分解为固定子任务的场景,如生成营销文案并翻译。 路由(Routing):对输入分类并引导至专门的后续任务。适用于复杂任务,如客户服务查询的分类处理。 并行化(Parallelization):将任务拆分为并行子任务或多次运行以获得多样化输出。适用于需要多视角或高置信度结果的场景。 编排者-执行者(Orchestrator-workers):中央LLM动态分解任务并分配给执行者LLM。适用于无法预测子任务的复杂场景,如编程任务。 评估者-优化者(Evaluator-optimizer):一个LLM生成响应,另一个提供评估和反馈。适用于需要迭代优化的任务,如文学翻译或复杂搜索。 5. 代理的实现与应用 代理的工作流程: 代理通过用户指令或交互明确任务,独立规划并执行,必要时向用户寻求反馈。 代理在每个步骤中从环境中获取“基准事实”(如工具调用结果)以评估进展。 适用场景: 编码代理:解决SWE-bench任务,根据任务描述编辑多个文件。 计算机使用代理:Claude通过计算机完成任务,如数据处理或信息检索。 6. 核心原则与总结 核心原则: 简单性:从简单设计开始,逐步增加复杂性。 透明性:明确展示代理的规划步骤。 工具设计:通过完善的文档和测试设计代理-计算机接口(ACI)。 总结: 成功的关键在于构建适合需求的系统,而非最复杂的系统。 框架可帮助快速启动,但在生产环境中应减少抽象层,使用基础组件构建。 7. 附录:代理的实际应用 客户支持:结合聊天机器人界面与工具集成,适用于开放式代理场景。 编码代理:在软件开发中,代理通过自动化测试验证代码解决方案,并迭代优化。 这篇文章为开发者提供了构建高效代理系统的实用指南,强调了简单性、透明性和工具设计的重要性,并通过丰富的案例展示了代理系统的实际应用价值。
4 个月前
DeepSeek(深度求索)是一家专注于大语言模型(LLM)和相关技术研发的创新型科技公司,成立于2023年7月,由知名量化私募巨头幻方量化创立。DeepSeek的AI产品主要包括以下几类: 语言模型 DeepSeek-LLM:如包含67亿参数的DeepSeek-67b-base模型,基于海量的中英文token数据集训练,可用于多种自然语言处理任务. DeepSeek-Coder:是代码语言模型,如DeepSeek-Coder-v2-instruct在代码特定任务中性能可比肩GPT-4 Turbo,可辅助编程及代码相关的自然语言处理任务. DeepSeek-Math:旨在提升数学推理能力,例如DeepSeek-Math-7b-instruct等模型,可解决数学问题、进行数学相关的文本生成和问答等. DeepSeek-Prover: 主要用于定理证明,通过优化训练和推理过程,为相关领域的研究和应用提供支持. 多模态模型 DeepSeek-VL:是开源的视觉-语言模型,可用于真实世界的视觉和语言理解应用,如视觉问答、图像字幕生成等. 应用平台 乾坤圈(AI Agent智能体平台):基于深擎自研的流程引擎研发,能够基于海量的大模型组件进行极速灵活编排,满足大模型场景快速搭建能力需求,内置了20多个工作流最佳实践、50多项金融领域的特色处理组件以及30多款应用场景,主要应用于金融行业. Janus:是统一的多模态理解和生成模型,可应用于多种需要多模态交互的场景. 内容产品与服务 个性化推荐引擎:如穿云箭,依托智能算法模型,基于用户的浏览行为,实现精准的内容推荐,帮助金融机构了解客户需求. 内容服务平台:如风火轮,整合各大财经资讯和自媒体内容,通过SaaS模式分发给客户,让信息获取及时可靠;白羽扇智能内容处理中心则进一步提高了内容分发的个性化和实时性,对投资标的、财经事件进行动态打标,优化客户体验.
4 个月前
通过与企业系统、API 和数据来源无缝连接,使生成式人工智能应用程序能够自动执行多步任务。
4 个月前
LangChain, Amazon Bedrock, Rivet, Vellum.
4 个月前
Gemini 1.0是为了组织和理解信息,Gemini 2.0则是为了让信息变得更有用。