ChatterUI 是一款开源、移动端优先、多后端兼容的AI聊天前端,主打本地离线运行与角色对话,适合在手机上灵活管理和使用各类大模型。

3 个月前
Alice AI:俄罗斯搜索引擎Yandex推出的人工智能助手 从日常任务到城市生活,Yandex的Alice AI正在重新定义人与机器的互动方式。 在2025年10月28日的“Alice,what‘s new?”大会上,俄罗斯科技巨头Yandex推出了全新升级的Alice AI——一个强大的通用神经网络,能够帮助用户在聊天中解决几乎任何任务。 这项技术代表了过去几十年聊天机器人从简单模式匹配到智能交互的演进历程。Alice AI不同于传统的规则驱动聊天机器人,它基于最先进的生成模型,不仅能理解复杂请求,还能主动协助用户完成从信息查询到实际行动的全流程任务。 01 从ELIZA到Alice AI,技术革命的演进历程 聊天机器人的发展始于20世纪60年代,当时麻省理工学院教授魏岑鲍姆发明了世界上第一个聊天机器人ELIZA,它通过模式匹配和替换方法来模拟对话。 受到ELIZA的启发,理查德·华莱士博士在1995年开发了ALICE系统(Artificial Linguistic Internet Computer Entity)。 ALICE采用启发式模式匹配的对话策略,并支持基于人工智能标记语言(AIML)的规则定义。 这一系统在人工智能领域获得了高度认可,在2000年、2001年和2004年三次获得洛伯纳奖(Loebner Prize)。 然而,传统的ALICE系统仍然依赖于预设的模板和规则,需要大量人力进行设计和制定。 Yandex的Alice AI则代表了技术演进的新阶段,它不再局限于规则驱动,而是基于大规模训练的神经网络,具备真正的理解和生成能力。 02 多模态架构,Alice AI的技术内核 Alice AI由三个核心模型共同驱动,构成了其多功能的技术基础。 Alice AI LLM负责处理语言相关的任务,包括回答问题、生成文本和逻辑推理。 Alice AI ART专注于视觉内容生成,能够根据文本描述创建图像和视频内容。 Alice AI VLM作为视觉语言模型,专精于图像分析、理解和与图像相关的任务解决。 这一模型家族将继续扩展,例如图像编辑模型即将推出。 Alice AI支持多种交互方式,包括文本输入、语音对话和实时摄像头交互。 用户可以通过手机摄像头获取实时视觉分析,使Alice AI能够成为识别物体、解释场景的随身助手。 03 四大应用场景,从聊天到实际行动 Alice AI的能力体现在多个实际应用场景中,使其成为用户日常生活的有用伙伴。 智能对话与文件处理:Alice AI可以处理各种类型的文件(DOC、DOCX、PDF、TXT),从中提取关键信息并生成清晰的报告。 它能够进行复杂问题的推理分析,提供深思熟虑的结论而不仅仅是快速回答。 视觉识别与创作:通过图像识别技术,Alice AI可以读取照片中的文本(如收据),识别物体,并提供即时视觉数据分析。 用户也可以请求生成图像或动画照片,用于社交媒体内容、标志设计或生日卡片制作。 浏览器集成与网页交互:Alice AI将很快深度集成到Yandex Browser中,能够利用活动标签页中的信息(无论是文本文档还是视频)来回答问题。 例如,用户可以直接询问一个500页的PDF报告中是否包含6月的销售数据,或者询问关于黑洞视频中讲师提到的内容。 城市服务与AI代理:Alice AI即将帮助城市居民预订出租车、安排送货、订购食物或杂货。 当用户提出请求时,AI代理会分析需求,确定能够处理任务的服务,并连接相应的代理——出租车、食品、 Lavka或送货。 04 “我的记忆”,前瞻性功能重新定义个人助手 Alice AI即将推出的“我的记忆”(My Memory)功能,将更进一步改变用户与AI的互动方式。 这一功能让Alice AI能够将用户随意思考的想法和想法转化为待办事项列表、购物清单、笔记和提醒,所有这些都直接呈现在聊天界面中。 用户可以在行动中向Alice AI口述任务,它会记住所有内容,进行组织,并在适当时机提醒重要事项。 Yandex还宣布了搭载Alice AI的可穿戴AI设备,使用户无需智能手机即可随时记录想法和想法。 这些设备将专注于“我的记忆”服务,让用户能够随时随地通过语音与Alice AI交互。 05 对比传统聊天机器人,Alice AI的突破 与传统聊天机器人相比,Alice AI在多个方面实现了技术突破。 传统聊天机器人如ALICE主要依赖于启发式模式匹配和AIML规则,需要大量人工编写的模板。 而Alice AI基于大规模训练的神经网络,能够理解更复杂的查询并生成更自然的回应。 传统系统多数仅限于文本对话,而Alice AI提供多模态交互,包括文本、图像、视频和语音。 最显著的进步在于,传统聊天机器人主要用于信息查询或简单任务,而Alice AI能够通过AI代理执行端到端的实际任务,从信息收集到最终结果。 从简单的模式匹配到复杂的多模态交互,从回答问题到执行任务——Alice AI代表了聊天机器人技术的又一次飞跃。 随着AI代理和“我的记忆”功能的推出,Alice AI正逐步从一个对话工具演变为一个能够理解、预测并满足用户需求的真正个人助手。 技术专家指出,未来的聊天机器人将不再局限于回答问题的角色,而是成为人类与数字设备交互的重要桥梁。 Alice AI正是这一趋势的领先代表,它正在重新定义我们与技术共存的方式。

1 年前
在语言大模型中,字节(Byte)、字符(Character)和Token是三个不同的概念,它们在文本处理中扮演着不同的角色。以下是它们的详细区别: 1. 字节(Byte) 定义:字节是计算机存储和传输数据的基本单位,通常由8位二进制数组成,可以表示256种不同的值。 用途:字节用于存储和传输文本、图像、音频等数据。在文本处理中,字节用于表示字符的编码。 编码:不同的字符编码标准(如ASCII、UTF-8、UTF-16)使用不同数量的字节来表示字符。例如,ASCII编码中,一个字符通常占用1个字节,而在UTF-8编码中,一个字符可能占用1到4个字节。 2. 字符(Character) 定义:字符是文本的基本单位,可以是字母、数字、标点符号、空格等。字符是人类可读的文本元素。 用途:字符用于表示和显示文本内容。在文本处理中,字符是语言模型处理的基本单位之一。 编码:字符在计算机中通过编码标准(如Unicode)表示。不同的编码标准决定了字符如何映射到字节序列。例如,字符“A”在ASCII编码中表示为65(一个字节),而在UTF-8编码中也表示为65(一个字节)。 3. Token 定义:Token是语言模型处理文本时的基本单位,通常由模型的分词器(Tokenizer)将文本分割成更小的单元。Token可以是单个字符、单词、子词(subword)或符号。 用途:Token用于语言模型的输入和输出。模型通过处理Token序列来理解和生成文本。Token化是语言模型预处理文本的关键步骤。 分词:不同的语言模型使用不同的分词策略。例如,BERT模型使用WordPiece分词器,GPT模型使用Byte Pair Encoding(BPE)分词器。这些分词器将文本分割成适合模型处理的Token序列。 区别总结 字节:计算机存储和传输的基本单位,用于表示字符的编码。 字符:文本的基本单位,人类可读的文本元素。 Token:语言模型处理文本时的基本单位,由分词器将文本分割成适合模型处理的单元。 示例 假设有以下文本:“Hello, 世界!” 字节:在UTF-8编码中,“Hello, 世界!”可能表示为48 65 6C 6C 6F 2C 20 E4 B8 96 E7 95 8C 21(每个字符占用1到3个字节)。 字符:文本中的字符为“H”, “e”, “l”, “l”, “o”, “,”, “ ”, “世”, “界”, “!”。 Token:使用BERT的WordPiece分词器,Token可能为["Hello", ",", "世界", "!"]。 通过理解字节、字符和Token的区别,可以更好地理解语言模型如何处理和生成文本。

1 年前
AI聊天上下文长度是指在一次对话中,AI模型能够记住并参考的最大文本量。这包括用户输入和AI回复的总字数或 token 数(AI 模型处理文本的基本单位,类似于单词或字符片段)。 📚 上下文长度的关键含义 记忆范围 AI 可以在当前会话中“记住”多长的对话历史。 超过这个长度的早期内容会被截断,AI将无法再参考它们。 连续性 上下文长度越长,AI 就能更好地理解复杂的、多轮的对话或任务。 信息丢失 当对话超过上下文长度时,早期内容可能被遗忘,导致 AI 无法完整理解用户的意图。 📏 示例:上下文长度的影响 短上下文(例如 4,000 tokens): 适合简单问答,或短对话任务。 长上下文(例如 32,000 tokens): 适合长篇文档分析、长时间项目管理讨论,或复杂的多轮对话。 ⚠️ 注意事项 Token ≠ 字符 英文单词通常约 1 token。 中文字符通常每个字是 1 个 token。 截断机制 当对话超出最大长度时,旧内容将从对话历史中移除。

1 年前
据微软 2024 年 12 月 19 日发布的博文,Microsoft Edge 浏览器在 2024 年通过内置的 Copilot 功能,用户进行了超过 100 亿次的 AI 对话。 这凸显了用户对 AI 驱动工具的广泛接受和日益增长的依赖。这一里程碑表明: 用户对 AI 辅助工具的高接受度:越来越多的用户在日常浏览和工作中依赖 AI 工具进行搜索、内容生成和任务自动化。 AI 技术的成熟和普及:Copilot 功能显然已经在帮助用户更高效地获取信息和完成任务。 Edge 浏览器的市场竞争力:这一数据也反映出 Edge 浏览器在与其他浏览器的竞争中取得了一定的优势。

1 年前
以下是一些中国的多语种大模型,可供该AI聊天平台考虑接入(以下仅为部分示例): 讯飞星火:科大讯飞发布的语言模型,例如讯飞星火 v4.0 可实现 74 个语种/方言免切换对话。它在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面有出色表现,还能基于用户画像等数据生成个性化的表达和内容。其具备写文案、编代码、健康辅诊、学习辅导等功能。 文心一言:能够帮助用户进行对话、生成内容等工作,提高工作效率和创作水平。具有多模态能力,可以生成各种图片和图表等视觉内容。 通义千问:一个多模态大模型,具有强大的图像理解和处理能力,支持处理文本、代码、音频、图像和视频等多种信息形式,具备对话交互能力,能够回答问题、识别名人和地标,并生成文本内容,还可以生成跳舞视频、实现真人百变换装等。 ChatGLM-6B:开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。结合模型量化技术,可在消费级显卡上进行本地部署。经过中英双语训练,能生成符合人类偏好的回答。 ChatGLM2-6B:ChatGLM-6B 的第二代版本,全面升级了基座模型,具有更长的上下文,更高效的推理、更开放的协议。 visualGLM-6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于 ChatGLM-6B,具有 62 亿参数;图像部分通过训练 blip2-qformer 构建起视觉模型与语言模型的桥梁,整体模型共 78 亿参数。 MOSS:支持中英双语和多种插件的开源对话语言模型,在约七千亿中英文以及代码单词上预训练得到,具备多轮对话能力及使用多种插件的能力。 CPM-BEE:完全开源、允许商用的百亿参数中英文基座模型,在预训练语料上进行了严格筛选和配比,中英双语性能优异,可准确进行语义理解,高效完成各类基础任务。 雅意2(Yayi2):由中科闻歌研发,采用了超过2万亿 tokens 的高质量、多语言语料进行预训练。拥有300亿参数规模,基于国产化算力支持,数据语料安全可控,模型架构全自主研发。它支持多种语言,在媒体宣传、舆情感知、政务治理、金融分析等场景具有强大的应用能力。 阿里达摩院 PolyLM:这是一个通晓多语言的大语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18种语言。其拥有1.7B 和13B 两种参数版本可选,可应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,为跨语言、文化的交流提供便利。Polylm 使用了包含640B 个 token 的庞大数据集进行训练,该数据集来源于维基百科、mc4和 cc-100等公开可访问的资源。 在选择接入的语言大模型时,需要综合考虑模型的性能、功能、可扩展性、数据安全以及与平台的兼容性等因素。同时,也要关注模型的持续更新和改进能力,以适应不断变化的用户需求和技术发展。 此外,不同的语言大模型可能具有各自的特点和优势,可以根据平台的具体需求和目标用户群体,选择最适合的模型进行接入。 选择适合的语言大模型应该考虑以下几个方面: 任务需求:明确你希望语言大模型完成的具体任务,例如自然语言理解、推理、创造性写作、情感分析、多学科知识问答、代码生成等。不同的语言大模型可能在某些任务上表现更出色。 语言理解和生成能力:评估模型对各种主题和领域的语言理解准确度,以及生成的回答是否清晰、准确、符合逻辑。 推理能力:如果任务涉及逻辑推理,考察模型在解决复杂问题和进行逻辑推导时的能力。 创造性:对于需要创意输出的任务,如故事编写、设计等,关注模型的创新能力和提供独特解决方案的潜力。 知识覆盖范围:考虑模型在多领域的知识储备,能否提供广泛而准确的信息。 交互方式:便捷和友好的交互方式可以提升使用体验,例如是否支持自然流畅的对话。 性能和效率:包括响应速度、处理大量数据的能力等。对于一些对实时性要求较高的应用,这一点很重要。 可扩展性:如果你有特定的需求或希望对模型进行进一步的定制和优化,了解模型是否易于扩展和调整。 数据安全和隐私保护:确保模型的使用符合相关法规和标准,保护用户数据的安全和隐私。 训练数据和更新频率:丰富的训练数据可以使模型具有更好的泛化能力,而较高的更新频率有助于模型跟上最新的知识和语言变化。 中文理解能力:如果主要处理中文相关的任务,模型对中文语言和文化的理解能力至关重要,包括对生僻字、成语、诗词等的理解。 成本和资源需求:考虑使用模型的成本,包括购买或订阅费用,以及运行模型所需的计算资源。 口碑和评价:参考其他用户或专业机构对模型的评价和反馈,了解其在实际应用中的表现。 技术支持和社区活跃程度:良好的技术支持和活跃的开发者社区可以帮助解决使用过程中遇到的问题,并获取更多的资源和经验分享。 例如,百度的文心一言在中文理解方面有优势,适合需要处理中文任务的场景;讯飞星火认知大模型在某些方面也有不错的表现。但具体选择哪种模型,还需根据你的具体需求和使用场景进行综合考量。 此外,一些模型可能存在“幻觉”现象、逻辑推理能力较弱等问题,在使用时需要注意对结果进行适当的评估和验证。同时,随着技术的不断发展,新的语言大模型也在不断涌现,你可以持续关注相关领域的动态,以便做出更合适的选择。 来源:豆包AI

9 天前
在AI Agent体系中,大模型是核心大脑,Memory(记忆)、RAG(检索增强生成)是大模型的能力延伸底座,MCP(模型上下文协议)是工具/能力的标准化调用桥梁,SKILLS(技能)是封装后的可复用任务单元;五者形成「大脑驱动→底座支撑→桥梁连接→单元落地」的层级协作关系,最终让Agent从“单一大模型对话”升级为“有记忆、能检索、可调用工具、懂执行任务”的自主智能体。 所有组件均围绕大模型展开,解决其「无长期记忆、知识过时、不会用工具、能力碎片化、执行无标准」的核心痛点,共同支撑Agent完成复杂、个性化、跨工具的自主决策与执行任务。 一、核心组件定位与单独作用 先明确每个组件的基础定位,这是理解关联的前提,所有组件的最终目标都是让Agent更智能、更实用、更能落地业务。 1. 大模型(LLM):Agent的核心大脑与决策中枢 核心作用:Agent的推理、决策、理解、生成核心,负责解析用户指令、拆解任务步骤、判断是否需要调用记忆/检索/工具、整合结果输出最终答案。 核心能力:自然语言理解(NLU)、逻辑推理、任务拆解、自然语言生成(NLG)、简单的工具调用判断。 原生痛点:无长期记忆(仅能记住会话内短期信息)、知识截止到训练语料(无实时/专属知识)、不会主动执行外部工具(如Excel/搜索/数据库)、能力分散无标准化封装。 在Agent中的角色:类似人的「大脑」,决定做什么、怎么做、调用哪些能力/工具,但自身的“知识储备”“记忆”“动手能力”需要其他组件补充。 2. Memory(记忆):Agent的“记忆系统”,支撑个性化交互 核心作用:为大模型提供短期/长期、显性/隐性的记忆能力,让Agent记住与用户的交互历史、用户偏好、任务中间状态,实现个性化、连续化的任务执行。 分类与落地: 短期记忆:会话内的对话上下文(如用户上一轮的提问、Agent的回答),解决大模型“说完就忘”的问题; 长期记忆:用户的固定偏好(如“用户需要生成简洁的报告”)、历史任务记录(如“用户上周分析过2026年AI市场数据”),通过向量库/数据库持久化存储; 工作记忆:任务执行中的中间结果(如“工具调用的搜索数据、RAG检索的文档片段”),支撑多步推理的状态延续。 在Agent中的角色:类似人的「大脑海马体+长期记忆区」,负责存储与提取Agent的交互/任务/偏好信息,让大模型的决策更贴合用户需求、更连贯。 3. RAG(检索增强生成):Agent的“外置知识库”,解决知识过时/专属问题 核心作用:为大模型补充实时、专属、精准的外部知识,让Agent能基于企业文档、行业报告、实时资讯等非训练语料回答问题,解决大模型「知识固化、幻觉多、无专属知识」的痛点。 核心流程:文档预处理(切分+向量化)→ 接收用户指令→ 向量检索(匹配相关文档片段)→ 拼接检索结果与指令作为大模型输入→ 大模型基于检索结果生成答案。 在Agent中的角色:类似人的「图书馆/搜索引擎」,是Agent的精准知识来源,让大模型的回答有依据、无幻觉、能覆盖实时/专属场景(如企业内部文档问答、行业最新动态分析)。 4. MCP(Model Context Protocol,模型上下文协议):Agent的“标准化调用桥梁” 核心作用:定义大模型与外部工具、SKILLS、Memory、RAG之间的标准化交互格式,让大模型能“看懂”并“调用”各类外部能力,让外部能力的结果能“回传”并被大模型理解,解决「大模型与外部组件通信无标准、适配成本高」的问题。 核心价值: 对开发者:无需为每个工具/技能开发单独的适配层,按MCP规范封装即可让大模型调用,降低开发成本; 对大模型:统一的调用格式(如工具名称、参数、返回值格式)让其能快速识别并执行,减少推理负担; 在Agent中的角色:类似人的「神经系统+标准化指令语言」,是大模型与所有外部能力的通信桥梁,让大脑(大模型)能精准指挥身体(工具/技能),身体的反馈也能精准传递给大脑。 5. SKILLS(技能):Agent的“可复用执行单元”,封装落地能力 核心作用:将Agent的单一/组合能力封装为标准化、可复用的技能单元,让Agent能快速执行特定任务,解决「大模型仅有推理能力、无落地执行能力,且能力碎片化难以复用」的痛点。 技能的封装形式:基于「大模型+Memory/RAG/工具」的组合能力,按MCP规范封装,如「Excel数据分析技能」「市场调研技能」「小红书文案创作技能」「财务对账技能」。 技能的特点:可复用、可组合、可自定义(开发者/用户可按需求创建)、可共享(团队/生态内共享技能);单个技能解决一个具体任务,多个技能组合可解决复杂任务。 在Agent中的角色:类似人的「专业技能/动手能力」(如“会做数据分析”“会写文案”),是Agent的落地执行单元,让Agent从“只会说”升级为“会做事”。 二、五者在Agent中的层级协作关系(核心关联) 五者在Agent中形成清晰的四层架构,从核心到落地层层支撑,无任何一个组件是孤立的,所有外部组件最终都通过MCP桥梁向大模型大脑赋能,再通过SKILLS落地为实际能力。 整体层级架构(从核心到落地) 大模型(决策中枢) → Memory+RAG(能力底座) → MCP(标准化桥梁) → SKILLS(执行单元) 补充:工具(如搜索/Excel/数据库)是SKILLS的底层支撑,属于SKILLS的“执行原料”。 逐层级拆解关联:谁依赖谁、谁赋能谁 1. 基础层:Memory+RAG 直接赋能大模型,补齐核心短板 大模型是Agent的核心,但原生能力有明显缺陷,Memory和RAG是大模型的“左膀右臂”,直接解决其最核心的两个痛点,是Agent能实现「个性化、精准化」的基础: Memory → 为大模型提供记忆能力:大模型在推理/决策时,通过MCP调用Memory组件,提取用户偏好、交互历史、任务中间状态,让决策更贴合用户、更连贯; RAG → 为大模型提供精准知识:大模型在解析用户指令后,判断需要外部知识时,通过MCP调用RAG组件,检索相关文档片段,拼接至输入中,让生成的结果有依据、无幻觉; 关联特点:Memory和RAG平行赋能大模型,无相互依赖,均可被大模型单独调用,是Agent的基础能力底座。 2. 连接层:MCP 是所有组件的“通用通信协议”,实现标准化协作 MCP是Agent的“交通规则”,所有组件之间的交互都必须遵循MCP规范,没有MCP,大模型无法调用Memory/RAG/SKILLS,组件之间也无法传递数据: 大模型 ↔ Memory:大模型按MCP格式发送“记忆提取请求”,Memory按MCP格式返回“记忆片段”; 大模型 ↔ RAG:大模型按MCP格式发送“检索请求(含关键词/向量)”,RAG按MCP格式返回“检索到的文档片段”; 大模型 ↔ SKILLS:大模型按MCP格式发送“技能调用请求(含技能名称、参数)”,SKILLS按MCP格式返回“技能执行结果”; SKILLS ↔ Memory/RAG:技能执行中需要记忆/知识时,也按MCP格式调用对应的组件,实现技能内部的能力复用; 核心价值:MCP让Agent的组件实现“即插即用”,新增Memory/RAG/SKILLS时,仅需按MCP封装,无需修改大模型及其他组件的代码,大幅提升Agent的扩展性。 3. 落地层:SKILLS 封装所有上游能力,实现Agent的“落地执行” SKILLS是Agent的“最终产品”,是所有上游组件(大模型、Memory、RAG)的组合封装与落地形式,没有SKILLS,Agent仅有推理/记忆/检索能力,无法完成实际业务任务: 技能的本质:一个技能 = 大模型推理 + (Memory/RAG/工具)的组合调用 + 标准化执行流程,并按MCP规范封装为可调用单元; 示例:「AI市场调研技能」的内部逻辑: 大模型拆解任务:“需要搜索2026年AI市场规模→检索行业报告→分析增长数据→生成调研简报”; 按MCP调用搜索工具(SKILLS的底层工具)获取实时数据; 按MCP调用RAG检索相关行业报告,补充专属知识; 大模型整合搜索结果+RAG片段,进行逻辑推理; 按MCP调用Memory提取用户偏好(如“简报需简洁,500字以内”); 大模型生成符合要求的调研简报,作为技能执行结果返回; 关联特点:SKILLS依赖所有上游组件,是大模型、Memory、RAG、工具的能力聚合体,也是Agent面向用户/业务的直接交互入口(用户通过“调用技能”让Agent完成任务)。 三、五者协同工作的完整Agent执行流程(以「市场调研任务」为例) 用一个具体的业务场景,还原五者的实时协作过程,更直观理解其关联: 任务需求 用户向Agent发送指令:“帮我调研2026年AI Agent市场规模,生成一份500字以内的简洁简报,我上次要的报告也是这个风格” 五者协同执行步骤 大模型解析指令:作为核心大脑,首先理解用户需求:① 任务是“调研2026年AI Agent市场规模+生成简报”;② 格式要求“500字以内、简洁”;③ 隐含需求“匹配上次的报告风格”(需要调用记忆)。 大模型→MCP→Memory:大模型判断需要用户的历史偏好,按MCP格式向Memory发送提取请求,Memory按MCP返回“用户上次要求报告简洁,500字以内,无冗余数据”的记忆片段,大模型整合至任务拆解中。 大模型→MCP→RAG/工具:大模型判断需要实时外部知识,按MCP格式分别调用:① 网络搜索工具,获取2026年AI Agent市场规模的最新数据;② RAG组件,检索AI Agent行业分析报告,补充增长原因/趋势数据。 大模型整合信息:接收MCP格式回传的「记忆片段+搜索数据+RAG报告片段」,进行逻辑推理,拆解出简报的核心结构:市场规模数据→同比增长率→核心增长原因→未来趋势。 大模型生成结果:按“500字以内、简洁”的要求,生成AI Agent市场调研简报,作为最终结果返回给用户。 拓展:若封装为SKILLS:将上述「解析指令→调用记忆→检索/搜索→整合生成」的全流程,按MCP规范封装为「AI市场调研技能」,后续用户只需发送“调用AI市场调研技能,主题2026年AI Agent市场规模”,Agent即可直接执行,无需重复拆解任务,实现技能复用。 流程核心结论 所有组件的协作都以大模型为核心,大模型决定每一步的操作; MCP贯穿全程,是所有组件交互的“语言”; Memory和RAG是提升结果「个性化、精准化」的关键; SKILLS是让流程「可复用、可落地」的关键。 四、五者协作的核心价值:让Agent从“对话模型”升级为“自主智能体” 单独的大模型只是“对话工具”,而大模型+Memory+RAG+MCP+SKILLS的组合,让Agent实现了从“只会说”到“会思考、会记忆、会检索、会做事、会复用”的本质升级,这也是AI Agent能落地企业级业务的核心原因: 有记忆:记住用户偏好、历史任务,实现个性化交互; 有知识:能检索实时/专属知识,回答无幻觉、有依据; 会思考:大模型能拆解复杂任务、自主判断调用哪些能力; 会通信:MCP让所有组件标准化协作,扩展性极强; 会做事:SKILLS封装可复用的执行单元,能完成实际业务任务; 可复用:SKILLS让Agent的能力能被快速调用,提升执行效率。 五、关键关联总结表(快速查阅) 组件 核心定位 与大模型的关联 与MCP的关联 与其他组件的核心关联 大模型 决策中枢 自身为核心,无依赖 按MCP格式调用所有组件 驱动Memory/RAG/SKILLS执行 Memory 记忆系统 为大模型提供记忆能力,被大模型调用 按MCP格式与所有组件交互 为RAG/SKILLS补充个性化信息 RAG 外置知识库 为大模型提供精准知识,被大模型调用 按MCP格式与所有组件交互 为SKILLS补充专属/实时知识 MCP 标准化桥梁 是大模型与外部组件的通信格式 自身为协议,无依赖 所有组件的交互都遵循MCP SKILLS 可复用执行单元 封装大模型的推理能力 按MCP规范封装与被调用 组合调用Memory/RAG/工具,实现能力落地

10 天前
作者: Augusto Marietti(Kong CEO & 联合创始人)、YJ Lu(Teachers’ Venture Growth 总监)、Yiran Wu(Teachers’ Venture Growth 投资分析师) 背景:上下文是新的算力 过去几年,AI 以史无前例的速度发展。从传统机器学习系统跃迁到能写作、编程、推理的生成式 AI 模型,这一变化彻底改变了我们与 AI 的互动方式。但旅程并未结束。 我们正进入一个新的阶段:具备上下文理解与自主行动能力的 Agentic AI(代理式 AI)。它们能自主设定目标、执行任务,并且几乎不需要人工干预。 支撑这一转变的核心是 Model Context Protocol(MCP)模型上下文协议 —— 一个新兴标准,用于将基于提示的生成式 AI 模型连接到真实世界的数据、工具与操作。 上一阶段的问题:缺失的上下文(404) 直到最近,大多数前沿大模型都运行在“围墙花园”中: 它们能理解用户提示并生成文本,但无法标准化地访问个人或企业数据、内部工具、API 或其他关键上下文来源。 企业若想让模型具备上下文能力,只能构建昂贵、脆弱且难以维护的定制集成(“胶水代码”)。 2024 年 11 月,Anthropic 推出开源框架 MCP,旨在通过通用协议将上下文引入 LLM,使其能发现、调用并认证外部系统的 API。 MCP 很快成为行业标准,被 OpenAI、Google 等巨头采用。 随着生态成熟,AI 系统将能在不同工具之间保持上下文,实现可持续的架构。 MCP 如何工作? 在 MCP 之前,每个 LLM 都有自己的插件格式,需要为每个工具写独立的集成代码,形成 N × M 的复杂矩阵。 MCP 将这一矩阵折叠为一个供应商中立的系统,通过定义清晰的角色(host、client、server),让工具能以一致方式被发现与调用。 只需为每个上下文源构建一个 MCP server,任何兼容 MCP 的 AI 助手都能像使用工具箱一样使用它。 流程如下: 用户输入提示 模型解析意图 模型不再“猜测”,而是向 真实上下文 请求信息 MCP client 将意图转为标准化请求 MCP server 执行 API 调用并返回结构化结果 模型基于真实数据生成上下文感知的输出 最重要的是:不再需要 N × M 的胶水代码。 承API之踵,拓更阔之路 科技行业并非第一次需要通用标准来实现规模化。 API 曾是软件互联的关键: 它定义了软件之间如何交流、返回什么、如何安全交换信息。 API 真正爆发是在 REST、JSON、OAuth 等标准化之后,开发者终于能以可移植、可预测的方式构建软件。 这催生了 Stripe、Twilio、Plaid 等“API 即业务”的公司。 MCP 正在走类似的道路: 标准化模型访问工具与数据的方式。 随着 MCP 采用率提升,我们将看到 API 生态曾经出现的配套设施: 注册表、可观测性、审批系统、策略引擎、更好的工具链等。 我们的判断:上下文 + API + 工作流 = Agentic AI 我们押注两个方向: Anthropic 的 MCP 正成为连接 LLM 与工具/数据的行业标准,为代理式工作流与多代理系统(A2A)奠定基础。 Kong 将其在 API 管理领域的领先地位扩展到 AI 连接层,成为企业系统与新一代 AI 代理之间的“连接组织”。 Anthropic Anthropic 推出 MCP,是因为 AI 的未来不仅在于更大的模型,还在于将模型连接到正确的上下文。 2025 年 5 月,Anthropic 发布 Integrations,将 MCP 支持扩展到 Claude API,使 Claude 能无代码连接任何远程 MCP server。 未来路线图从单一代理转向多代理协作(A2A): 一个代理获取客户数据 一个代理做投资组合分析 一个代理生成合规报告 全部通过 MCP 与 A2A 无缝协调 AI 将从单一助手变成专业代理网络。 Kong Kong 正将其 API 管理平台扩展到 AI 连接层,推出: AI Gateway:将 LLM/MCP/API 调用视为 API 流量进行路由、安全、监控与优化 MCP Server for Konnect:将企业系统(API、服务、分析等)通过 MCP 暴露给 AI 代理,使其能用自然语言查询并获取洞察 Kong 的愿景是: “没有 API,就没有 AI。” MCP 的下一章:Linux 基金会托管 2025 年 12 月,Anthropic 将 MCP 捐赠给 Linux 基金会旗下的新机构 Agentic AI Foundation(AAIF)。 AAIF 由 Anthropic、Block、OpenAI 共同创立,并获得 Google、Microsoft、AWS、Cloudflare、Bloomberg 支持。 MCP 的开源治理模式类似 Linux、Kubernetes、Node.js、PyTorch 等项目,预计将加速其采用。 目前 MCP 已实现: 每月 9700 万+ SDK 下载 1 万+ 活跃服务器 深度集成到 Claude、ChatGPT、Gemini 等产品 MCP 正从开发者框架走向下一代 AI 工作流的关键基础设施。 未来的机会 MCP 通过提供一个中立、通用的语言,让模型能访问工具、数据与系统,从而降低摩擦、提升互操作性。 随着采用率提升,我们将看到类似 API 生态的爆发: 新商业模式 新工具链 新应用类别 但机会伴随风险: 工具滥用 数据暴露 安全治理需求 生态必须在开放与安全之间取得平衡。 标准本身不会改变世界,生态系统才会。 如果成功,MCP 将成为未来几十年 AI 智能如何被封装、共享与扩展的基础设施。 (文章来源otpp.com )

10 天前
Agent是具备自主决策、工具调用与状态感知的智能体概念,LangGraph则是LangChain生态下的图驱动有状态Agent编排框架,专门解决复杂Agent的状态管理、循环分支与持久执行问题,是构建生产级Agent的核心基础设施。二者是“概念-实现”的强绑定关系,LangGraph为Agent提供图建模、状态持久化、人机协作等关键能力,适配ReAct、多智能体协作等复杂场景。 核心关联逻辑:概念与实现的分层 层级 定位 核心内容 概念层(Agent) 自主决策执行单元 LLM+Tools+自主循环(Thought→Action→Observation),解决非预定义复杂任务 实现层(LangGraph) 图驱动Agent框架 以有向图建模Agent流程,通过State/Nodes/Edges/Checkpointing支撑复杂逻辑 生态层 LangChain全家桶 LangGraph无缝集成LangChain的LLM/Tools/Prompt与LangSmith调试能力,降低开发门槛 LangGraph为Agent解决的核心痛点 有状态执行:用State统一管理对话历史、工具输出、中间结果,支持跨轮次上下文与长期记忆,避免“失忆”。 复杂流程编排:将Agent步骤拆为Nodes(LLM调用、工具执行、决策判断),用Edges(含条件分支)定义路径,原生支持循环(如ReAct迭代)与并行执行。 持久化与容错:Checkpointing自动保存每步状态,任务中断后可恢复,适配长时间运行场景(如多轮调研、项目管理)。 人机协作可控:支持执行中人工干预状态、审批工具调用,解决Agent“黑盒操作”风险。 多Agent协同:将不同功能Agent作为节点,通过图结构实现任务拆分与结果聚合,适配复杂团队协作流程。 典型实现范式:ReAct Agent的图建模 定义State:封装消息、工具结果、思考记录等,用TypedDict/Pydantic统一管理。 配置Nodes:LLM节点(推理决策)、工具节点(执行调用)、路由节点(判断是否继续)。 连接Edges:按条件分支(如“有工具调用则执行工具,否则结束”)构建循环路径。 启用Checkpointing:保存每步状态,支持断点恢复与调试追踪。 部署与监控:用LangSmith可视化执行路径,快速定位逻辑问题。 与传统Agent实现的差异 对比项 LangGraph驱动Agent LangChain基础Pipe 普通云端Agent 状态管理 原生持久化,跨轮次记忆 无内置状态,需手动维护 依赖会话缓存,易丢失 复杂逻辑 支持循环、条件分支、并行 线性流程,扩展有限 多为单步/固定链,灵活度低 容错能力 Checkpointing断点恢复 无容错,中断需重跑 云端依赖,故障难恢复 可控性 执行中人工干预 固定流程,干预困难 操作透明性差 关键使用场景 单Agent复杂任务:市场调研(搜索→数据清洗→报告生成)、财务对账(多系统数据拉取→交叉校验→异常告警)。 多Agent协作:产品开发(需求Agent→设计Agent→开发Agent→测试Agent)、跨境电商(选品→翻译→投放→售后)。 长期运行任务:客户成功跟进(多轮问题诊断→方案生成→效果复盘)、内容系列创作(选题→素材→撰写→发布)。 快速上手建议 用create_react_agent快速搭建基础Agent,绑定LLM与Tools,验证核心流程。 自定义State结构,覆盖任务类型、工具结果、历史对话等关键字段。 拆分Nodes与Edges,添加条件判断(如“金额>1000需审批”),提升流程可控性。 启用Checkpointing并接入LangSmith,监控执行路径与状态变化。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI