2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
2 天前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
20 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
1 个月前
根据《Nature》最新发表的研究,非营利研究机构METR发现了一项被称为“智能体摩尔定律”的规律,即AI智能体(Agent)在完成长期任务方面的能力每7个月翻一番。这一发现揭示了AI在任务完成时间跨度上的指数级增长趋势,并提出了“50%-任务完成时间跨度”这一新指标来衡量AI的能力变化。 核心发现 能力翻倍周期:自2019年以来,AI智能体完成任务的时间跨度每7个月翻一番。这意味着,如果2019年AI完成某项任务所需时间对应人类需要10分钟,那么7个月后,这一时间将缩短至20分钟。 加速趋势:2024年,AI能力的增长速度进一步加快,部分最新模型的能力每3个月翻一番。 未来预测:按照这一趋势,预计5年后(即2030年左右),AI将能够完成许多当前需要人类花费一个月时间才能完成的任务。 研究方法 METR团队通过以下步骤验证了这一规律: 任务设计:设计了170个多样化任务,涵盖软件工程、机器学习、网络安全等领域,并测量人类专家完成这些任务所需的时间,建立“人类基准线”。 指标引入:提出了“50%-任务完成时间跨度”指标,即AI在50%成功率下完成任务的时间长度。这一指标对数据分布的微小变化具有鲁棒性。 模型评估:评估了2019年至2025年间发布的13个前沿AI模型(如GPT系列、Sonnet 3.7等),通过逻辑回归分析计算每个模型的时间跨度。 验证与外部实验 为了验证结果的可靠性,研究团队进行了多项外部实验,包括: 回溯预测:使用2023-2025年数据验证趋势一致性。 任务混乱度分析:评估任务复杂性对AI性能的影响,发现AI在复杂任务上的提升速度与简单任务相似。 基准测试:在SWE-bench等数据集上验证了类似的指数增长趋势。 意义与影响 技术进步:这一发现标志着AI在执行长期任务能力上的显著进步,可能推动AI在软件开发、研究等领域的广泛应用。 劳动力市场影响:AI能力的快速提升可能对劳动力市场产生深远影响,未来或替代部分人类工作,尤其是重复性和耗时任务。 社会挑战:研究提醒社会各界需关注AI技术进步带来的就业和经济挑战,并提前制定应对策略。 未来展望 METR团队预测,按照当前趋势,AI可能在2028年11月达到一个月的任务时间跨度,保守估计则在2031年2月实现。尽管研究存在任务局限性和未来不确定性,但团队确信AI能力每年有1~4倍的增长趋势。 这项研究为AI技术的发展提供了新的量化标准,同时也引发了对AI未来应用和影响的深入思考。
1 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
1 个月前
判断 Manus 是否是“真正的 AGI”(通用人工智能)问世,还是仅仅一个噱头,需要从多个角度审视:AGI 的定义、Manus 的实际能力、当前 AI 技术边界,以及开发团队的宣传策略。以下是逐步分析: 1. AGI 的定义 通用人工智能(AGI)通常指具备人类级别的通用智能,能够自主学习、推理、解决问题,并在任意领域执行任务,而不仅仅局限于特定任务(即狭义 AI,如 ChatGPT 或图像生成模型)。真正的 AGI 应该: 跨领域能力:无需预先训练即可适应新任务。 自主性:独立制定目标并执行复杂计划。 自我改进:具备自我学习和优化能力。 目前全球公认的 AI 系统(包括 GPT-4、Claude 等)仍属狭义 AI,尽管功能强大,但依赖特定训练数据和预定义目标,距离 AGI 还有差距。 2. Manus 的能力 根据 Monica AI 官方宣传和公开演示,Manus 的核心特点是“自主性”和“任务执行力”。它能完成多步骤、现实世界的任务,例如筛选简历、分析股票、规划旅行等,并在 GAIA 基准测试中表现优异。具体能力包括: 多工具调用:自主搜索网页、生成图表、整合信息。 实时展示:用户可见其工作流程,类似“思维链”(Chain of Thought)。 多模型协同:采用“多签名”系统,可能由多个 AI 模块分工合作。 这些功能确实超越了传统对话型 AI(如 ChatGPT),更接近“代理型 AI”(AI Agent),即能主动执行任务而非仅提供建议。然而,这是否达到 AGI 水平仍需审视: 局限性未知:目前展示的任务虽复杂,但可能是预设场景,未证明其能在完全陌生领域自适应。 依赖性未明:不清楚其是否完全独立,还是仍需人类设计的框架和数据支持。 自我进化:暂无证据显示 Manus 能自我改进或自主学习新技能。 3. 当前 AI 技术边界 截至 2025 年 3 月,AI 技术在“代理”方向上进步显著,例如 OpenAI 的 o1 模型(擅长推理)和 xAI 的工作,但业界共识是 AGI 尚未实现。技术瓶颈包括: 泛化能力:现有模型难以跨领域迁移。 计算资源:AGI 可能需要远超当前的基础设施。 伦理与安全:真正的 AGI 需解决控制和可解释性问题。 Manus 的“多签名”系统和自主性可能是技术创新,但若仅基于现有大模型优化(例如 Claude 3.5 或 DeepSeek),它更可能是“高级狭义 AI”而非 AGI。 4. 宣传策略与噱头可能性 Monica AI 宣称 Manus 是“全球首款真正自主的 AI 代理”,并计划开源部分代码,这显示出自信。但科技领域常有夸大宣传先例: 吸引眼球:称其为 AGI 可能是营销策略,吸引投资和用户。 内测限制:目前仅限邀请码访问,缺乏第三方独立验证。 竞争背景:全球 AI 竞赛激烈,中国团队可能借此树立技术标杆。 然而,创始人肖鸿的履历(华中科技大学背景、Monica AI 的成功)和团队的技术实力表明,Manus 并非空洞炒作,至少是一个有实质进展的项目。 5. 判断 综合来看,Manus 更可能是高级 AI 代理的突破,而非“真正的 AGI”: 证据支持:其展示的能力令人印象深刻,但在跨领域泛化、自我学习等 AGI 核心标准上缺乏明确证明。 技术现实:当前 AI 生态距离 AGI 还有距离,Manus 可能是现有技术的优化组合。 噱头成分:宣传中“全球首款 AGI”的说法有夸张嫌疑,但不排除其在特定任务上接近 AGI 的表现。 结论 Manus 不是“真正的 AGI 问世”,但也不是单纯的噱头。它可能是一个强大的 AI 代理工具,在自主性和实用性上领先于现有产品,代表了中国在 AI 领域的野心和实力。要确认其真实水平,需等待内测开放后的用户反馈、第三方评测,或开源代码的披露。如果你是潜在用户或观察者,建议关注其后续发展,尤其是实际应用中的表现。 (以上评论由Grok3生成)
2 个月前
前 OpenAI 首席技术官 Mira Murati 宣布与杰出科学家和工程师共同创立 Thinking Machines Lab,专注 AI 研究和应用,该公司初创团队汇聚众多 AI 领域人才,旨在让 AI 更加透明、可定制、更强更通用。 关于 Thinking Machines Lab 成立时间与背景 当地时间2025年2月18日,人工智能巨头OpenAI的前首席技术官米拉·穆拉蒂官宣了新公司Thinking Machines Lab的成立。 核心团队 米拉·穆拉蒂:担任公司CEO,在AI领域经验丰富,2018年加入OpenAI,曾主导ChatGPT、DALL-E等项目开发,2023年10月离开OpenAI进行“个人探索”。 约翰·舒尔曼(John Schulman):OpenAI联合创始人,担任首席科学家。 巴雷特·佐夫(Barret Zoph):OpenAI前研究副总裁,出任CTO。 翁荔(Lilian Weng):北大校友、OpenAI前研究副总裁,也是联合创始人之一。 公司目标与愿景 公司目标:正在做三件事,即帮助人们调整人工智能系统以满足他们的特定需求;为构建能力更强的人工智能系统奠定坚实的基础;培养开放的科学文化,帮助整个领域了解和改进这些系统。 公司愿景:让人工智能系统被更广泛地理解、可定制并具有普遍能力,通过坚实的基础、开放的科学和实际的应用,让人工智能变得更有用、更易懂,从而推动人工智能的发展。 研究方向与重点 开源共享:计划经常发布技术博文、论文和代码,与更广泛的研究人员和构建者社区合作,推动人类对人工智能的理解。 人机协作:不专注于制造完全自主的人工智能系统,而是建立与人协作的多模态系统,打造更具灵活性、适应性和个性化的人工智能系统。 模型智能:在科学和编程等领域构建能力前沿的模型,重视基础设施质量,以长期正确地构建事物,提高生产力和安全性。 产品安全:强调在实践中学习,研究与产品共同设计,通过部署实现迭代学习。认为最有效的安全措施来自前瞻性研究和细致的实际测试的结合,重点了解系统如何在现实世界中创造真正的价值。 人才团队 初始团队约30人,半数有OpenAI工作背景,还有来自谷歌、Meta和X等公司的人员,他们曾构建过ChatGPT、Character.ai、Mistral等开放权重模型,以及PyTorch、OpenAI Gym、Fairseq和Segment Anything等流行的开源项目。
2 个月前
Replit Agent 是由 Replit 2024年9月推出的一款基于人工智能的编程工具,旨在通过自然语言提示帮助用户自动构建应用程序。它覆盖了从代码编写、开发环境配置到调试和部署的整个软件开发流程,极大地简化了开发过程,尤其适合从零开始构建 Web 应用程序原型。以下是关于 Replit Agent 的详细介绍: 1. 核心功能 Replit Agent 的主要功能包括: 自然语言生成代码:用户可以通过输入详细的自然语言提示(如“创建一个待办事项应用”),Replit Agent 会自动选择适当的编程语言、框架和技术栈,并生成代码原型。这一功能大大降低了编程门槛,即使是没有编程经验的用户也能快速上手。 开发环境配置:Replit Agent 能够自动设置开发环境,安装所需的依赖项,避免了繁琐的手动配置过程。 项目协作助手:在项目构建过程中,用户可以与 Replit Agent 互动,提供 API 密钥、反馈或方向指导,Agent 会根据这些信息调整和优化项目。 快速原型开发:Replit Agent 特别擅长从零到一构建 Web 应用程序原型,能够在几分钟内生成可交互的应用原型,例如创建一个类似 Wordle 的小游戏或一个优惠券生成器。 迭代与测试:用户可以对生成的开发计划进行修改、删除或重新生成,并实时跟踪开发进度,进行应用的测试和调试。 跨平台支持:除了 Web 端,Replit Agent 还支持通过 Replit 移动应用使用,方便用户随时随地进行开发。 部署支持:项目完成后,用户可以直接通过 Replit 的部署功能将应用程序上线,实现开发与部署的无缝对接。 2. 适用场景 Replit Agent 适用于多种开发场景: 快速原型制作:初创企业或个人开发者可以利用 Replit Agent 快速生成产品原型,验证创意可行性。 个性化应用开发:从简单的优惠券生成器到复杂的 3D 游戏,Replit Agent 都能在短时间内完成开发并部署上线。 教育领域:Replit Agent 为编程教育提供了直观的工具,学生可以通过自然语言输入快速看到代码生成效果,降低学习门槛。 自动化工作流:用户可以用 Replit Agent 替代昂贵的自动化工具(如 Zapier),构建自定义的工作流解决方案。 3. 技术特点 自然语言接口:Replit Agent 支持自然语言输入,用户无需掌握复杂的编程语法即可启动项目。 多语言支持:支持多种主流编程语言,如 JavaScript、Python、Node.js 等,能够满足不同类型的开发需求。 自动化程度高:从环境配置到代码生成再到部署,Replit Agent 能够自动化处理整个开发流程,显著提升开发效率。 沙盒环境:提供安全的代码评估环境,支持新功能的测试和验证。 4. 使用方式 Replit Agent 目前仅对 Replit Core 和 Teams 订阅用户开放早期访问。使用步骤如下: 登录 Replit 账号:确保已订阅 Replit Core 或 Teams 计划。 创建项目:在 Replit 主页或移动应用中输入自然语言提示,描述想要构建的应用。 生成原型:Replit Agent 会根据提示自动生成代码和开发计划。 迭代与测试:用户可以修改开发计划,跟踪进度,并进行测试。 部署应用:完成开发后,通过 Replit 的部署功能将应用上线。 5. 优势与不足 优势: 降低开发门槛:即使是初学者也能通过自然语言提示快速构建应用。 快速开发:从想法到部署只需几分钟,适合快速验证创意。 全流程自动化:覆盖从环境配置到部署的整个开发流程,节省时间和精力。 不足: 访问受限:目前仅对 Replit Core 和 Teams 用户开放,普通用户无法使用。 功能局限性:对于复杂项目或高度定制化的需求,Replit Agent 可能表现不足。
2 个月前
OpenAI 对 GPT-5 的愿景集中于创建一个“统一智能”系统,无缝整合多种 AI 功能。这种方法旨在消除用户在不同模型之间进行选择的需求,而是提供一个单一且强大的 AI,能够轻松处理各种任务。主要目标包括: 将语音交互、画布操作、搜索功能和深度研究能力等高级功能整合到一个统一的系统中。 增强自然语言处理和推理能力,以在特定任务中实现“博士级智能”。 改进多模态处理,更好地理解和生成基于文本、图像以及可能的视频的响应。 扩展上下文窗口,以便处理和记住来自先前交互的更多信息。 简化用户体验,通过移除模型选择器并在不同订阅层级中提供不同的智能水平。 链式思维模型的介绍 OpenAI 即将推出的 GPT-5 预计将引入先进的链式思维(CoT)能力,大幅提升其推理和解决问题的能力。这个新模型可能会具备改进的多模态处理功能,整合文本、图像,甚至可能包括视频输入。Sam Altman 暗示,GPT-5 将展现出更好的推理能力,犯错更少,并且输出更加可靠。这些 CoT 提示的进步旨在通过结构化的思维过程引导 AI,将复杂任务分解为可管理的步骤,从而生成更准确和连贯的响应。 增强的多模态处理能力 GPT-5 将通过增强的多模态处理能力彻底改变人工智能交互,这是 Sam Altman 强调的一个关键重点。这一进步将使模型能够无缝集成文本、图像、音频和视频的输入和输出。主要功能包括: 语音到语音功能,实现更自然的对话交互。 改进的图像处理和生成,基于之前集成的成功经验。 视频支持,标志着人工智能在理解和生成视听内容方面的重大飞跃。 多种数据类型的统一处理,创造更统一且具有上下文感知的人工智能体验。 这些改进预计将为人工智能在各个行业的应用打开新的可能性,从创意内容生成到医疗和教育等领域更复杂的问题解决。