2025年3月11日,OpenAI发布了Responses API,旨在简化自主式人工智能应用的开发,使开发者和企业能够更轻松地创建能够自主完成任务的系统。以下是对它的详细介绍:
2 天前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
20 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
1 个月前
根据《Nature》最新发表的研究,非营利研究机构METR发现了一项被称为“智能体摩尔定律”的规律,即AI智能体(Agent)在完成长期任务方面的能力每7个月翻一番。这一发现揭示了AI在任务完成时间跨度上的指数级增长趋势,并提出了“50%-任务完成时间跨度”这一新指标来衡量AI的能力变化。 核心发现 能力翻倍周期:自2019年以来,AI智能体完成任务的时间跨度每7个月翻一番。这意味着,如果2019年AI完成某项任务所需时间对应人类需要10分钟,那么7个月后,这一时间将缩短至20分钟。 加速趋势:2024年,AI能力的增长速度进一步加快,部分最新模型的能力每3个月翻一番。 未来预测:按照这一趋势,预计5年后(即2030年左右),AI将能够完成许多当前需要人类花费一个月时间才能完成的任务。 研究方法 METR团队通过以下步骤验证了这一规律: 任务设计:设计了170个多样化任务,涵盖软件工程、机器学习、网络安全等领域,并测量人类专家完成这些任务所需的时间,建立“人类基准线”。 指标引入:提出了“50%-任务完成时间跨度”指标,即AI在50%成功率下完成任务的时间长度。这一指标对数据分布的微小变化具有鲁棒性。 模型评估:评估了2019年至2025年间发布的13个前沿AI模型(如GPT系列、Sonnet 3.7等),通过逻辑回归分析计算每个模型的时间跨度。 验证与外部实验 为了验证结果的可靠性,研究团队进行了多项外部实验,包括: 回溯预测:使用2023-2025年数据验证趋势一致性。 任务混乱度分析:评估任务复杂性对AI性能的影响,发现AI在复杂任务上的提升速度与简单任务相似。 基准测试:在SWE-bench等数据集上验证了类似的指数增长趋势。 意义与影响 技术进步:这一发现标志着AI在执行长期任务能力上的显著进步,可能推动AI在软件开发、研究等领域的广泛应用。 劳动力市场影响:AI能力的快速提升可能对劳动力市场产生深远影响,未来或替代部分人类工作,尤其是重复性和耗时任务。 社会挑战:研究提醒社会各界需关注AI技术进步带来的就业和经济挑战,并提前制定应对策略。 未来展望 METR团队预测,按照当前趋势,AI可能在2028年11月达到一个月的任务时间跨度,保守估计则在2031年2月实现。尽管研究存在任务局限性和未来不确定性,但团队确信AI能力每年有1~4倍的增长趋势。 这项研究为AI技术的发展提供了新的量化标准,同时也引发了对AI未来应用和影响的深入思考。
1 个月前
阿里推出新夸克,集成AI对话、深度搜索、深度执行等功能,标志着其从搜索引擎向AI Agent的转型。 新夸克接入通义系列模型,用户规模超2亿,DAU达3430万,位居AI应用榜首。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
2 个月前
如何整合大模型API并提供开发者服务 随着人工智能技术的快速发展,越来越多的开发者希望在自己的应用中集成AI能力,如自然语言处理、图像生成、语音识别等。如果你计划搭建一个AI平台,并向开发者(B2C)提供AI API服务,那么本文将详细介绍如何整合现有大模型的API,并成为官方分销商。 1. 选择合适的大模型API 当前市场上已有多个强大的AI大模型提供API服务,以下是几家主流供应商: OpenAI(ChatGPT/GPT-4):适用于通用对话、文本生成、代码补全等。 Anthropic(Claude):擅长安全对话和长文本理解。 Google Gemini(原Bard):适合多模态(文本、图像)AI应用。 Mistral AI:提供高效、开源的AI模型,适合灵活集成。 Hugging Face:开放API,可用于多种NLP任务。 Stable Diffusion/DALL·E:用于图像生成。 Whisper API:优秀的语音识别能力。 选择API时,需要考虑成本、调用限制、商业许可、模型能力等因素。 2. 如何获得大模型API的分销权限? 如果你希望不仅是API的用户,还能将API分发给开发者,需要与AI公司建立更深层次的合作关系。不同公司有不同的合作方式: OpenAI(ChatGPT/GPT-4) 标准API使用:直接在OpenAI官网注册并获取API Key。 企业级API访问:通过 OpenAI Enterprise 申请更高额度的API。 成为OpenAI API Reseller(API分销商):需要直接联系OpenAI商务团队(sales@openai.com)并提供业务计划,通常要求较大的流量或消费额度。 Anthropic(Claude) 访问 Anthropic API 并申请企业合作。 需要提供详细的业务应用场景,并确保数据安全合规。 直接联系 sales@anthropic.com 申请API分销权限。 Google Gemini(原Bard) 使用 Google AI Studio 获取API。 申请Google Cloud AI企业级API,并与Google商务团队合作。 通过 Google Cloud AI Solutions 申请大规模API使用权限。 Mistral AI 访问 Mistral API 并申请企业级合作。 直接联系 Mistral 商务团队申请API分销许可。 Hugging Face 访问 Hugging Face Inference API。 联系 Hugging Face 申请企业API许可,并可能合作进行API优化。 3. 技术架构:如何整合多个API? 如果你希望提供一个集成多个AI API的服务平台,你需要构建一个API管理系统,包括: (1)API网关与管理 API网关(API Gateway):使用 Kong、AWS API Gateway、Apigee 统一管理所有API。 身份认证(Authentication):使用 JWT Token 或 OAuth2 进行用户管理。 负载均衡与缓存:结合 Redis 或 Cloudflare 优化API请求速度。 (2)用户管理与计费系统 API密钥管理:允许用户注册并申请API Key。 调用监控与限流:防止滥用,确保稳定性。 计费系统:使用 Stripe、PayPal 提供按量计费或订阅计划。 (3)前端支持与开发者体验 API文档:使用 Swagger UI 或 Redoc 提供清晰的API说明。 SDK支持:开发 Python/Node.js SDK 方便开发者集成。 在线测试环境:允许开发者在Web端试用API调用。 4. 商业模式:如何盈利? 如果你计划向开发者提供API服务,可以采用以下盈利模式: (1)免费+付费模式 提供 免费调用额度(如每月100次),超出后按量付费。 按不同模型提供不同的价格(GPT-4 高级版 vs GPT-3.5 免费版)。 (2)订阅模式 个人套餐:低价格,适合独立开发者。 企业套餐:支持高并发调用,并提供专属API密钥。 定制服务:为大型企业或团队提供专属AI API。 (3)增值服务 提供高优先级的API访问,减少延迟。 允许用户定制API模型参数,提高个性化。 结合其他工具,如AI自动化工作流、数据分析等。 5. 未来展望 随着AI技术的普及,越来越多的开发者希望将大模型能力集成到他们的产品中。如果你能整合多个AI API,并提供易用的开发者服务,将能在这一市场获得先机。通过与OpenAI、Anthropic、Google等公司建立合作,并搭建高效的API管理系统,你可以打造一个强大的AI API分发平台,为全球开发者提供优质的AI服务。 如果你有意向进入这一领域,不妨立即申请各大AI公司的企业级API,并开始搭建你的API分发平台!
2 个月前
前 OpenAI 首席技术官 Mira Murati 宣布与杰出科学家和工程师共同创立 Thinking Machines Lab,专注 AI 研究和应用,该公司初创团队汇聚众多 AI 领域人才,旨在让 AI 更加透明、可定制、更强更通用。 关于 Thinking Machines Lab 成立时间与背景 当地时间2025年2月18日,人工智能巨头OpenAI的前首席技术官米拉·穆拉蒂官宣了新公司Thinking Machines Lab的成立。 核心团队 米拉·穆拉蒂:担任公司CEO,在AI领域经验丰富,2018年加入OpenAI,曾主导ChatGPT、DALL-E等项目开发,2023年10月离开OpenAI进行“个人探索”。 约翰·舒尔曼(John Schulman):OpenAI联合创始人,担任首席科学家。 巴雷特·佐夫(Barret Zoph):OpenAI前研究副总裁,出任CTO。 翁荔(Lilian Weng):北大校友、OpenAI前研究副总裁,也是联合创始人之一。 公司目标与愿景 公司目标:正在做三件事,即帮助人们调整人工智能系统以满足他们的特定需求;为构建能力更强的人工智能系统奠定坚实的基础;培养开放的科学文化,帮助整个领域了解和改进这些系统。 公司愿景:让人工智能系统被更广泛地理解、可定制并具有普遍能力,通过坚实的基础、开放的科学和实际的应用,让人工智能变得更有用、更易懂,从而推动人工智能的发展。 研究方向与重点 开源共享:计划经常发布技术博文、论文和代码,与更广泛的研究人员和构建者社区合作,推动人类对人工智能的理解。 人机协作:不专注于制造完全自主的人工智能系统,而是建立与人协作的多模态系统,打造更具灵活性、适应性和个性化的人工智能系统。 模型智能:在科学和编程等领域构建能力前沿的模型,重视基础设施质量,以长期正确地构建事物,提高生产力和安全性。 产品安全:强调在实践中学习,研究与产品共同设计,通过部署实现迭代学习。认为最有效的安全措施来自前瞻性研究和细致的实际测试的结合,重点了解系统如何在现实世界中创造真正的价值。 人才团队 初始团队约30人,半数有OpenAI工作背景,还有来自谷歌、Meta和X等公司的人员,他们曾构建过ChatGPT、Character.ai、Mistral等开放权重模型,以及PyTorch、OpenAI Gym、Fairseq和Segment Anything等流行的开源项目。
2 个月前
Replit Agent 是由 Replit 2024年9月推出的一款基于人工智能的编程工具,旨在通过自然语言提示帮助用户自动构建应用程序。它覆盖了从代码编写、开发环境配置到调试和部署的整个软件开发流程,极大地简化了开发过程,尤其适合从零开始构建 Web 应用程序原型。以下是关于 Replit Agent 的详细介绍: 1. 核心功能 Replit Agent 的主要功能包括: 自然语言生成代码:用户可以通过输入详细的自然语言提示(如“创建一个待办事项应用”),Replit Agent 会自动选择适当的编程语言、框架和技术栈,并生成代码原型。这一功能大大降低了编程门槛,即使是没有编程经验的用户也能快速上手。 开发环境配置:Replit Agent 能够自动设置开发环境,安装所需的依赖项,避免了繁琐的手动配置过程。 项目协作助手:在项目构建过程中,用户可以与 Replit Agent 互动,提供 API 密钥、反馈或方向指导,Agent 会根据这些信息调整和优化项目。 快速原型开发:Replit Agent 特别擅长从零到一构建 Web 应用程序原型,能够在几分钟内生成可交互的应用原型,例如创建一个类似 Wordle 的小游戏或一个优惠券生成器。 迭代与测试:用户可以对生成的开发计划进行修改、删除或重新生成,并实时跟踪开发进度,进行应用的测试和调试。 跨平台支持:除了 Web 端,Replit Agent 还支持通过 Replit 移动应用使用,方便用户随时随地进行开发。 部署支持:项目完成后,用户可以直接通过 Replit 的部署功能将应用程序上线,实现开发与部署的无缝对接。 2. 适用场景 Replit Agent 适用于多种开发场景: 快速原型制作:初创企业或个人开发者可以利用 Replit Agent 快速生成产品原型,验证创意可行性。 个性化应用开发:从简单的优惠券生成器到复杂的 3D 游戏,Replit Agent 都能在短时间内完成开发并部署上线。 教育领域:Replit Agent 为编程教育提供了直观的工具,学生可以通过自然语言输入快速看到代码生成效果,降低学习门槛。 自动化工作流:用户可以用 Replit Agent 替代昂贵的自动化工具(如 Zapier),构建自定义的工作流解决方案。 3. 技术特点 自然语言接口:Replit Agent 支持自然语言输入,用户无需掌握复杂的编程语法即可启动项目。 多语言支持:支持多种主流编程语言,如 JavaScript、Python、Node.js 等,能够满足不同类型的开发需求。 自动化程度高:从环境配置到代码生成再到部署,Replit Agent 能够自动化处理整个开发流程,显著提升开发效率。 沙盒环境:提供安全的代码评估环境,支持新功能的测试和验证。 4. 使用方式 Replit Agent 目前仅对 Replit Core 和 Teams 订阅用户开放早期访问。使用步骤如下: 登录 Replit 账号:确保已订阅 Replit Core 或 Teams 计划。 创建项目:在 Replit 主页或移动应用中输入自然语言提示,描述想要构建的应用。 生成原型:Replit Agent 会根据提示自动生成代码和开发计划。 迭代与测试:用户可以修改开发计划,跟踪进度,并进行测试。 部署应用:完成开发后,通过 Replit 的部署功能将应用上线。 5. 优势与不足 优势: 降低开发门槛:即使是初学者也能通过自然语言提示快速构建应用。 快速开发:从想法到部署只需几分钟,适合快速验证创意。 全流程自动化:覆盖从环境配置到部署的整个开发流程,节省时间和精力。 不足: 访问受限:目前仅对 Replit Core 和 Teams 用户开放,普通用户无法使用。 功能局限性:对于复杂项目或高度定制化的需求,Replit Agent 可能表现不足。
2 个月前
OpenAI 对 GPT-5 的愿景集中于创建一个“统一智能”系统,无缝整合多种 AI 功能。这种方法旨在消除用户在不同模型之间进行选择的需求,而是提供一个单一且强大的 AI,能够轻松处理各种任务。主要目标包括: 将语音交互、画布操作、搜索功能和深度研究能力等高级功能整合到一个统一的系统中。 增强自然语言处理和推理能力,以在特定任务中实现“博士级智能”。 改进多模态处理,更好地理解和生成基于文本、图像以及可能的视频的响应。 扩展上下文窗口,以便处理和记住来自先前交互的更多信息。 简化用户体验,通过移除模型选择器并在不同订阅层级中提供不同的智能水平。 链式思维模型的介绍 OpenAI 即将推出的 GPT-5 预计将引入先进的链式思维(CoT)能力,大幅提升其推理和解决问题的能力。这个新模型可能会具备改进的多模态处理功能,整合文本、图像,甚至可能包括视频输入。Sam Altman 暗示,GPT-5 将展现出更好的推理能力,犯错更少,并且输出更加可靠。这些 CoT 提示的进步旨在通过结构化的思维过程引导 AI,将复杂任务分解为可管理的步骤,从而生成更准确和连贯的响应。 增强的多模态处理能力 GPT-5 将通过增强的多模态处理能力彻底改变人工智能交互,这是 Sam Altman 强调的一个关键重点。这一进步将使模型能够无缝集成文本、图像、音频和视频的输入和输出。主要功能包括: 语音到语音功能,实现更自然的对话交互。 改进的图像处理和生成,基于之前集成的成功经验。 视频支持,标志着人工智能在理解和生成视听内容方面的重大飞跃。 多种数据类型的统一处理,创造更统一且具有上下文感知的人工智能体验。 这些改进预计将为人工智能在各个行业的应用打开新的可能性,从创意内容生成到医疗和教育等领域更复杂的问题解决。