📢 OpenAI即将发布GPT-4.1,多模态能力再升级!
据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。
更强的多模态处理
轻量化版本(mini & nano)
配套新模型(o3 & o4 mini)
📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新!
(综合自腾讯新闻、The Verge、搜狐等)
1 天前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
19 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
1 个月前
谷歌大模型与人脑语言处理机制研究由谷歌研究院与普林斯顿大学、纽约大学等合作开展。3 月上旬,谷歌的研究成果表明大模型竟意外对应人脑语言处理机制。他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行比较,发现两者在线性相关关系上表现显著,如语言理解顺序(语音到词义)、生成顺序(计划、发音、听到自己声音)以及上下文预测单词等方面都有惊人的一致性 研究方法:将真实对话中的人脑活动与语音到文本LLM的内部嵌入进行比较。使用皮层电图记录参与者在开放式真实对话时语音生成和理解过程中的神经信号,同时从Whisper中提取低级声学、中级语音和上下文单词嵌入,开发编码模型将这些嵌入词线性映射到大脑活动上。 具体发现 语言理解与生成顺序:在语言理解过程中,首先是语音嵌入预测沿颞上回(STG)的语音区域的皮层活动,几百毫秒后,语言嵌入预测布罗卡区(位于额下回;IFG)的皮层活动。在语言生成过程中,顺序则相反,先由语言嵌入预测布罗卡区的皮层活动,几百毫秒后,语音嵌入预测运动皮层(MC)的神经活动,最后,在说话者发音后,语音嵌入预测STG听觉区域的神经活动。这反映了神经处理的顺序,即先在语言区计划说什么,然后在运动区决定如何发音,最后在感知语音区监测说了什么。 神经活动与嵌入的关系:对于听到或说出的每个单词,从语音到文本模型中提取语音嵌入和基于单词的语言嵌入,通过估计线性变换,可以根据这些嵌入预测每次对话中每个单词的大脑神经信号。全脑分析的定量结果显示,在语音生成和语音理解过程中,不同脑区的神经活动与语音嵌入和语言嵌入的峰值存在特定的先后顺序和对应关系。 “软层次”概念:尽管大模型在并行层中处理单词,人类大脑以串行方式处理它们,但反映了类似的统计规律。大脑中较低级别的声学处理和较高级别的语义处理部分重叠,即存在“软层次”概念。例如,像IFG这样的语言区域不仅处理单词级别的语义和句法信息,也捕捉较低级别的听觉特征;而像STG这样的低阶语音区域在优先处理声学和音素的同时,也能捕捉单词级别的信息。 以往相关研究成果 2022年发表在《自然神经科学》上的论文显示,听者大脑的语言区域会尝试在下一个单词说出之前对其进行预测,且在单词发音前对预测的信心会改变在单词发音后的惊讶程度(预测误差),证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。 发表在《自然通讯》的论文发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。 后续研究还发现,虽然跨层非线性变换在LLMs和人脑语言区中相似,但实现方式不同。Transformer架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言。 总之,该研究表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架,尽管大模型与人脑在底层神经回路架构上存在明显不同,但在处理自然语言时有着一些相似的计算原则。
1 个月前
2025 年 3 月 12 日,清华大学 NLP 实验室联手中南大学等提出 APB 序列并行推理框架,可解决长上下文远距离语义依赖问题,在 128K 文本上比 Flash Attention 快约 10 倍。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
1 个月前
在自然语言处理和人工智能领域,token通常是指文本中的基本单元,比如一个单词、一个标点符号或者一个子词等。100万token的输入输出量是一个较大的数据规模,以下从不同角度来理解这一概念: 从文本长度角度 一般来说,英文中一个单词可以看作一个token,中文可能一个字或一个词作为一个token。如果平均每个token对应5个字符(这只是一个粗略的估计,实际会因语言、文本类型等因素而不同),那么100万token大约对应500万个字符。以一本普通的中文书籍每页约1000字来算,500万个字符相当于5000页的书籍内容,这是非常庞大的文本量。 从处理难度角度 对于语言模型等人工智能系统来说,处理100万token的输入输出意味着要处理大量的信息。模型需要在这么多的token中理解语义、语法关系,捕捉上下文信息等,这对模型的容量、计算能力和算法设计都提出了很高的要求。模型需要有足够多的参数和足够深的网络结构,才能有效地处理如此大规模的文本数据,以生成准确、合理的输出。 处理如此大量的token还需要消耗大量的计算资源和时间。在训练过程中,可能需要使用高性能的GPU或TPU集群,花费数天甚至数周的时间才能完成训练。在推理阶段,也需要较多的计算资源来快速处理输入并生成输出,以满足实时性或高效性的要求。 从应用场景角度 机器翻译:如果用于机器翻译任务,100万token可能包含了各种领域的大量句子和段落。这意味着模型可以学习到丰富的语言表达方式和翻译模式,能够处理更复杂、更专业的翻译任务,提高翻译的准确性和质量。 文本生成:在文本生成任务中,如创作小说、新闻报道等,100万token的输入可以让模型学习到大量的文本风格、主题和结构信息,从而生成更丰富多样、更具创意和逻辑性的文本内容。 智能客服:对于智能客服系统,100万token的输入输出量可以使系统处理大量的用户咨询和问题,学习到各种常见问题的回答模式和解决方案,从而更准确、更快速地为用户提供服务,提高用户满意度。
1 个月前
埃隆·马斯克领导的美国政府效率部(DOGE)正在开发一款名为 AutoRIF(Automated Reduction in Force)的自动裁员软件,旨在帮助美国政府大规模“精简”工作人员。 AutoRIF 最初由美国国防部在二十多年前开发,已多次更新,并被多个机构用于加速裁员进程。目前,DOGE 的工程师,包括前特斯拉工程师 Riccardo Biasini,正在对 AutoRIF 的代码进行编辑。传统上,裁员由人力资源官员手动处理,首先针对试用期员工。然而,随着新软件和人工智能的使用,政府员工担心未来可能会更大规模、更快速地进行裁员。 最近,美国人事管理办公室(OPM)向政府工作人员发送电子邮件,要求他们列出每周的工作成果,这些信息据称将被输入大型语言模型(LLM)以评估员工的必要性。一些机构,如联邦调查局(FBI),建议员工不要回复这些电子邮件。目前尚不清楚 DOGE 对 AutoRIF 的具体改动内容。 此外,DOGE 的一系列举措显示,第二轮大规模裁员可能更加迅猛。 然而,值得注意的是,政府效率部的举措可能触及根深蒂固的既得利益政治势力,在美国政治极化和两党矛盾激化的背景下,马斯克作为部门领导人可能面临挑战。 总而言之,DOGE 正在推进 AutoRIF 软件的开发,以实现政府裁员的自动化和高效化,但这一过程也引发了对法律、隐私和道德方面的担忧。 (资讯来源:wired.com)
1 个月前
由斯坦福大学教授 Stefano Ermon 创立的初创公司 Inception Labs 推出了 Mercury Coder,这是第一个大规模基于扩散的语言模型 (dLLM)。与按顺序生成文本的传统大型语言模型 (LLM) 不同,Mercury Coder 使用扩散方法同时处理整个序列,类似于 AI 图像和视频生成。结果:该模型声称比现有模型快十倍,运行成本也明显降低。 产品要点: Mercury Coder 是第一个基于扩散的大型语言模型 (dLLM),它使用粗到细的方法生成文本,而不是按顺序预测标记。 它的速度比传统 LLM 快 10 倍,在 NVIDIA H100 GPU 上每秒生成超过 1000 个Token。 早期的基准测试表明,Mercury Coder 可与 GPT-4o Mini 和 Claude 3.5 Haiku 等模型相媲美,同时更具成本效益。 该模型基于斯坦福大学教授 Stefano Ermon 的研究,使用了一种不同的方法——从文本的粗略估计开始,然后并行进行提炼,类似于 Midjourney 和 OpenAI 的 Sora 等 AI 图像和视频生成器的运行方式。 据 Inception Labs 称,Mercury Coder 不仅与众不同,而且速度要快得多。该公司声称该模型可以在 NVIDIA H100 上每秒生成超过 1000 个Token,这种速度通常需要 Groq 或 Cerebras 等专用硬件加速器。该方法还降低了计算成本,使其成为希望优化 AI 基础设施的企业的一个引人注目的选择。 早期基准测试表明,Mercury Coder 的性能可与领先的 LLM 相媲美。在头对头编码评估中,该模型与速度优化模型(如 OpenAI 的 GPT-4o Mini 和 Anthropic的 Claude 3.5 Haiku)相当或优于速度优化模型,同时运行延迟仅为其一小部分。如果这些结果在实际应用中是一致的,那么 dLLM 可以提供传统 LLM 的可行替代方案,尤其是在需要高速响应的场景中,例如客户支持、代码生成和企业自动化。 行业领导者正在注意到这一点。AI 研究员 Andrej Karpathy 指出,Mercury Coder 的扩散方法与常态不同,他指出:“为什么文本生成抵制扩散,而图像和视频生成却接受了它,这一直是个谜。这个模型可以揭示 AI 文本生成的新优势和劣势。 目前,Inception Labs 将 Mercury Coder 定位为现有模型的直接替代方案,提供 API 访问和本地部署。该公司已经与希望减少 AI 延迟和成本的财富 100 强企业合作。Inception 还提及了未来的 dLLM 版本,包括针对对话式 AI 优化的模型。 基于扩散的 LLM 是否会成为传统模型的严重竞争对手还有待观察。但借助 Mercury Coder,Inception Labs 提出了一个令人信服的案例,即 AI 文本生成不必受到当今主流模型中顺序架构的限制。 (资讯来源:Maginative)
1 个月前
开源版和商业不开源版的大语言模型(LLM)在多个方面存在显著区别,包括访问方式、性能、定制化能力、数据安全性、技术支持、成本等。以下是详细对比: 1. 访问方式 开源版:通常提供模型权重、训练代码,可以本地部署或在云端运行,无需依赖第三方API。 商业版(不开源):只能通过 API 访问,模型权重和训练数据不会公开,由官方托管并提供计算资源。 ✅ 适用场景:如果企业需要完全控制权,可以选择开源模型;如果希望快速接入、低维护成本,商业 API 可能更合适。 2. 性能和优化 开源版: 性能受限于开源社区的优化进展,部分版本可能比商业版稍弱。 用户可以自行调整超参数、微调(Fine-tuning),但需要较强的 AI 开发能力。 商业版(不开源): 由官方持续优化,通常具有更强的推理能力、上下文理解能力,以及更长的上下文窗口(如 GPT-4 Turbo、Claude 3)。 可能包含专有的训练数据和优化技术,准确率、鲁棒性更高。 ✅ 适用场景:如果需要顶级性能,建议选择商业版;如果可以接受一定的性能下降,开源版可减少成本。 3. 定制化能力 开源版: 可以本地部署,支持微调(Fine-tuning)、LoRA 适配、知识库增强(RAG)等深度优化。 企业可以将行业专属数据融入模型,打造更精准的 AI。 商业版(不开源): 一般只提供 API,用户无法修改底层模型。 部分商业版支持API 微调或定制化训练,但通常需要额外费用。 ✅ 适用场景:如果希望训练行业专属模型,开源版更适合;如果只需要通用问答,商业版 API 更便捷。 4. 数据安全性 开源版: 本地部署时数据完全自控,适用于高安全性需求(如医疗、政府、军工)。 但如果使用开源云服务,数据可能受服务器提供商限制。 商业版(不开源): 需要将数据传输到供应商的服务器,可能涉及数据合规问题(如 GDPR、企业隐私)。 供应商通常提供数据加密和隐私保护,但企业需评估安全性。 ✅ 适用场景:如果数据隐私至关重要,应选开源版并本地部署;如果数据安全可控,商业 API 更省事。 5. 技术支持 开源版: 依赖社区支持,如 GitHub、论坛、开源文档,问题解决效率不稳定。 需要内部 AI 工程团队维护,维护成本较高。 商业版(不开源): 由供应商提供专业技术支持,如 SLA(服务等级协议)、企业客服。 适用于对稳定性要求高的企业用户。 ✅ 适用场景:如果企业没有强AI团队,建议使用商业 API;如果有内部 AI 研发团队,可考虑开源版。 6. 成本 开源版: 模型本身免费,但需要自行部署计算资源,如 GPU 服务器、云计算等,成本取决于模型大小和推理需求。 适合长期、大规模使用,但初始投入较高。 商业版(不开源): 需要按 API 调用量或 订阅模式 付费,如 OpenAI 的 GPT-4 API、阿里云的 Qwen-Max。 适用于短期、小规模应用,初始成本低,但长期使用可能更贵。 ✅ 适用场景:如果使用量大,开源版(本地部署)更划算;如果只是轻量应用,商业 API 更方便。 7. 典型代表 类别 代表模型 访问方式 适用场景 开源版 LLaMA 3(Meta)、Mistral、Qwen 2.5(阿里)、Baichuan 2(百川) 本地部署/云端托管 定制化应用,数据隐私要求高 商业版(不开源) GPT-4(OpenAI)、Claude 3(Anthropic)、Gemini(Google)、文心一言(百度)、Qwen-Max(阿里) API 调用 低维护、高性能、快速集成 总结:如何选择? 🔹 选择开源版 ✅: 需要本地部署,保证数据安全(如企业内部 AI、政府、医疗等) 需要微调(Fine-tuning)和深度定制(如工业 AI 专用问答系统) 具备 AI 开发团队,可承担部署和维护成本 🔹 选择商业 API(不开源) ✅: 需要高性能、稳定性(如企业客服、B2B AI 平台) 不想自己维护模型,希望快速集成(如 SaaS AI 服务) 数据隐私要求不高,可以接受数据传输到第三方