DALL·E 2和DALL·E 3都是OpenAI开发的。OpenAI在2021年1月推出DALL·E ,2022年4月推出DALL·E 2 ,2023年9月发布DALL·E 3。
DALL·E 2可以根据文本生成图像以及对现有图像进行编辑等。DALL·E 3相比DALL·E 2在生成的图像质量、对提示词的理解、上下文理解、处理复杂任务等方面有提升 ,并且DALL·E 3还集成了ChatGPT(也是OpenAI开发的) ,用户可以利用ChatGPT生成提示词然后让DALL·E 3生成图像。
虽然微软公司在其旗下的一些产品(如微软Designer应用)中整合了DALL - E 3技术,但它只是进行应用层面的集成,DALL - E 3的源头研发公司是OpenAI。
以下是一些DALL·E 2和DALL·E 3的区别:
图像生成质量和细节方面:
对提示词(文本描述)理解和执行:
图像合成模型能力:
DALL·E 3在图像合成模型方面的能力要远远强于现有的其他模型,可以更好地理解上下文。
训练数据和道德相关:
应用和开放策略:
1 天前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
19 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
1 个月前
2025 年 3 月 12 日消息,OpenAI 发布 Agent 工具包,推出一组新的 API 和工具以简化 Agent 应用程序开发,包括新的 Responses API、网络搜索、文件搜索、计算机使用工具和 Agents SDK 等,还计划在接下来的几周和几个月内发布其他工具和功能。
2 个月前
前 OpenAI 首席技术官 Mira Murati 宣布与杰出科学家和工程师共同创立 Thinking Machines Lab,专注 AI 研究和应用,该公司初创团队汇聚众多 AI 领域人才,旨在让 AI 更加透明、可定制、更强更通用。 关于 Thinking Machines Lab 成立时间与背景 当地时间2025年2月18日,人工智能巨头OpenAI的前首席技术官米拉·穆拉蒂官宣了新公司Thinking Machines Lab的成立。 核心团队 米拉·穆拉蒂:担任公司CEO,在AI领域经验丰富,2018年加入OpenAI,曾主导ChatGPT、DALL-E等项目开发,2023年10月离开OpenAI进行“个人探索”。 约翰·舒尔曼(John Schulman):OpenAI联合创始人,担任首席科学家。 巴雷特·佐夫(Barret Zoph):OpenAI前研究副总裁,出任CTO。 翁荔(Lilian Weng):北大校友、OpenAI前研究副总裁,也是联合创始人之一。 公司目标与愿景 公司目标:正在做三件事,即帮助人们调整人工智能系统以满足他们的特定需求;为构建能力更强的人工智能系统奠定坚实的基础;培养开放的科学文化,帮助整个领域了解和改进这些系统。 公司愿景:让人工智能系统被更广泛地理解、可定制并具有普遍能力,通过坚实的基础、开放的科学和实际的应用,让人工智能变得更有用、更易懂,从而推动人工智能的发展。 研究方向与重点 开源共享:计划经常发布技术博文、论文和代码,与更广泛的研究人员和构建者社区合作,推动人类对人工智能的理解。 人机协作:不专注于制造完全自主的人工智能系统,而是建立与人协作的多模态系统,打造更具灵活性、适应性和个性化的人工智能系统。 模型智能:在科学和编程等领域构建能力前沿的模型,重视基础设施质量,以长期正确地构建事物,提高生产力和安全性。 产品安全:强调在实践中学习,研究与产品共同设计,通过部署实现迭代学习。认为最有效的安全措施来自前瞻性研究和细致的实际测试的结合,重点了解系统如何在现实世界中创造真正的价值。 人才团队 初始团队约30人,半数有OpenAI工作背景,还有来自谷歌、Meta和X等公司的人员,他们曾构建过ChatGPT、Character.ai、Mistral等开放权重模型,以及PyTorch、OpenAI Gym、Fairseq和Segment Anything等流行的开源项目。
2 个月前
OpenAI 对 GPT-5 的愿景集中于创建一个“统一智能”系统,无缝整合多种 AI 功能。这种方法旨在消除用户在不同模型之间进行选择的需求,而是提供一个单一且强大的 AI,能够轻松处理各种任务。主要目标包括: 将语音交互、画布操作、搜索功能和深度研究能力等高级功能整合到一个统一的系统中。 增强自然语言处理和推理能力,以在特定任务中实现“博士级智能”。 改进多模态处理,更好地理解和生成基于文本、图像以及可能的视频的响应。 扩展上下文窗口,以便处理和记住来自先前交互的更多信息。 简化用户体验,通过移除模型选择器并在不同订阅层级中提供不同的智能水平。 链式思维模型的介绍 OpenAI 即将推出的 GPT-5 预计将引入先进的链式思维(CoT)能力,大幅提升其推理和解决问题的能力。这个新模型可能会具备改进的多模态处理功能,整合文本、图像,甚至可能包括视频输入。Sam Altman 暗示,GPT-5 将展现出更好的推理能力,犯错更少,并且输出更加可靠。这些 CoT 提示的进步旨在通过结构化的思维过程引导 AI,将复杂任务分解为可管理的步骤,从而生成更准确和连贯的响应。 增强的多模态处理能力 GPT-5 将通过增强的多模态处理能力彻底改变人工智能交互,这是 Sam Altman 强调的一个关键重点。这一进步将使模型能够无缝集成文本、图像、音频和视频的输入和输出。主要功能包括: 语音到语音功能,实现更自然的对话交互。 改进的图像处理和生成,基于之前集成的成功经验。 视频支持,标志着人工智能在理解和生成视听内容方面的重大飞跃。 多种数据类型的统一处理,创造更统一且具有上下文感知的人工智能体验。 这些改进预计将为人工智能在各个行业的应用打开新的可能性,从创意内容生成到医疗和教育等领域更复杂的问题解决。
4 个月前
在人工智能的浪潮中,数据曾被视为无尽的宝藏。然而,这一局面可能即将改变。Ilya Sutskever,OpenAI的前首席科学家,在NeurIPS2024上抛出了一枚重磅炸弹:预训练模型的时代即将结束,我们能获得的数据已经到达极限。这一观点不仅震动了AI界,也为我们的未来发展指明了新的方向。 他提出,我们所熟悉的预训练无疑会结束,因为可用的新数据已经接近枯竭。这一趋势将迫使行业改变当前的模型训练方式。Sutskever将数据比作化石燃料,强调互联网中由人类生成的内容是有限的。 Ilya警告说:“我们已经达到了数据的峰值,未来不会再有更多数据。”我们必须利用现有的数据,因为互联网只有一个。
4 个月前
微软研究院表示,现在的AI具备更强的推理能力,AI模型很快将能够处理更复杂的任务。未来将比ChatGPT等传统的聊天机器人更强大,微软正在利用AI代理来连接整个组织的员工,而且透过硬体升级AI将变得更加节能。 周四OpenAI也表示,将推出高价版的聊天机器人ChatGPT Pro新订阅服务,专门为工程和研究板块设计,月费达到200美元。 AI应用持续往前推动,华尔街方面也正密切关注硅谷,在AI上的巨额投资能否带来营收增长。
7 个月前
Shadcn/ui 是一个功能强大的 UI 组件库,结合文本提示和图像生成来创建 UI 可以为用户带来独特的设计体验。
8 个月前
位于德国黑森林地区的黑森林实验室(Black Forest Labs)近日宣布,其开发的人工智能系统在某些任务上已经超越了全球知名的OpenAI。