DALL·E 2和DALL·E 3的区别

10 个月前语音视觉 740

DALL·E 2和DALL·E 3都是OpenAI开发的。OpenAI在2021年1月推出DALL·E ，2022年4月推出DALL·E 2 ，2023年9月发布DALL·E 3。

DALL·E 2可以根据文本生成图像以及对现有图像进行编辑等。DALL·E 3相比DALL·E 2在生成的图像质量、对提示词的理解、上下文理解、处理复杂任务等方面有提升，并且DALL·E 3还集成了ChatGPT（也是OpenAI开发的），用户可以利用ChatGPT生成提示词然后让DALL·E 3生成图像。

虽然微软公司在其旗下的一些产品（如微软Designer应用）中整合了DALL - E 3技术，但它只是进行应用层面的集成，DALL - E 3的源头研发公司是OpenAI。

以下是一些DALL·E 2和DALL·E 3的区别：

图像生成质量和细节方面：

DALL·E 3可以生成更加真实、细节更完善的图像。相比之下DALL·E 2的图像有时在细节准确性、真实感等方面稍逊一筹。在一些相同提示词下，DALL·E 3生成的图片相比DALL·E 2可以说是有质的飞跃。

对提示词（文本描述）理解和执行：

准确性：DALL·E 3更重视文字描述，能够生成与用户提供的文本完全匹配的图像。有观点认为之前的版本生成图片很难对应提示词的一些细节描述和会忽视某些单词，而DALL·E 3在这方面有改进。
- 复杂任务处理：DALL·E 3可以更好地理解复杂和微妙的文本指令，无需用户专门去学习复杂的提示工程。
- 提示词细化（结合ChatGPT）：DALL·E 3与ChatGPT集成。ChatGPT可以作为提示词细化器，将用户提供的简短文本进一步细化为具体的绘画指令，实现高度定制化的图像生成。

图像合成模型能力：

DALL·E 3在图像合成模型方面的能力要远远强于现有的其他模型，可以更好地理解上下文。

训练数据和道德相关：

数据重构：OpenAI 训练DALL·E 3时，对训练样本的文本描述（caption）进行了重构，假设之前训练样本中图像描述的噪声导致生成图像与提示不一致等问题。
道德争议处理：DALL·E 2曾因数据集训练涉及艺术家风格等问题有版权、道德争议。DALL·E 3在设计上拒绝了要求使用在世艺术家风格图像的请求，创作者还可以选择不将自己的图像用于训练未来的模型。它还设定为拒绝生成带有公众人物名字的图像的请求，并实施了关键词和图像检测过滤器，限制使用者制作暴力、性或仇恨内容的能力。

应用和开放策略：