苹果发布 Pico-Banana-400K 图像编辑数据集

管理员 7 个月前

国际

494

2025年10月29日，苹果公司发布了名为Pico-Banana-400K的大规模研究数据集，旨在推动文本引导图像编辑技术的发展。

数据集概况：Pico-Banana-400K包含40万张图像，其研究论文题为《Pico-Banana-400K：面向文本引导图像编辑的大规模数据集》。该数据集采用非商业性研究许可发布，学术机构和研究人员可免费使用。
构建过程：研究团队首先从OpenImages数据集中选取大量真实照片，以确保图像内容的多样性，涵盖人物、物体及含文字场景等。然后设计了35种不同类型的图像修改指令，将其归入像素与光度调整、以人为中心的编辑、场景构成与多主体编辑等八大类别。接着，把原始图像与编辑指令输入至Nanon-Banana模型进行图像编辑，生成结果由Gemini 2.5-Pro模型进行自动评估，只有通过双重验证的结果才会被纳入最终数据集。
数据集构成：
- 单轮监督微调整子集：包含25.8万个成功的单轮图像编辑示例，涵盖了35种编辑分类法的全部范围，为模型训练提供强大的监督信号。
- 多轮编辑集：包含7.2万个按顺序进行的编辑交互示例，序列长度从2到5轮不等，用于研究连续修改中的顺序编辑、推理与规划。
- 偏好集：包含5.6万个示例，由原始图像、指令、成功编辑和失败编辑组成的三联体，可用于训练奖励模型和应用直接偏好优化等对齐技术。
- 长短指令配对集：用于发展指令重写与摘要能力。
发布意义：尽管Nanon-Banana在精细空间控制、布局外推和文字排版处理方面仍存在局限，但Pico-Banana-400K为下一代文本引导图像编辑模型提供了一个坚实、可复现的训练与评测基础。目前，相关研究论文已发布于预印本平台arXiv，完整的Pico-Banana-400K数据集也已在GitHub上向全球研究者免费开放。

（新闻来源：github.com/apple/pico-banana-400k ）

苹果图像数据集

相关网站

Lovart

AI 设计智能体

imgBB

轻量图像托管平台

Clipfly

一站式AI视频制作平台

EleutherAI

人工智能研究机构

Roboflow

计算机视觉数据集

Xcode

在Apple 平台开发轻松编码

ComfyUI

令人惊叹的艺术创作神器

Flux

开启创意的新时代

相关资讯