
Nano Banana是谷歌最新图像生成和编辑模型Gemini 2.5 Flash Image的内部代号 。
核心特点 :
能将多张图像混合到一张图像中,保持高度的角色一致性,还可使用自然语言进行有针对性的修改,并利用Gemini的“知识储备”生成和编辑图像。在文生图与图像编辑场景表现出色,渲染文本时能准确生成清晰易读且位置合理的文字,在物理知识方面也有良好表现,如能预判气球爆炸后的物理特征。
功能优势:
支持对话式编辑,用户可连续提出修改要求,如“让天空更有戏剧性”“在长椅上添加一只狗”等,还能选择照片特定区域进行局部修改,如移除物体、替换背景等,同时保持 lighting、阴影和透视的自然融合。
应用场景:
可用于商业产品展示,让同一产品在不同环境中保持核心外观;能实现创意设计,如将街拍建筑变成2D模型、制作高质感艺术绘画等;还可用于生成手办风格图片,深受各圈层用户喜爱。
使用方式:
用户可通过Google AI Studio、LMArena、Gemini等平台免费使用,使用时需选择Gemini 2.5 Flash Image Preview模型,上传图片并输入改图要求即可。

1 个月前
AI图片生成集成指南:从API到SDK的完整实现路径 在腾讯EdgeOne Pages模版详情页面点击“Deploy”按钮,填写必要的API密钥,点击“开始部署”——短短几分钟内,一个完整的AI图片生成应用就这样上线了。 随着人工智能技术的快速发展,AI图片生成功能已成为现代应用中不可或缺的一部分。无论是内容创作、产品设计还是营销素材制作,AI图片生成技术都能提供高效、创新的解决方案。 对于开发者而言,如何将这项能力快速、安全地集成到自己的应用中,成为了一个值得深入探讨的课题。 01 理解两种集成路径 原生API调用和AI SDK封装调用是当前将AI图片生成能力集成到应用中的两种主要技术路径,每种路径都有其独特的优势和应用场景。 原生API调用提供了精细控制和高度灵活性,开发者可以直接与底层API交互,定制化程度高。AI SDK则通过统一接口简化了开发流程,实现了多厂商模型的轻松切换。 以EdgeOne Pages为例,这两种集成方式都有对应的模版:ai-image-generator-starter用于原生接口调用,而ai-sdk-image-generator-starter则适用于AI SDK封装调用。 在开始集成之前,开发者需要根据自身需求选择合适的技术路径。对于追求控制和定制化的项目,原生API调用是更好的选择;而对于希望快速上线并支持多种模型的项目,AI SDK封装调用则更为合适。 02 快速入门:环境准备与部署 要实现AI图片生成功能,首先需要申请API Key。主流AI图片生成提供商的API Key获取地址包括: Hugging Face:huggingface.co/settings/tokens OpenAI:platform.openai.com/api-keys Replicate:replicate.com/account/api-tokens Fal:fal.ai/dashboard/keys Nebius:nebius.com/console 部署过程简单直观。以ai-sdk-image-generator-starter模版为例,在模版详情页面点击“Deploy”按钮,系统将跳转到EdgeOne Pages控制台。 在部署界面,开发者需要配置环境变量,这些配置项对应不同AI图片生成服务的API Key。不同模版会呈现不同的配置项列表,但必须确保至少有一个API Key配置正确且可用。 完成配置后点击“start deployment”按钮,项目就会开始自动部署。部署成功后,GitHub帐户下会生成一个与模版相同的项目,开发者可以通过git clone命令将其下载到本地进行进一步的开发和定制。 03 原生API调用详解 原生API调用方式让开发者能够精细控制每一个请求细节。在这一模式下,图片生成的基本流程是:前端发送生图参数到边缘函数,边缘函数调用AI模型API,最后将生成的图片返回给前端显示。 在前端部分,用户需要配置可用的AI模型列表。以src/pages/index.tsx文件中的核心代码为例: const res = await fetch("/v1/generate", { method: "POST", headers: { "Content-Type": "application/json", }, body: JSON.stringify({ image: `${prompt} (${modelInfo.name} style)`, platform: platform.id, model: modelInfo.value || selectedModel, }), }); 边缘函数的处理逻辑位于functions/v1/generate/index.js文件中。函数首先接收前端传递的参数,然后检查对应平台的环境变量是否配置正确。 const validateToken = (platform) => { const tokens = { nebius: env.NEBIUS_TOKEN, huggingface: env.HF_TOKEN, replicate: env.REPLICATE_TOKEN, openai: env.OPENAI_API_KEY, fal: env.FAL_KEY, }; if (!tokens[platform]) { throw new Error( `${platform} API token is not configured. Please check your environment variables.` ); } }; 这种通过env访问环境变量的方式,有效防止了API密钥在代码中明文暴露,提高了应用的安全性。敏感信息存储在环境变量中,而非硬编码在源代码里。 环境变量检查完成后,函数会直接请求对应平台的图片生成模型API。以HuggingFace为例,其标准API请求核心代码如下: const response = await PROVIDERS.fetch(url, { headers: { Authorization: `Bearer ${token}`, "Content-Type": "application/json", }, method: "POST", body: JSON.stringify(data), }); EdgeOne Pages的AI图片生成模版已经支持了多种主流模型,包括HuggingFace、OpenAI、Replicate、Fal、Nebius等。生成图片后,函数将结果返回给前端,模版项目内已经内置了图片显示的完整逻辑。 04 AI SDK封装调用解析 与原生API调用方式相比,AI SDK封装调用通过统一接口简化了开发流程。它允许开发者使用相同的代码结构调用不同厂商的AI图片模型,显著提高了开发效率和多模型切换的便利性。 在AI SDK方式下,前端通过/api/generate接口发送请求: const response = await fetch(apiUrl, { method: "POST", headers: { "Content-Type": "application/json", }, body: JSON.stringify({ prompt, model, size, }), }); 这里需要注意的是,size参数需要提前设置,因为不同的模型支持的尺寸列表可能不一致。 例如,DALL-E 3支持“1024x1024”、“1024x1792”、“1792x1024”等尺寸,而Stable Diffusion可能支持“512x512”、“768x768”等不同规格。 EdgeOne Pages的AI SDK图片生成模版已经梳理了AI SDK支持模型对应的尺寸列表,相关配置位于components/modelSizeMapping.ts文件中。开发者可以直接使用这些预配置的尺寸映射,无需手动处理不同模型的尺寸兼容性问题。 AI SDK同样避免了密钥泄漏风险。函数在调用AI图片模型时,使用AI SDK暴露的experimental_generateImage对象来统一生成图片内容,密钥的获取由experimental_generateImage在内部自动处理。 const imageResult = await experimental_generateImage({ model: imageModel, prompt: prompt, size: size, // Use frontend-provided size }); 调用experimental_generateImage后,只需要读取函数返回的标准格式内容即可: const imageUrl = `data:image/png;base64,${imageResult.image.base64}`; return new Response( JSON.stringify({ images: [ { url: imageUrl, base64: imageResult.image.base64, }, ], }) ); 05 本地调试与持续集成 开发者在下载项目到本地后,可能需要进行本地开发、调试或预览。为了简化本地环境配置,EdgeOne提供了专门的CLI工具。 使用EdgeOne CLI需要先安装并登录,具体步骤可以参考EdgeOne CLI的文档介绍。在安装和登录后,开发者可以在本地项目下执行edgeone pages link命令,将项目与EdgeOne Pages控制台的项目进行关联。 执行该命令后,系统会提示输入EdgeOne Pages的项目名,即上文部署的模版项目的项目名称。输入项目名后,EdgeOne Pages控制台的环境变量会自动同步到本地。 关联成功后,本地项目根目录下会生成.env文件,包含所有已配置的环境变量列表。关联后,可以执行edgeone pages dev命令来进行本地部署,部署后可以在localhost:8088进行访问。 对于代码的自定义修改,开发者可以直接通过git提交项目到GitHub。EdgeOne Pages会检测GitHub的提交记录并自动进行重新部署,实现真正的持续集成与持续部署。 部署完成后,控制台会显示部署状态和预览界面,开发者可以立即验证功能是否正常工作。 AI图片生成集成后的应用界面,简洁直观。模板提供了开箱即用的用户界面,用户可以直接输入提示词、选择模型和调整参数,生成结果会即时显示在右侧区域。 在本地测试过程中,如果对生成效果或性能有特定要求,开发者可以灵活切换不同的AI模型提供商。不同的模型在风格表现、细节处理等方面各有特色,有些专注于写实风格,有些擅长艺术创作,实际测试是找到最适合项目的关键一步。 ( 文章来源:Tencent Cloud )

2 个月前
Gemini 3 标志着AI模型从“增量优化”向“范式转变”的重大跃进。

5 个月前
T5:Text-to-Text Transfer Transformer

7 个月前
2024年8月,德国黑森林AI实验室(Black Forest Labs)正式从隐身模式走向公众视野,发布了备受瞩目的FLUX.1模型套件。这套模型在各个方面都达到了新的行业标准,迅速在AI图像生成领域掀起波澜。FLUX.1模型在用户评价中超越了Midjourney和OpenAI的DALL-E,在Hugging Face平台上的下载量占据榜首。 黑森林AI实验室在今年五月份推出的名为“Kontext”的AI模型系列,不仅能生成图像,还能在图像生成之后进行复杂的编辑。这种双重能力让Kontext在拥挤的AI视觉模型市场中脱颖而出,与市面上的DALL·E或Stable Diffusion不同,Kontext在统一架构中同时训练图像生成和编辑任务,实现更准确的图像理解与上下文编辑能力。 .

10 个月前
谷歌大模型与人脑语言处理机制研究由谷歌研究院与普林斯顿大学、纽约大学等合作开展。3 月上旬,谷歌的研究成果表明大模型竟意外对应人脑语言处理机制。他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行比较,发现两者在线性相关关系上表现显著,如语言理解顺序(语音到词义)、生成顺序(计划、发音、听到自己声音)以及上下文预测单词等方面都有惊人的一致性 研究方法:将真实对话中的人脑活动与语音到文本LLM的内部嵌入进行比较。使用皮层电图记录参与者在开放式真实对话时语音生成和理解过程中的神经信号,同时从Whisper中提取低级声学、中级语音和上下文单词嵌入,开发编码模型将这些嵌入词线性映射到大脑活动上。 具体发现 语言理解与生成顺序:在语言理解过程中,首先是语音嵌入预测沿颞上回(STG)的语音区域的皮层活动,几百毫秒后,语言嵌入预测布罗卡区(位于额下回;IFG)的皮层活动。在语言生成过程中,顺序则相反,先由语言嵌入预测布罗卡区的皮层活动,几百毫秒后,语音嵌入预测运动皮层(MC)的神经活动,最后,在说话者发音后,语音嵌入预测STG听觉区域的神经活动。这反映了神经处理的顺序,即先在语言区计划说什么,然后在运动区决定如何发音,最后在感知语音区监测说了什么。 神经活动与嵌入的关系:对于听到或说出的每个单词,从语音到文本模型中提取语音嵌入和基于单词的语言嵌入,通过估计线性变换,可以根据这些嵌入预测每次对话中每个单词的大脑神经信号。全脑分析的定量结果显示,在语音生成和语音理解过程中,不同脑区的神经活动与语音嵌入和语言嵌入的峰值存在特定的先后顺序和对应关系。 “软层次”概念:尽管大模型在并行层中处理单词,人类大脑以串行方式处理它们,但反映了类似的统计规律。大脑中较低级别的声学处理和较高级别的语义处理部分重叠,即存在“软层次”概念。例如,像IFG这样的语言区域不仅处理单词级别的语义和句法信息,也捕捉较低级别的听觉特征;而像STG这样的低阶语音区域在优先处理声学和音素的同时,也能捕捉单词级别的信息。 以往相关研究成果 2022年发表在《自然神经科学》上的论文显示,听者大脑的语言区域会尝试在下一个单词说出之前对其进行预测,且在单词发音前对预测的信心会改变在单词发音后的惊讶程度(预测误差),证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。 发表在《自然通讯》的论文发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。 后续研究还发现,虽然跨层非线性变换在LLMs和人脑语言区中相似,但实现方式不同。Transformer架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言。 总之,该研究表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架,尽管大模型与人脑在底层神经回路架构上存在明显不同,但在处理自然语言时有着一些相似的计算原则。

11 个月前
BERT(Bidirectional Encoder Representations from Transformers)是由Google于2018年发布的一种预训练语言模型,基于Transformer架构,用于自然语言处理(NLP)任务。它的双向(Bidirectional)上下文理解能力使其在文本理解、问答系统、文本分类等任务中表现卓越。 BERT的核心特点 1. 双向上下文理解 传统语言模型(如GPT)通常是单向的(从左到右或从右到左)。 BERT采用Masked Language Model(MLM,掩码语言模型),即在训练过程中随机遮挡部分词语,并让模型根据上下文预测这些被遮挡的词,从而实现双向理解。 2. 预训练+微调(Pre-training & Fine-tuning) 预训练(Pre-training):在海量无标注文本数据(如维基百科、BooksCorpus)上进行训练,使BERT学会通用的语言知识。 微调(Fine-tuning):针对具体任务(如情感分析、问答系统、命名实体识别)进行轻量级训练,只需少量数据,即可获得良好效果。 3. 基于Transformer架构 BERT使用多层Transformer编码器,通过自注意力(Self-Attention)机制高效建模文本中的远程依赖关系。 Transformer结构相比RNN和LSTM,更适合并行计算,处理长文本能力更强。 BERT的两大核心任务 Masked Language Model(MLM,掩码语言模型) 在训练时,随机遮挡输入文本中的15%单词,让模型根据上下文预测这些词。 这种方法使BERT学习到更深层次的语言表示能力。 Next Sentence Prediction(NSP,下一句预测) 让模型判断两个句子是否是相邻句: IsNext(相关):句子A和B是原始文本中相连的句子。 NotNext(无关):句子B是随机选择的,与A无关。 这一任务有助于提高BERT在问答、阅读理解等任务中的能力。 BERT的不同版本 BERT-Base:12层Transformer(L=12)、隐藏层768维(H=768)、12个自注意力头(A=12),总参数110M。 BERT-Large:24层Transformer(L=24)、隐藏层1024维(H=1024)、16个自注意力头(A=16),总参数340M。 DistilBERT:更小更快的BERT变体,参数量约为BERT的一半,但性能接近。 RoBERTa:改进版BERT,去除了NSP任务,并采用更大数据量进行训练,提高了性能。 BERT的应用 BERT可以应用于多种NLP任务,包括: 文本分类(如垃圾邮件检测、情感分析) 命名实体识别(NER)(如人名、地名、组织识别) 阅读理解(QA)(如SQuAD问答) 文本摘要 机器翻译 搜索引擎优化(SEO)(Google已将BERT用于搜索算法) BERT的影响 推动NLP进入预训练时代:BERT的成功引发了NLP领域的“预训练+微调”范式(如GPT、T5、XLNet等)。 提升搜索引擎性能:Google 在搜索引擎中使用BERT,提高查询理解能力。 加速AI技术发展:BERT的开源推动了自然语言处理技术在学术界和工业界的广泛应用。 总结 BERT是Transformer架构的双向预训练模型,通过MLM和NSP任务学习通用语言知识,在NLP领域取得巨大突破。它的成功奠定了现代大模型预训练+微调的范式,被广泛用于搜索、问答、文本分类等任务。

1 年前
Gemini 1.0是为了组织和理解信息,Gemini 2.0则是为了让信息变得更有用。

1 年前
Google宣布了其新型量子计算芯片Willow,这是在量子计算领域长达十年的征程中迈出的重要一步!
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI