
Lovart 是 Liblib 海外子公司于2025年5月推出的全球首个垂直设计智能体(AI Design Agent),定位为“端到端全流程设计伙伴”,通过自然语言交互与多模态模型调度,实现从创意到交付的自动化设计,覆盖图像、视频、3D等多类视觉资产,大幅提升设计效率。以下是核心信息与能力拆解。
| 维度 | Lovart | 传统AI设计工具 |
|---|---|---|
| 流程覆盖 | 创意→拆解→生成→编辑→交付全链路 | 多为单点生成(如仅文生图/图生图) |
| 交互方式 | 自然语言对话+可视化画布协同 | 依赖固定提示词,编辑需手动操作 |
| 模型调度 | 自动匹配最优模型,无需用户选择 | 单模型或需手动切换模型 |
| 专业适配 | 理解设计原则,支持图层/文本分离 | 侧重效果生成,细节可控性弱 |

3 个月前
恒图科技是一家专注于数字创意视觉内容创作与人工智能技术融合的文化科技型企业。恒图科技(成都恒图科技有限责任公司)在数字视觉内容创作和人工智能领域具有全球影响力,尤其以其核心产品Fotor而闻名。 这里是公司及业务概览: 类别 详细信息 公司名称 成都恒图科技有限责任公司 成立时间 2009年 创始人/CEO 段江 公司定位 专注于视觉内容创作与人工智能融合创新的科技型企业 核心产品 Fotor (图片处理与设计软件)、Clipfly (AI视频制作平台) 技术核心 HDR(高动态范围图像)技术、生成式人工智能(AIGC) 市场与用户 覆盖全球200多个国家和地区,用户量约7-8亿,绝大部分为海外用户 主要荣誉 2025年福布斯中国人工智能科技企业TOP50、德勤中国高科技高成长50强 🚀 发展历程与核心优势 恒图科技的发展历程,是一部深耕技术、顺势而为的进化史。 技术奠基与出海:公司自成立起就专注于图像处理技术,尤其在HDR(高动态范围图像)技术领域拥有领先的核心专利。早期,团队就做出了一个关键决策:主攻海外市场,打造标准化的产品。其产品因操作简单、效果专业,迅速获得了海外用户的认可,BBC曾将Fotor誉为“Photoshop的后继者”。 拥抱AI浪潮:当生成式人工智能(AIGC)兴起时,恒图科技展现了强大的技术敏锐度和快速反应能力。他们在2022年10月就为Fotor上线了AI功能,并逐步将产品从单一的图片编辑,拓展为涵盖AI文生图、AI文生视频等超100种功能的一站式AI视觉内容创作平台。这不仅吸引了更多用户,也让他们成为国内为数不多在该领域实现规模化盈利的企业。 强大的技术合作:为了支撑全球海量用户的创作需求,恒图科技与火山引擎展开了深度合作。火山引擎为其提供了强大的AI算力保障,支撑了恒图超过80%的推理和训练任务。这一合作显著提升了其AI视频生成的能力与质量,帮助恒图实现了用户付费转化率提升23%、AI人均视频生成次数提升12%的亮眼成绩。 🛠️ 主要产品与应用 恒图科技的产品矩阵紧密围绕“让创作更简单”这一核心目标展开。 Fotor:这是恒图科技的旗舰产品。它不仅仅是一个修图工具,更是一个覆盖网页端、移动端和桌面端的一体化设计平台。通过引入AI技术,Fotor极大地降低了专业设计的门槛,让没有任何设计背景的普通用户也能轻松制作海报、社交媒体图片等。 Clipfly:这是恒图科技推出的一站式AI视频制作平台。它集成了文生视频、图生视频、自动字幕、视频编辑等功能,让一个人、一台电脑就能快速完成具有电影质感的视频创作,极大地降低了视频创作的成本和门槛。该产品在文旅宣传、内容创作等领域有很好的应用前景。 🌍 行业影响与未来前景 恒图科技的成功,不仅在于商业上的成就,更在于其带来的行业变革与文化价值。 推动创作“智能化”:恒图科技将自己定位为数字创意创作“智能化”的推动者。如果说Photoshop代表了“专业化”,Canva代表了“平民化”,那么Fotor的目标就是通过AI技术,将视觉内容创作带入“全民皆可为的智能化时代”。 架起文化出海桥梁:恒图科技的产品拥有庞大的海外用户群,这使其成为中国文化出海的一个独特渠道。通过Fotor、Clipfly等产品,中国传统的文化元素、IP可以以图像、视频等更易被接受的形式传播到全球,促进跨文化的交流与理解。 ( 图片来源:fotor.com.cn )

3 个月前
2025年10月29日,苹果公司发布了名为Pico-Banana-400K的大规模研究数据集,旨在推动文本引导图像编辑技术的发展。 数据集概况:Pico-Banana-400K包含40万张图像,其研究论文题为《Pico-Banana-400K:面向文本引导图像编辑的大规模数据集》。该数据集采用非商业性研究许可发布,学术机构和研究人员可免费使用。 构建过程:研究团队首先从OpenImages数据集中选取大量真实照片,以确保图像内容的多样性,涵盖人物、物体及含文字场景等。然后设计了35种不同类型的图像修改指令,将其归入像素与光度调整、以人为中心的编辑、场景构成与多主体编辑等八大类别。接着,把原始图像与编辑指令输入至Nanon-Banana模型进行图像编辑,生成结果由Gemini 2.5-Pro模型进行自动评估,只有通过双重验证的结果才会被纳入最终数据集。 数据集构成: 单轮监督微调整子集:包含25.8万个成功的单轮图像编辑示例,涵盖了35种编辑分类法的全部范围,为模型训练提供强大的监督信号。 多轮编辑集:包含7.2万个按顺序进行的编辑交互示例,序列长度从2到5轮不等,用于研究连续修改中的顺序编辑、推理与规划。 偏好集:包含5.6万个示例,由原始图像、指令、成功编辑和失败编辑组成的三联体,可用于训练奖励模型和应用直接偏好优化等对齐技术。 长短指令配对集:用于发展指令重写与摘要能力。 发布意义:尽管Nanon-Banana在精细空间控制、布局外推和文字排版处理方面仍存在局限,但Pico-Banana-400K为下一代文本引导图像编辑模型提供了一个坚实、可复现的训练与评测基础。目前,相关研究论文已发布于预印本平台arXiv,完整的Pico-Banana-400K数据集也已在GitHub上向全球研究者免费开放。 (新闻来源:github.com/apple/pico-banana-400k )

1 年前
Shadcn/ui 是一个功能强大的 UI 组件库,结合文本提示和图像生成来创建 UI 可以为用户带来独特的设计体验。

1 年前
语言大模型(LLM)能够生成图片和视频的能力主要依赖于其多模态学习和生成技术。

1 年前
AI在LOGO设计中的能力水平正在快速发展,以下是对其能力的分析: 1. 生成速度与效率 AI工具能够在短时间内生成多个LOGO选项,极大地提高了设计效率。用户只需输入品牌名称、行业和偏好颜色,AI便能快速提供多种设计方案,节省了大量的人工设计时间[1][2][5]。 2. 可定制性 许多AI LOGO生成器允许用户对生成的LOGO进行高度定制,包括颜色、字体和图形元素的调整。这种灵活性使得用户能够创建符合品牌形象的独特LOGO[2][4]。 3. 可访问性 AI LOGO设计工具的普及使得即使没有设计经验的用户也能轻松创建专业的LOGO。这些工具通常提供直观的界面和简单的操作流程,降低了设计的门槛[3][5]。 4. 设计质量 虽然AI生成的LOGO在速度和可定制性上表现出色,但它们的设计质量可能会因算法的限制而有所差异。某些AI工具可能生成的LOGO较为通用,缺乏独特性,尤其是在复杂的品牌需求下[2][4]。 5. 人机协作 尽管AI在LOGO设计中展现了强大的能力,但人类设计师的创造力和情感理解仍然不可或缺。许多设计专家建议将AI视为辅助工具,与人类设计师的创意相结合,以实现最佳的设计效果[2][3]。 6. 法律与伦理考虑 使用AI生成的LOGO时,用户需了解相关的版权和法律条款,以避免侵犯他人知识产权。确保使用的AI工具是合法和道德的,避免使用未经授权的图像[3][5]。 7. 未来趋势 预计到2025年,约80%的LOGO设计过程将涉及某种形式的AI辅助,这表明AI在设计领域的应用将越来越普遍。随着技术的进步,AI设计工具的能力和效果也将不断提升[2][4]。 综上所述,AI在LOGO设计中展现出强大的生成能力和效率,但在追求独特性和品牌个性方面,仍需与人类设计师的创意结合,以实现最佳效果。 来源:Perplexity.ai
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI