
恒图科技是一家专注于数字创意视觉内容创作与人工智能技术融合的文化科技型企业。恒图科技(成都恒图科技有限责任公司)在数字视觉内容创作和人工智能领域具有全球影响力,尤其以其核心产品Fotor而闻名。
这里是公司及业务概览:
| 类别 | 详细信息 |
|---|---|
| 公司名称 | 成都恒图科技有限责任公司 |
| 成立时间 | 2009年 |
| 创始人/CEO | 段江 |
| 公司定位 | 专注于视觉内容创作与人工智能融合创新的科技型企业 |
| 核心产品 | Fotor (图片处理与设计软件)、Clipfly (AI视频制作平台) |
| 技术核心 | HDR(高动态范围图像)技术、生成式人工智能(AIGC) |
| 市场与用户 | 覆盖全球200多个国家和地区,用户量约7-8亿,绝大部分为海外用户 |
| 主要荣誉 | 2025年福布斯中国人工智能科技企业TOP50、德勤中国高科技高成长50强 |
恒图科技的发展历程,是一部深耕技术、顺势而为的进化史。
技术奠基与出海:公司自成立起就专注于图像处理技术,尤其在HDR(高动态范围图像)技术领域拥有领先的核心专利。早期,团队就做出了一个关键决策:主攻海外市场,打造标准化的产品。其产品因操作简单、效果专业,迅速获得了海外用户的认可,BBC曾将Fotor誉为“Photoshop的后继者”。
拥抱AI浪潮:当生成式人工智能(AIGC)兴起时,恒图科技展现了强大的技术敏锐度和快速反应能力。他们在2022年10月就为Fotor上线了AI功能,并逐步将产品从单一的图片编辑,拓展为涵盖AI文生图、AI文生视频等超100种功能的一站式AI视觉内容创作平台。这不仅吸引了更多用户,也让他们成为国内为数不多在该领域实现规模化盈利的企业。
强大的技术合作:为了支撑全球海量用户的创作需求,恒图科技与火山引擎展开了深度合作。火山引擎为其提供了强大的AI算力保障,支撑了恒图超过80%的推理和训练任务。这一合作显著提升了其AI视频生成的能力与质量,帮助恒图实现了用户付费转化率提升23%、AI人均视频生成次数提升12%的亮眼成绩。
恒图科技的产品矩阵紧密围绕“让创作更简单”这一核心目标展开。
Fotor:这是恒图科技的旗舰产品。它不仅仅是一个修图工具,更是一个覆盖网页端、移动端和桌面端的一体化设计平台。通过引入AI技术,Fotor极大地降低了专业设计的门槛,让没有任何设计背景的普通用户也能轻松制作海报、社交媒体图片等。
Clipfly:这是恒图科技推出的一站式AI视频制作平台。它集成了文生视频、图生视频、自动字幕、视频编辑等功能,让一个人、一台电脑就能快速完成具有电影质感的视频创作,极大地降低了视频创作的成本和门槛。该产品在文旅宣传、内容创作等领域有很好的应用前景。
恒图科技的成功,不仅在于商业上的成就,更在于其带来的行业变革与文化价值。
推动创作“智能化”:恒图科技将自己定位为数字创意创作“智能化”的推动者。如果说Photoshop代表了“专业化”,Canva代表了“平民化”,那么Fotor的目标就是通过AI技术,将视觉内容创作带入“全民皆可为的智能化时代”。
架起文化出海桥梁:恒图科技的产品拥有庞大的海外用户群,这使其成为中国文化出海的一个独特渠道。通过Fotor、Clipfly等产品,中国传统的文化元素、IP可以以图像、视频等更易被接受的形式传播到全球,促进跨文化的交流与理解。
( 图片来源:fotor.com.cn )

3 天前
OPC,One Person Company,单人+AI即公司

2 个月前
恒图科技是一家专注于数字创意视觉内容创作与人工智能技术融合的文化科技型企业。恒图科技(成都恒图科技有限责任公司)在数字视觉内容创作和人工智能领域具有全球影响力,尤其以其核心产品Fotor而闻名。 这里是公司及业务概览: 类别 详细信息 公司名称 成都恒图科技有限责任公司 成立时间 2009年 创始人/CEO 段江 公司定位 专注于视觉内容创作与人工智能融合创新的科技型企业 核心产品 Fotor (图片处理与设计软件)、Clipfly (AI视频制作平台) 技术核心 HDR(高动态范围图像)技术、生成式人工智能(AIGC) 市场与用户 覆盖全球200多个国家和地区,用户量约7-8亿,绝大部分为海外用户 主要荣誉 2025年福布斯中国人工智能科技企业TOP50、德勤中国高科技高成长50强 🚀 发展历程与核心优势 恒图科技的发展历程,是一部深耕技术、顺势而为的进化史。 技术奠基与出海:公司自成立起就专注于图像处理技术,尤其在HDR(高动态范围图像)技术领域拥有领先的核心专利。早期,团队就做出了一个关键决策:主攻海外市场,打造标准化的产品。其产品因操作简单、效果专业,迅速获得了海外用户的认可,BBC曾将Fotor誉为“Photoshop的后继者”。 拥抱AI浪潮:当生成式人工智能(AIGC)兴起时,恒图科技展现了强大的技术敏锐度和快速反应能力。他们在2022年10月就为Fotor上线了AI功能,并逐步将产品从单一的图片编辑,拓展为涵盖AI文生图、AI文生视频等超100种功能的一站式AI视觉内容创作平台。这不仅吸引了更多用户,也让他们成为国内为数不多在该领域实现规模化盈利的企业。 强大的技术合作:为了支撑全球海量用户的创作需求,恒图科技与火山引擎展开了深度合作。火山引擎为其提供了强大的AI算力保障,支撑了恒图超过80%的推理和训练任务。这一合作显著提升了其AI视频生成的能力与质量,帮助恒图实现了用户付费转化率提升23%、AI人均视频生成次数提升12%的亮眼成绩。 🛠️ 主要产品与应用 恒图科技的产品矩阵紧密围绕“让创作更简单”这一核心目标展开。 Fotor:这是恒图科技的旗舰产品。它不仅仅是一个修图工具,更是一个覆盖网页端、移动端和桌面端的一体化设计平台。通过引入AI技术,Fotor极大地降低了专业设计的门槛,让没有任何设计背景的普通用户也能轻松制作海报、社交媒体图片等。 Clipfly:这是恒图科技推出的一站式AI视频制作平台。它集成了文生视频、图生视频、自动字幕、视频编辑等功能,让一个人、一台电脑就能快速完成具有电影质感的视频创作,极大地降低了视频创作的成本和门槛。该产品在文旅宣传、内容创作等领域有很好的应用前景。 🌍 行业影响与未来前景 恒图科技的成功,不仅在于商业上的成就,更在于其带来的行业变革与文化价值。 推动创作“智能化”:恒图科技将自己定位为数字创意创作“智能化”的推动者。如果说Photoshop代表了“专业化”,Canva代表了“平民化”,那么Fotor的目标就是通过AI技术,将视觉内容创作带入“全民皆可为的智能化时代”。 架起文化出海桥梁:恒图科技的产品拥有庞大的海外用户群,这使其成为中国文化出海的一个独特渠道。通过Fotor、Clipfly等产品,中国传统的文化元素、IP可以以图像、视频等更易被接受的形式传播到全球,促进跨文化的交流与理解。 ( 图片来源:fotor.com.cn )

2 个月前
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型(VLM),旨在探索“光学上下文压缩”(Contexts Optical Compression)的创新范式。它不是传统的 OCR(光学字符识别)工具,而是将视觉编码视为文本信息的压缩层,帮助大型语言模型(LLM)更高效地处理长文档、图像和多模态数据。 该模型的灵感来源于“一图胜千言”的理念,通过将文本转化为视觉表示,实现显著的令牌(token)减少,同时保持高准确性。 核心创新与架构 DeepSeek OCR 的核心思想是将文本作为图像处理,从而实现高效压缩: 视觉-文本压缩:传统 LLM 处理 1000 字文档可能需要数千个文本令牌,而 DeepSeek OCR 通过视觉编码器将图像压缩为更少的视觉令牌(可减少 7-20 倍),然后解码回文本。测试显示,它能保留 97% 的原始信息。 双阶段架构: DeepEncoder:视觉编码器,负责图像处理,包括文档、图表、化学分子和简单几何图形。它基于先进的视觉模型(如 Vary、GOT-OCR2.0 和 PaddleOCR 的灵感),高效提取特征。 DeepSeek-3B-MoE:解码器,使用混合专家模型(MoE,激活参数仅 5.7 亿),生成文本输出。整个模型大小约为 6.6 GB,运行速度快、内存占用低。 多功能扩展:除了基本 OCR,它支持解析图表(生成 Markdown 表格和图表)、化学公式、几何图形,甚至自然图像。深解析模式(Deep Parsing Mode)特别适用于金融图表等结构化数据。 该模型在 OmniDocBench 等基准测试中达到了端到端模型的 SOTA(最先进)性能,优于 MinerU 2.0 和 GOT-OCR2.0 等更重的模型,同时视觉令牌使用最少。 它还支持 vLLM(虚拟 LLM 推理引擎),便于批量处理。 优势与应用场景 效率提升:减少计算成本,适合处理长上下文(如聊天历史或长文档)。例如,将旧对话“低分辨率”存储为图像,模拟人类记忆衰减机制。 实用性:在 OCR 之外,它能处理复杂视觉任务,如从图像中提取结构化数据,而非简单文本复制。 开源与易用:模型托管在 Hugging Face(deepseek-ai/DeepSeek-OCR),支持 PyTorch 和 CUDA。GitHub 仓库提供完整代码和示例。 局限性:作为实验性模型,对简单矢量图形解析仍有挑战;输出有时可能出现幻觉(如中文符号混入英文响应)。 如何使用(快速入门) 安装依赖:克隆 GitHub 仓库(git clone https://github.com/deepseek-ai/DeepSeek-OCR.git),安装 Transformers 和 vLLM。 Python 示例(使用 Hugging Face): from transformers import AutoModel, AutoTokenizer from PIL import Image import torch model_name = 'deepseek-ai/DeepSeek-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda().eval() # 加载图像 image = Image.open("your_image.png").convert("RGB") # 提示(prompt) prompt = "<image>\nFree OCR." # 或其他任务提示,如 "<image>\nParse chart." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) inputs["image"] = image # 添加图像 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 这将从图像中提取并输出文本。 DeepSeek OCR 代表了 OCR 从“文本提取”向“多模态压缩”转型的趋势,对于 AI 研究者和开发者来说,是一个值得关注的开源工具。

11 个月前
前 OpenAI 首席技术官 Mira Murati 宣布与杰出科学家和工程师共同创立 Thinking Machines Lab,专注 AI 研究和应用,该公司初创团队汇聚众多 AI 领域人才,旨在让 AI 更加透明、可定制、更强更通用。 关于 Thinking Machines Lab 成立时间与背景 当地时间2025年2月18日,人工智能巨头OpenAI的前首席技术官米拉·穆拉蒂官宣了新公司Thinking Machines Lab的成立。 核心团队 米拉·穆拉蒂:担任公司CEO,在AI领域经验丰富,2018年加入OpenAI,曾主导ChatGPT、DALL-E等项目开发,2023年10月离开OpenAI进行“个人探索”。 约翰·舒尔曼(John Schulman):OpenAI联合创始人,担任首席科学家。 巴雷特·佐夫(Barret Zoph):OpenAI前研究副总裁,出任CTO。 翁荔(Lilian Weng):北大校友、OpenAI前研究副总裁,也是联合创始人之一。 公司目标与愿景 公司目标:正在做三件事,即帮助人们调整人工智能系统以满足他们的特定需求;为构建能力更强的人工智能系统奠定坚实的基础;培养开放的科学文化,帮助整个领域了解和改进这些系统。 公司愿景:让人工智能系统被更广泛地理解、可定制并具有普遍能力,通过坚实的基础、开放的科学和实际的应用,让人工智能变得更有用、更易懂,从而推动人工智能的发展。 研究方向与重点 开源共享:计划经常发布技术博文、论文和代码,与更广泛的研究人员和构建者社区合作,推动人类对人工智能的理解。 人机协作:不专注于制造完全自主的人工智能系统,而是建立与人协作的多模态系统,打造更具灵活性、适应性和个性化的人工智能系统。 模型智能:在科学和编程等领域构建能力前沿的模型,重视基础设施质量,以长期正确地构建事物,提高生产力和安全性。 产品安全:强调在实践中学习,研究与产品共同设计,通过部署实现迭代学习。认为最有效的安全措施来自前瞻性研究和细致的实际测试的结合,重点了解系统如何在现实世界中创造真正的价值。 人才团队 初始团队约30人,半数有OpenAI工作背景,还有来自谷歌、Meta和X等公司的人员,他们曾构建过ChatGPT、Character.ai、Mistral等开放权重模型,以及PyTorch、OpenAI Gym、Fairseq和Segment Anything等流行的开源项目。

1 年前
Shadcn/ui 是一个功能强大的 UI 组件库,结合文本提示和图像生成来创建 UI 可以为用户带来独特的设计体验。

1 年前
本文推荐了想为博客网站制作插图,特别是以文字为主的插图图片制作工具。

1 年前
北京生数科技有限公司(简称“生数科技”)成立于2023年3月,核心团队成员来自清华大学人工智能研究院,此外汇集了来自阿里、腾讯、字节等知名科技公司的顶尖人才,是全球范围内领先的深度生成式算法研究团队,拥有扩散概率模型底层创新研发能力。 生数公司致力打造世界领先的多模态大模型,融合文本、图像、视频、3D等多模态信息,探索生成式AI在艺术设计、游戏制作、影视后期、内容社交等场景的商业赋能,通过AI提升人类的创造力和生产力。

1 年前
AI在LOGO设计中的能力水平正在快速发展,以下是对其能力的分析: 1. 生成速度与效率 AI工具能够在短时间内生成多个LOGO选项,极大地提高了设计效率。用户只需输入品牌名称、行业和偏好颜色,AI便能快速提供多种设计方案,节省了大量的人工设计时间[1][2][5]。 2. 可定制性 许多AI LOGO生成器允许用户对生成的LOGO进行高度定制,包括颜色、字体和图形元素的调整。这种灵活性使得用户能够创建符合品牌形象的独特LOGO[2][4]。 3. 可访问性 AI LOGO设计工具的普及使得即使没有设计经验的用户也能轻松创建专业的LOGO。这些工具通常提供直观的界面和简单的操作流程,降低了设计的门槛[3][5]。 4. 设计质量 虽然AI生成的LOGO在速度和可定制性上表现出色,但它们的设计质量可能会因算法的限制而有所差异。某些AI工具可能生成的LOGO较为通用,缺乏独特性,尤其是在复杂的品牌需求下[2][4]。 5. 人机协作 尽管AI在LOGO设计中展现了强大的能力,但人类设计师的创造力和情感理解仍然不可或缺。许多设计专家建议将AI视为辅助工具,与人类设计师的创意相结合,以实现最佳的设计效果[2][3]。 6. 法律与伦理考虑 使用AI生成的LOGO时,用户需了解相关的版权和法律条款,以避免侵犯他人知识产权。确保使用的AI工具是合法和道德的,避免使用未经授权的图像[3][5]。 7. 未来趋势 预计到2025年,约80%的LOGO设计过程将涉及某种形式的AI辅助,这表明AI在设计领域的应用将越来越普遍。随着技术的进步,AI设计工具的能力和效果也将不断提升[2][4]。 综上所述,AI在LOGO设计中展现出强大的生成能力和效率,但在追求独特性和品牌个性方面,仍需与人类设计师的创意结合,以实现最佳效果。 来源:Perplexity.ai
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI