有道 AI 平台是网易有道旗下为开发者、企业和政府机构等提供多种人工智能服务以及行业解决方案的平台:
自然语言处理:具备强大的语言理解和生成能力,可用于文本翻译、文本分析、智能写作等。例如,有道 AI 翻译能够准确地进行多种语言之间的翻译,在处理专业领域词汇和复杂句式时也有出色表现;在智能写作方面,可以辅助用户生成文章、文案等内容。
光学字符识别(OCR):能精准识别图片、文档中的文字,包括手写体文字识别、表格识别、整题识别(含公式)等。比如在教育领域,可将纸质试卷或手写笔记快速转化为电子文本,便于存储和编辑。
智能语音:涵盖语音合成、语音识别、语音评测等技术。语音合成可以将文本转换为自然流畅的语音;语音识别能够准确识别用户的语音内容并转化为文字;语音评测则可用于评估语音的准确性、流利度等,例如在语言学习类应用中,帮助学习者纠正发音。
自然语言翻译服务:提供多种翻译功能,如文本翻译、图片翻译、语音翻译、实时语音翻译、文档翻译(开发版)、网页翻译等,满足不同场景下的翻译需求。
视觉智能服务:包括通用文字识别、手写体文字识别、表格识别、PDF 转 Word、自定义模板文字识别、图像处理、图像算法、实况 OCR 等,可应用于文档数字化、图像内容分析等场景。
智能语音服务:有语音合成、短语音识别、长语音转写、实时语音识别、语音评测、语音助手等,适用于智能客服、语音交互设备等领域。
智慧学习服务:例如英语作文批改、中文作文批改、题目识别切分、试卷手写体擦除、精品题库、学业大数据平台、汉字拼音标注、英文文本润色等,为教育领域提供智能化的学习辅助工具。
教育领域:在学校、在线教育平台等场景中,为学生提供智能学习辅导,如作文批改、题目解析;帮助教师进行教学资源的整理和备课,如通过 OCR 技术将纸质教材转化为电子文档。
企业办公领域:可用于文档翻译、会议记录的语音转写、文件的 OCR 识别等,提高办公效率。例如,跨国企业可以利用其翻译服务进行多语言的沟通和文件处理。
智能硬件领域:为智能翻译机、智能学习机、语音助手等硬件设备提供技术支持,提升产品的智能化水平和用户体验。比如有道翻译王等智能硬件产品,凭借其准确的翻译和便捷的操作,受到用户欢迎。
技术实力强:网易有道在人工智能领域投入大量研发资源,拥有专业的技术团队和丰富的技术积累,其核心技术在行业内处于领先水平。
功能丰富多样:涵盖多种人工智能技术和服务,能满足不同用户在不同场景下的多样化需求,提供一站式的人工智能解决方案。
个性化定制:支持用户根据自身需求进行定制化开发,如定制特定领域的翻译术语库、特定风格的语音合成等,使服务更加贴合用户的实际应用场景。
易于接入与使用:通过 API 或 SDK 等方式提供服务,开发者和企业能够方便快捷地接入和集成到自己的业务系统中,降低了使用门槛和开发成本。

4 个月前
恒图科技是一家专注于数字创意视觉内容创作与人工智能技术融合的文化科技型企业。恒图科技(成都恒图科技有限责任公司)在数字视觉内容创作和人工智能领域具有全球影响力,尤其以其核心产品Fotor而闻名。 这里是公司及业务概览: 类别 详细信息 公司名称 成都恒图科技有限责任公司 成立时间 2009年 创始人/CEO 段江 公司定位 专注于视觉内容创作与人工智能融合创新的科技型企业 核心产品 Fotor (图片处理与设计软件)、Clipfly (AI视频制作平台) 技术核心 HDR(高动态范围图像)技术、生成式人工智能(AIGC) 市场与用户 覆盖全球200多个国家和地区,用户量约7-8亿,绝大部分为海外用户 主要荣誉 2025年福布斯中国人工智能科技企业TOP50、德勤中国高科技高成长50强 🚀 发展历程与核心优势 恒图科技的发展历程,是一部深耕技术、顺势而为的进化史。 技术奠基与出海:公司自成立起就专注于图像处理技术,尤其在HDR(高动态范围图像)技术领域拥有领先的核心专利。早期,团队就做出了一个关键决策:主攻海外市场,打造标准化的产品。其产品因操作简单、效果专业,迅速获得了海外用户的认可,BBC曾将Fotor誉为“Photoshop的后继者”。 拥抱AI浪潮:当生成式人工智能(AIGC)兴起时,恒图科技展现了强大的技术敏锐度和快速反应能力。他们在2022年10月就为Fotor上线了AI功能,并逐步将产品从单一的图片编辑,拓展为涵盖AI文生图、AI文生视频等超100种功能的一站式AI视觉内容创作平台。这不仅吸引了更多用户,也让他们成为国内为数不多在该领域实现规模化盈利的企业。 强大的技术合作:为了支撑全球海量用户的创作需求,恒图科技与火山引擎展开了深度合作。火山引擎为其提供了强大的AI算力保障,支撑了恒图超过80%的推理和训练任务。这一合作显著提升了其AI视频生成的能力与质量,帮助恒图实现了用户付费转化率提升23%、AI人均视频生成次数提升12%的亮眼成绩。 🛠️ 主要产品与应用 恒图科技的产品矩阵紧密围绕“让创作更简单”这一核心目标展开。 Fotor:这是恒图科技的旗舰产品。它不仅仅是一个修图工具,更是一个覆盖网页端、移动端和桌面端的一体化设计平台。通过引入AI技术,Fotor极大地降低了专业设计的门槛,让没有任何设计背景的普通用户也能轻松制作海报、社交媒体图片等。 Clipfly:这是恒图科技推出的一站式AI视频制作平台。它集成了文生视频、图生视频、自动字幕、视频编辑等功能,让一个人、一台电脑就能快速完成具有电影质感的视频创作,极大地降低了视频创作的成本和门槛。该产品在文旅宣传、内容创作等领域有很好的应用前景。 🌍 行业影响与未来前景 恒图科技的成功,不仅在于商业上的成就,更在于其带来的行业变革与文化价值。 推动创作“智能化”:恒图科技将自己定位为数字创意创作“智能化”的推动者。如果说Photoshop代表了“专业化”,Canva代表了“平民化”,那么Fotor的目标就是通过AI技术,将视觉内容创作带入“全民皆可为的智能化时代”。 架起文化出海桥梁:恒图科技的产品拥有庞大的海外用户群,这使其成为中国文化出海的一个独特渠道。通过Fotor、Clipfly等产品,中国传统的文化元素、IP可以以图像、视频等更易被接受的形式传播到全球,促进跨文化的交流与理解。 ( 图片来源:fotor.com.cn )

4 个月前
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型(VLM),旨在探索“光学上下文压缩”(Contexts Optical Compression)的创新范式。它不是传统的 OCR(光学字符识别)工具,而是将视觉编码视为文本信息的压缩层,帮助大型语言模型(LLM)更高效地处理长文档、图像和多模态数据。 该模型的灵感来源于“一图胜千言”的理念,通过将文本转化为视觉表示,实现显著的令牌(token)减少,同时保持高准确性。 核心创新与架构 DeepSeek OCR 的核心思想是将文本作为图像处理,从而实现高效压缩: 视觉-文本压缩:传统 LLM 处理 1000 字文档可能需要数千个文本令牌,而 DeepSeek OCR 通过视觉编码器将图像压缩为更少的视觉令牌(可减少 7-20 倍),然后解码回文本。测试显示,它能保留 97% 的原始信息。 双阶段架构: DeepEncoder:视觉编码器,负责图像处理,包括文档、图表、化学分子和简单几何图形。它基于先进的视觉模型(如 Vary、GOT-OCR2.0 和 PaddleOCR 的灵感),高效提取特征。 DeepSeek-3B-MoE:解码器,使用混合专家模型(MoE,激活参数仅 5.7 亿),生成文本输出。整个模型大小约为 6.6 GB,运行速度快、内存占用低。 多功能扩展:除了基本 OCR,它支持解析图表(生成 Markdown 表格和图表)、化学公式、几何图形,甚至自然图像。深解析模式(Deep Parsing Mode)特别适用于金融图表等结构化数据。 该模型在 OmniDocBench 等基准测试中达到了端到端模型的 SOTA(最先进)性能,优于 MinerU 2.0 和 GOT-OCR2.0 等更重的模型,同时视觉令牌使用最少。 它还支持 vLLM(虚拟 LLM 推理引擎),便于批量处理。 优势与应用场景 效率提升:减少计算成本,适合处理长上下文(如聊天历史或长文档)。例如,将旧对话“低分辨率”存储为图像,模拟人类记忆衰减机制。 实用性:在 OCR 之外,它能处理复杂视觉任务,如从图像中提取结构化数据,而非简单文本复制。 开源与易用:模型托管在 Hugging Face(deepseek-ai/DeepSeek-OCR),支持 PyTorch 和 CUDA。GitHub 仓库提供完整代码和示例。 局限性:作为实验性模型,对简单矢量图形解析仍有挑战;输出有时可能出现幻觉(如中文符号混入英文响应)。 如何使用(快速入门) 安装依赖:克隆 GitHub 仓库(git clone https://github.com/deepseek-ai/DeepSeek-OCR.git),安装 Transformers 和 vLLM。 Python 示例(使用 Hugging Face): from transformers import AutoModel, AutoTokenizer from PIL import Image import torch model_name = 'deepseek-ai/DeepSeek-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda().eval() # 加载图像 image = Image.open("your_image.png").convert("RGB") # 提示(prompt) prompt = "<image>\nFree OCR." # 或其他任务提示,如 "<image>\nParse chart." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) inputs["image"] = image # 添加图像 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 这将从图像中提取并输出文本。 DeepSeek OCR 代表了 OCR 从“文本提取”向“多模态压缩”转型的趋势,对于 AI 研究者和开发者来说,是一个值得关注的开源工具。

1 年前
通义语音团队开源了语音基座大模型:SenseVoice和CosyVoice。

1 年前
Seed-TTS:一种高质量多功能语音生成模型

1 年前
为你推荐以下几款 AI 翻译工具: 百度翻译:一款由百度公司提供的在线 AI 翻译工具,提供中文和190多种其他语言之间的快速机器翻译,可以将文字和语音翻译成目标语言,并朗读出来。相较于其他翻译工具,在汉译时,能更好地支持习语、俚语和文化细微差别。此外,它还提供了一些其他功能,例如文档翻译、语音翻译、短语翻译等 谷歌翻译:于2006年推出的免费多语言神经机器翻译服务,提供130多种不同语言之间的即时翻译,包括英语、中文、西班牙语、法语、阿拉伯语等,并且支持的语言之间可以进行任何方向的翻译。除开在线翻译外,谷歌翻译还支持即时翻译、图片翻译、语音翻译、离线翻译、文档翻译和网页翻译等。 火山翻译:字节跳动公司基于云雀模型开发的 AI 翻译工具,支持120多种语言间互相翻译,内置权威词典、支持多种查词方式,提供 PDF 文字格式整理、对照阅读模式、个人术语库等特色功能。此外,其10多种语言的丰富音色免费开放,可用于练习听力和跟读。 DeepL:一款备受用户好评的在线 AI 翻译工具,凭借其准确的翻译质量和高效的语言识别能力,成为了市场上备受瞩目的翻译工具之一。DeepL 的翻译质量在业内处于领先地位,其翻译结果比其他翻译工具更为准确。由于 DeepL 的翻译算法采用了先进的深度学习技术,能够模拟人类在翻译过程中的思维和技巧,从而更准确地把握句子的语义和上下文信息 必应翻译:微软作为其必应搜索引擎的一部分而提供的机器翻译服务,支持70多种不同语言的免费翻译,包括常见的英语、西班牙语、法语、德语、汉语、日语、俄语等通用语言之间的翻译。必应翻译与微软旗下其他产品(如 Bing、Office、Skype 和 SwiftKey 键盘)有集成,翻译速度快,支持多种通用语言。 腾讯翻译君:腾讯最新出品的实时会话翻译软件,支持中、英、日、韩等17门语言之间的翻译。具有精准语言识别,高效、免费等特点。非常适用于境外旅游、对外交流、口语练习等情境,让你体验同声传译般的流畅和快感。 搜狗翻译:一款由搜狗搜索推出的 AI 翻译产品,它结合了机器翻译与人工翻译的优点,支持中、英、法、日等50多种语言之间的互译,并且提供多种功能。搜狗翻译可以应用于学习、生活和工作等多个场景,无论是需要查阅词典、翻译长文、还是进行实时对话翻译,它都能提供有效的帮助。 阿里翻译:由阿里巴巴提供的多语种在线实时 AI 翻译网站,由阿里巴巴达摩院机器智能技术实验室提供技术支持,提供多种领域、覆盖200多种语言的智能机器翻译服务。阿里翻译还支持文档翻译、图片翻译、视频翻译、语音翻译等多模态翻译能力。 讯飞智能翻译:由科大讯飞推出的一个快速准确、稳定可靠的人工智能翻译平台,支持超过140多种语言间进行互译,并提供文档翻译、文本翻译、语音翻译、图片翻译、网页翻译、视频翻译、音频翻译等多种翻译模式。

1 天前
OpenClaw 本质是“开发者基础设施”,而非面向大众的 SaaS 产品。

21 天前
用 OpenClaw 搭建一个本地 Agent 中枢(完整方案) 不是再做一个 ChatGPT,而是建立一个真正“可控、可组合、可扩展”的本地 AI Agent 中枢。 当越来越多团队开始意识到: 云端 LLM 成本不可控 数据隐私存在风险 单一 Agent 无法解决真实业务 “本地 Agent 中枢” 正在成为一个更现实的选择。 本文将完整讲清楚: 👉 如何用 OpenClaw 搭建一个真正可用的本地 Agent 中枢 👉 它适合谁,不适合谁 👉 与 LangGraph / CrewAI 的核心差异 什么是「本地 Agent 中枢」? 先明确一个概念,避免误解。 ❌ 不是: 一个本地 ChatGPT 一个简单的 Prompt 管理器 ✅ 而是: 一个能够统一管理多个 Agent、模型、工具和任务流程的本地系统 一个合格的本地 Agent 中枢,至少要解决 5 件事: 多 Agent 协作(不是单轮对话) 任务调度与状态管理 模型可替换(本地 / API) 工具调用(搜索、代码、文件等) 可长期运行、可追溯 OpenClaw 的定位,正是这个“中枢层”。 为什么选择 OpenClaw? 在进入部署前,必须先回答一个现实问题: 为什么不是 LangGraph / CrewAI / AutoGen? 简要结论(非常重要) 框架 更适合 LangGraph 开发者写 Agent 流程 CrewAI 小规模角色协作 AutoGen 对话驱动实验 OpenClaw 长期运行的 Agent 中枢 OpenClaw 的核心优势 1️⃣ 架构清晰,不是“脚本拼装” 有明确的 Agent 管理层 有任务执行与状态机制 不是写完一次就丢的 Demo 2️⃣ 原生支持多模型策略 本地模型 云 API fallback / 优先级策略 3️⃣ 更接近“生产环境思维” 可持续运行 可复用 Agent 可演进 如果你的目标是: “做一个长期使用的 AI 中枢,而不是一段实验代码” 那 OpenClaw 是目前更合理的选择之一。 整体架构:OpenClaw 本地 Agent 中枢怎么搭? 这是一个最小可用但可扩展的架构方案。 🧩 架构拆解 ┌─────────────────────────┐ │ 用户 / 系统 │ └──────────┬──────────────┘ │ ┌──────────▼──────────┐ │ OpenClaw 中枢层 │ │ - Agent Registry │ │ - Task Orchestrator│ │ - Memory / State │ └──────────┬──────────┘ │ ┌─────────▼─────────┐ │ Agent 集群 │ │ - Research Agent │ │ - Coding Agent │ │ - Planning Agent │ │ - Tool Agent │ └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ 模型 & 工具层 │ │ - 本地 LLM │ │ - API LLM │ │ - Search / FS / DB │ └───────────────────┘ 部署准备(实战级) 1️⃣ 基础环境 推荐环境(已验证): Linux / WSL / macOS Docker + Docker Compose Python 3.10+ 2️⃣ 模型选择建议(非常现实) 场景 推荐 本地推理 Qwen / LLaMA 稳定输出 GPT / Claude API 混合方案 本地 + API fallback 👉 关键不是模型多,而是“可切换” 核心步骤:搭建 OpenClaw 本地 Agent 中枢 Step 1:部署 OpenClaw 核心 git clone https://github.com/xxx/openclaw cd openclaw docker compose up -d 启动后,你将拥有: Agent 管理入口 任务调度服务 统一配置中心 Step 2:定义你的第一个 Agent 一个 Agent ≠ 一个 Prompt 而是一个职责明确的“角色” 示例: agent: name: research_agent role: 信息调研 model: local_llm tools: - web_search - file_reader 建议起步 Agent: Research Agent(信息收集) Planner Agent(任务拆解) Executor Agent(执行) Step 3:建立 Agent 协作流程 例如一个典型任务: “调研某行业 → 输出分析 → 给出建议” 流程是: Planner 拆解任务 Research Agent 收集信息 Executor Agent 输出结果 中枢保存状态与结果 👉 这一步,才是“中枢”的价值所在 一个真实可用的示例场景 🎯 场景:AI 工具评估中枢 你可以搭一个 Agent 中枢来做: 自动收集 AI 工具信息 对比功能 / 定价 输出结构化报告 长期更新 这类系统: 人工成本极高 用 Agent 非常合适 总结:什么时候该用 OpenClaw? 当你意识到:AI 不再是“一次性回答”,而是“持续协作的系统” 那你就已经走在 OpenClaw 这条路上了。 OpenClaw 不是让你“更快用 AI”,而是让你“真正拥有 AI 能力”。

24 天前
Asking User Question Tool(AI智能体版) 这是AI智能体必备的交互式工具,让Agent在执行任务时主动向用户提问、澄清需求、收集信息,避免瞎猜、减少返工、提升准确率。 一、核心定位 本质:Agent的“人在回路”交互接口,让AI在模糊/信息不足时暂停执行,向用户要明确输入。 作用:把“模糊指令→AI瞎做→反复修改”变成“AI提问→用户明确→一次做对”。 常见名称: AskUserQuestion 、 AskUserQuestionTool 、 ask_user_question 。 二、核心工作流(极简) 1. Agent判断信息不足:发现需求模糊、缺少参数、需要决策 2. 调用工具生成结构化问题:单选/多选+自定义输入+说明 3. 用户作答:在聊天/弹窗/终端选择或输入 4. Agent接收答案:解析结构化结果,补全上下文 5. 继续执行任务:基于完整信息推进,不再猜 三、关键能力(标配) 结构化提问:标题+问题+2–4个选项+单选/多选+ Other 自定义输入 上下文澄清:自动追问,直到需求完全明确 结构化返回:输出JSON,方便前端渲染(按钮/表单/弹窗) 人在回路:强制用户确认,避免AI自主决策风险 多轮交互:可连续提问,形成“需求访谈”流程 四、主流实现(你会遇到的版本) Claude Code(Anthropic) 原生内置,最成熟 支持多轮、单选/多选、自定义输入 常用于代码生成、需求梳理 Qwen-Agent(通义千问) 开源工具: qwen_agent/tools/ask_user_question.py 支持参数: question / options / explanations / multiSelect / allowFreeform Spring AI AskUserQuestionTool ,Java生态 模型无关,可对接GPT/Claude/Gemini OpenClaw / EasyClaw 集成到本地智能体,用于任务执行前确认 本地运行,隐私优先 五、典型使用场景(高频) 需求澄清:“做一个登录页”→AI问:技术栈?风格?是否第三方登录? 偏好收集:“写报告”→AI问:正式/ casual?长度?受众? 决策点确认:“部署服务”→AI问:云厂商?实例规格?环境? 复杂任务拆解:多轮提问,把模糊需求变成可执行步骤 六、与普通聊天的区别 普通聊天:用户主动说,AI被动答;信息靠用户自己补全 AskUserQuestion:AI主动问、结构化问、按任务节点问;用户只需点选/填空,效率高、歧义少 七、为什么要用(价值) 减少返工:一次做对,节省时间与Token 提升准确率:AI不瞎猜,结果更贴合需求 降低门槛:用户不用写长Prompt,点选即可 安全可控:关键决策必须用户确认,避免误操作 八、一句话总结 Asking User Question Tool = AI智能体的“需求访谈官”,让Agent从“猜着做”变成“问清楚再做”,是构建可靠、实用AI助手的核心工具。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI