大语言模型(LLM)在企业组织中的应用日益广泛,许多企业都将其整合到 AI 应用中。虽然从基础模型着手十分高效,但需要花费一定的精力才能将它们整合到生产就绪型环境中。NVIDIA NIM 简化了这一过程,使企业能够在数据中心、云、工作站和 PC 等任何位置运行 AI 模型。

专为企业设计的 NIM 提供一整套预构建云原生微服务,这些微服务能够被轻松地整合到现有基础设施中。这些微服务经过精心的维护和持续的更新,具有开箱即用的性能,并确保您能够获得 AI 推理技术的最新进展。
适用于大语言模型的全新 NVIDIA NIM
基础模型的增长源于其能够满足各种企业需求的能力,但没有任何一个单一的模型能够完全满足企业的需求,企业通常会根据特定的数据需求和 AI 应用工作流,在其用例中使用不同的基础模型。
考虑到企业需求的多样化,我们扩大了 NIM 的阵容,涵盖了 Mistral-7B、Mixtral-8x7B 和 Mixtral-8x22B,这三个基础模型在特定任务中的表现都十分出色。
![]()
图 1. 新的 Mixtral 8x7B Instruct NIM 可从 NVIDIA API 中获取
Mistral 7B NIM
Mistral 7B Instruct 模型在文本生成和语言理解任务中表现出色。该模型可在单个 GPU 上运行,非常适合语言翻译、内容生成和聊天机器人等应用。将 Mistral 7B NIM 部署至 NVIDIA 数据中心 GPU 后,开发者在内容生成任务中可实现的开箱即用性能(token/秒),其性能最多可提升至没有使用 NIM 时的 2.3 倍。
![]()
图 2. Mistral 7B NIM 提高了内容生成的吞吐量
基于 1 个 NVIDIA Tensor Core GPU,输入 500 个 token,输出 2,000 个 token。NIM 开启时:FP8。吞吐量为 5,697 token/秒,TTFT 为 0.6 秒,ITL 为 26 毫秒。NIM 关闭时:FP16。吞吐量为 2,529 token/秒,TTFT 为 1.4 秒,ITL 为 60 毫秒。
Mixtral-8x7B 和
Mixtral-8x22B NIM
Mixtral-8x7B 和 Mixtral-8x22B 模型采用混合专家(MoE)架构提供快速且经济高效的推理。这两个模型在总结、问题解答和代码生成等任务中表现出色,非常适合需要实时响应的应用。
相较无 NIM 运行的情况,NIM 可以提高这两种模型的开箱即用性能。当用于内容生成且在 1 个 NVIDIA Tensor Core GPU 上运行时,Mixtral-8x7B NIM 的吞吐量最多可提高 4.1 倍。在内容生成和翻译用例中,Mixtral-8x22B NIM 的吞吐量最多可提高 2.9 倍。
![]()
图 3. Mixtral 8x7B NIM 提高了内容生成的吞吐量
输入 500 个 token,输出 2,000 个 token。200 个并发请求。NIM 开启时:FP8。吞吐量为 9,410 token/秒。TTFT 为 740 毫秒,ITL 为 21 毫秒。NIM 关闭时:FP16。吞吐量为 2,300 token/秒,TTFT 为 1,321 毫秒,ITL 为 86 毫秒。
![]()
图 4. Mixtral 8x22B NIM 提高了内容生成和翻译的吞吐量
输入 1,000 个 token,输出 1,000 个 token。250 个并发请求。NIM 开启时:吞吐量为 6,070 token/秒,TTFT 为 3 秒,ITL 为 38 毫秒。NIM 关闭时:吞吐量为 2,067 token/秒,TTFT 为 5 秒,ITL 为 116 毫秒。
借助 NVIDIA NIM 加速 AI 应用部署
开发者可以使用 NIM 缩短构建适用于生产部署的 AI 应用所需的时间,同时还能提高 AI 推理效率,并降低运营成本。借助 NIM,经过优化的 AI 模型实现了容器化,为开发者带来了以下优势:
性能和规模
这些云驱动的微服务可提供低延迟、高吞吐量并可以轻松扩展的 AI 推理,使用 Llama 3 70B NIM,最多可将吞吐量提高 5 倍。NIM 还支持精确的微调模型,无需从头开始构建即可实现超高的准确性,进一步提高了 AI 推理性能。
易于使用
通过简化与现有系统的整合来加快进入市场的速度,并在 NVIDIA 加速基础设施上提供最佳性能。借助专为企业使用而设计的 API 和工具,开发者可以实现其 AI 能力的最大化。
安全性和易管理性
确保您的 AI 应用和数据具有强大的可控性和安全性。通过 NVIDIA AI Enterprise,NIM 支持在任何基础设施上的灵活自托管部署,提供企业级软件、严格的验证以及与 NVIDIA AI 专家的直接连线。
AI 推理的前景:
NVIDIA NIM 及其他延伸
NVIDIA NIM 代表了 AI 推理领域的重大进步。随着各行各业对 AI 应用需求的日益增长,高效部署这些应用变得至关重要。想要利用 AI 变革力量的企业可以使用 NVIDIA NIM,将预构建的云原生微服务轻松整合到现有系统中,以此加快产品推出速度,保持在创新领域的领先地位。
未来的 AI 推理将超越单个 NVIDIA NIM。随着对先进 AI 应用的需求不断增长,连接多个 NVIDIA NIM 将变得至关重要。这种微服务网络将带来能够协同工作和适应各种任务的高度智能化应用,从而深入改变我们使用技术的方式。如要在您的基础设施上部署 NIM 推理微服务,请查看“使用 NVIDIA NIM 部署生成式 AI 的简单指南”:
https://developer.nvidia.com/zh-cn/blog/a-simple-guide-to-deploying-generative-ai-with-nvidia-nim/
NVIDIA 定期发布新的 NIM,为企业提供最强大的 AI 模型,助企业应用一臂之力。请访问 API 目录,查找适用于 LLM、视觉、检索、3D 和数字生物学模型的最新 NVIDIA NIM:
https://build.nvidia.com/meta/llama3-8b?nvid=nv-int-tblg-491613
信息来源:Nvidia英伟达中国

26 天前
这正是当前 AI 视频生成领域最前沿的突破方向。你提出的这个问题,本质上是在问如何让 AI 从“画皮”进阶到“画骨”——即不仅画面好看,运动逻辑也要符合现实世界的物理法则。 结合最新的技术进展(如 2025 年的相关研究),要让 AI 生成符合真实规律的视频,我们可以通过以下几种“高级语言描述法”来与模型沟通: 1. 使用“力提示”技术:像导演一样指挥物理力 🎬 这是谷歌 DeepMind 等团队提出的一种非常直观的方法。你不需要懂复杂的物理公式,只需要在提示词中描述“力”的存在。 描述力的方向与强度: 你可以直接告诉 AI 视频中存在某种力。例如,不只是写“旗帜飘动”,而是写“旗帜在强风中剧烈飘动”或“气球被轻轻向上吹起”。 区分全局力与局部力: 全局力(风、重力): 影响整个画面。例如:“Global wind force blowing from left to right”(从左到右的全局风力)。 局部力(碰撞、推力): 影响特定点。例如:“A ball rolling after being kicked”(球被踢后滚动)。 效果: AI 模型(如 CogVideoX 结合特定模块)能理解这些力的矢量场,从而生成符合动力学的运动,比如轻的物体被吹得更远,重的物体移动缓慢。 2. 调用“思维链”与物理常识:让 LLM 当质检员 🧠 有时候直接描述很难精准,我们可以借助大型语言模型(LLM)作为“中间人”来审核物理逻辑。这种方法(如匹兹堡大学的 PhyT2V)利用 LLM 的推理能力。 分步描述(Chain-of-Thought): 你可以在提示词中要求 AI “思考过程”。例如,不只是生成“水倒入杯子”,而是引导它:“首先,水从壶嘴流出,形成抛物线;然后,水撞击杯底,产生涟漪;最后,水位上升,流速减慢。” 明确物理规则: 在提示词中直接嵌入物理常识。例如:“根据重力加速度,球下落的速度应该越来越快”或“流体具有粘性,流动时会有拉丝效果”。 回溯修正: 如果第一版视频不符合物理规律(比如球浮在空中),你可以通过反馈指令让系统进行“回溯推理”,识别出视频与物理规则的语义不匹配,并自动修正提示词重新生成。 3. 参数化控制:像物理老师一样给定数值 📏 如果你需要极其精确的物理运动(例如做科学实验模拟或电影特效),可以使用类似普渡大学 NewtonGen 框架的思路,直接给定物理参数。 设定初始状态: 在语言描述中包含具体的物理量。 位置与速度: “一个小球从坐标 (0, 10) 以初速度 5m/s 水平抛出”。 角度与旋转: “一个陀螺以角速度 10rad/s 旋转”。 质量与材质: “一个轻质的泡沫块”与“一个沉重的铁球”在相同力作用下的反应是不同的。 指定运动类型: 明确指出是“匀速直线运动”、“抛物线运动”还是“圆周运动”。AI 会根据这些语义,调用内置的“神经物理引擎”来计算轨迹,确保视频中的物体运动轨迹符合牛顿定律。 4. 结合物理引擎的混合描述:虚实结合 🧩 更高级的方法是让语言描述直接驱动物理模拟器(如 Blender, Genesis),然后将结果渲染成视频。 描述物理属性: 在提示词中指定物体的密度、弹性系数、摩擦力等。 事件驱动描述: 描述物体间的相互作用。例如:“一个刚性的小球撞击一个柔软的布料,布料发生形变并包裹住小球”。 通用物理引擎: 像 Genesis 这样的新模型,允许你用自然语言描述复杂的物理场景(如“一滴水滑落”),它能直接生成符合流体动力学的模拟数据,而不仅仅是看起来像视频的图像帧。 📝 总结:如何写出“物理级”提示词? 为了更直观地掌握这种描述方式,这里总结了一个对比表: 一句话总结: 要用语言描述物理运动,关键在于将“视觉结果”转化为“物理过程”。多用描述力(风、推力)、属性(重力、粘性)、参数(速度、角度)的词汇,甚至直接告诉 AI 要遵循某种物理规律,这样生成的视频才会有真实的“重量感”和“真实感”。

28 天前
利用大语言模型(LLM)构建虚拟的“世界模型”(World Models),以此作为 KI 智能体(AI Agents)积累经验和训练的场所。 核心概念:让 LLM 成为 AI 的“模拟练习场” 目前,开发能在现实世界执行复杂任务的 AI 智能体(如机器人、自动化软件助手)面临一个巨大挑战:获取实际操作经验的成本极高且充满风险。 如果让机器人在物理世界中通过“试错”来学习,不仅效率低下,还可能造成硬件损毁。 研究人员提出的新思路是:利用已经掌握了海量人类知识的大语言模型(LLM),由它们通过文字或代码生成一个模拟的“世界模型”。 1. 什么是“世界模型”? 世界模型是一种模拟器,它能预测特定行为可能产生的结果。 传统方式: 需要开发者手动编写复杂的代码来定义物理法则和环境规则。 LLM 驱动方式: 预训练的大模型(如 GPT-4 或 Claude)已经具备了关于世界运行逻辑的知识(例如:知道“推倒杯子水会洒”)。研究人员可以利用 LLM 自动生成这些模拟环境的逻辑。 2. 研究的具体内容 来自上海交通大学、微软研究院、普林斯顿大学和爱丁堡大学的国际研究团队对此进行了深入研究。他们测试了 LLM 在不同环境下充当模拟器的能力: 家庭模拟(Household Simulations): 模拟洗碗、整理房间等日常任务。 电子商务网站(E-Commerce): 模拟购物行为、库存管理等逻辑。 3. 关键发现: 强结构化环境表现更佳: 在规则清晰、逻辑严密的场景(如简单的文本游戏或特定流程)中,LLM 驱动的模拟效果非常好。 开放世界的局限性: 对于像社交媒体或复杂的购物网站这类高度开放的环境,LLM 仍需要更多的训练数据和更大的模型参数才能实现高质量的模拟。 真实观察的修正: 实验显示,如果在 LLM 模拟器中加入少量来自现实世界的真实观察数据,模拟的质量会显著提升。 对 AI 行业的意义 加速 AI 智能体进化: 这种方法让 AI 智能体可以在几秒钟内完成数千次的虚拟实验,极大加快了学习速度。 降低训练门槛: 开发者不再需要搭建昂贵的物理实验室,只需要调用 LLM 接口就能创建一个“训练场”。 2026 年的趋势: 这预示着 2026 年及以后,“自主智能体”将成为 AI 发展的核心,而这种“基于模拟的学习”将是通往通用人工智能(AGI)的关键一步。 总结 该研究证明,LLM 不仅仅是聊天机器人,它们可以演变成复杂的“数字世界创造者”。在这个虚拟世界里,新一代的 AI 智能体可以安全、低成本地反复磨练技能,最终再将学到的能力应用到现实生活和工作中。 ( 根据海外媒体编译 )

2 个月前
LoRA(Low-Rank Adaptation)是一种对大模型进行“轻量级微调”的技术。

2 个月前
Gemini 3 标志着AI模型从“增量优化”向“范式转变”的重大跃进。

3 个月前
KI-Marktplatz.com:德国AI平台公司业务介绍 AI-Marktplace(也称为KI-Marktplatz)是一家德国AI平台公司,总部位于德国(与帕德博恩大学和弗劳恩霍夫研究所等机构紧密合作),专注于为工程领域的产品开发者和团队提供定制化的AI解决方案。该平台于2020年代初推出(由联邦经济和能源部BMWk资助的“AI作为生态系统驱动者”竞赛项目),旨在通过生成式AI(GenAI)加速工业创新,帮助企业从产品构想到市场推出的全过程实现效率提升、开发时间缩短和成本降低。公司将前沿研究与实用工程经验相结合,强调无缝集成AI到现有IT系统中,避免业务中断。 业务模式 AI-Marktplatz.com 采用数字市场平台模式,连接AI解决方案提供商、专家和用户。核心是通过咨询、实施和合作伙伴生态变现: 收入来源:定制咨询服务、PoC(概念验证)开发、部署支持,以及市场交易(如AI模型和技术授权)。 价值主张:端到端支持,从用例识别到规模化部署,通常在4周内从idea到PoC,帮助企业自动化例行任务、标准化设计并提升创新潜力。 主要服务 平台的服务分为三个阶段,覆盖工程全生命周期: 用例识别(Use Case Identification):系统分析过程痛点,提供AI专家访问和个性化推荐,帮助企业识别KI应用机会(如需求工程中提升50%生产力)。 用例实施(Use Case Implementation):快速开发和测试PoC,验证AI益处并降低风险,聚焦于机械、电子、软件和系统建模。 用例 rollout(Use Case Rollout):无缝扩展和集成AI解决方案到现有系统中,支持产品生命周期管理(PLM),如变体管理和追溯性搜索。 其他扩展服务包括: AI在需求工程中的应用(生成规格文档)。 聊天助手辅助系统工程。 生成式AI在机械设计(标准化零件)、电子(SPS代码生成)和软件开发中的集成。 目标受众 主要针对工业工程团队和产品开发者,包括制造业、汽车、机械和电子行业企业(如Claas、Hella Gutmann、Diebold Nixdorf)。适合希望通过AI自动化设计、减少制造成本并加速市场引入的中型企业。 关键平台功能 AI市场:汇集AI模型、技术、基础设施和用例库,支持云端(如领先云提供商)或本地部署。 技术栈:基于客户需求选择基础模型、GenAI框架(如最新生成技术),并集成IDS(International Data Spaces)参考架构,确保数据安全和主权。 创新支持:访问研究网络,保持趋势前沿;覆盖领域包括系统建模、学科特定开发和PLM优化。 独特卖点:工业级AI集成(非通用工具),强调安全、效率和可扩展性;通过网络连接研究(如帕德博恩大学HNI)和行业实践。 合作伙伴与独特优势 合作伙伴:与研究机构(如帕德博恩大学HNI、弗劳恩霍夫IEM、ITS-OWL)和行业协会(如prostep ivip、KI Bundesverband、International Data Spaces Association)紧密合作。实际案例包括Westaflex、Übermetrics Technologies等企业的AI集成。 背书:获得acatech成员Prof. Dr.-Ing. Jürgen Gausemeier、KI Bundesverband的Vanessa Cann等专家认可,突出平台的可靠性和创新性。 独特优势:结合学术研究与企业实践,提供“即插即用”AI解决方案;强调数据主权(通过IDS),适合对隐私敏感的德国工业。 整体使命 KI-Marktplatz.com 的使命是为产品开发者提供工业适用的AI工具,解锁生成式AI在工程中的潜力。通过加速开发、提升产能和降低风险,帮助企业更快地将创新推向市场,最终推动德国工业的数字化转型。

3 个月前
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型(VLM),旨在探索“光学上下文压缩”(Contexts Optical Compression)的创新范式。它不是传统的 OCR(光学字符识别)工具,而是将视觉编码视为文本信息的压缩层,帮助大型语言模型(LLM)更高效地处理长文档、图像和多模态数据。 该模型的灵感来源于“一图胜千言”的理念,通过将文本转化为视觉表示,实现显著的令牌(token)减少,同时保持高准确性。 核心创新与架构 DeepSeek OCR 的核心思想是将文本作为图像处理,从而实现高效压缩: 视觉-文本压缩:传统 LLM 处理 1000 字文档可能需要数千个文本令牌,而 DeepSeek OCR 通过视觉编码器将图像压缩为更少的视觉令牌(可减少 7-20 倍),然后解码回文本。测试显示,它能保留 97% 的原始信息。 双阶段架构: DeepEncoder:视觉编码器,负责图像处理,包括文档、图表、化学分子和简单几何图形。它基于先进的视觉模型(如 Vary、GOT-OCR2.0 和 PaddleOCR 的灵感),高效提取特征。 DeepSeek-3B-MoE:解码器,使用混合专家模型(MoE,激活参数仅 5.7 亿),生成文本输出。整个模型大小约为 6.6 GB,运行速度快、内存占用低。 多功能扩展:除了基本 OCR,它支持解析图表(生成 Markdown 表格和图表)、化学公式、几何图形,甚至自然图像。深解析模式(Deep Parsing Mode)特别适用于金融图表等结构化数据。 该模型在 OmniDocBench 等基准测试中达到了端到端模型的 SOTA(最先进)性能,优于 MinerU 2.0 和 GOT-OCR2.0 等更重的模型,同时视觉令牌使用最少。 它还支持 vLLM(虚拟 LLM 推理引擎),便于批量处理。 优势与应用场景 效率提升:减少计算成本,适合处理长上下文(如聊天历史或长文档)。例如,将旧对话“低分辨率”存储为图像,模拟人类记忆衰减机制。 实用性:在 OCR 之外,它能处理复杂视觉任务,如从图像中提取结构化数据,而非简单文本复制。 开源与易用:模型托管在 Hugging Face(deepseek-ai/DeepSeek-OCR),支持 PyTorch 和 CUDA。GitHub 仓库提供完整代码和示例。 局限性:作为实验性模型,对简单矢量图形解析仍有挑战;输出有时可能出现幻觉(如中文符号混入英文响应)。 如何使用(快速入门) 安装依赖:克隆 GitHub 仓库(git clone https://github.com/deepseek-ai/DeepSeek-OCR.git),安装 Transformers 和 vLLM。 Python 示例(使用 Hugging Face): from transformers import AutoModel, AutoTokenizer from PIL import Image import torch model_name = 'deepseek-ai/DeepSeek-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda().eval() # 加载图像 image = Image.open("your_image.png").convert("RGB") # 提示(prompt) prompt = "<image>\nFree OCR." # 或其他任务提示,如 "<image>\nParse chart." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) inputs["image"] = image # 添加图像 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 这将从图像中提取并输出文本。 DeepSeek OCR 代表了 OCR 从“文本提取”向“多模态压缩”转型的趋势,对于 AI 研究者和开发者来说,是一个值得关注的开源工具。

3 个月前
2025年10月14日,沃尔玛宣布与OpenAI达成一项新的合作伙伴关系: 合作内容:消费者将能够通过AI聊天机器人ChatGPT直接购买沃尔玛的商品,包括杂货(不含生鲜食品)、家庭日用品等,并实现即时结账。山姆会员店会员还可在与AI对话过程中规划膳食、补充日常必需品,并发现新的商品。顾客需先将沃尔玛账户与ChatGPT应用进行绑定,之后在购物时点击ChatGPT应用内的“购买”按钮即可完成下单。该功能计划在今年秋季晚些时候正式上线,届时也将支持第三方卖家的商品。 合作意义:此次合作将帮助零售商更深入地了解并预测客户需求,从而让线上购物体验变得更加个性化和主动化,不再仅仅是被动响应用户搜索。 双方合作基础:沃尔玛与OpenAI在其他业务领域已有合作基础,其内部团队已采用OpenAI认证课程及ChatGPT Enterprise企业版工具。 沃尔玛的AI布局:除了与OpenAI的合作,沃尔玛还推出了自研的生成式AI购物助手“Sparky”,旨在帮助顾客发现、比较商品并完成购买。未来,该功能将进一步扩展,支持自动复购、服务预约,并能理解来自文本、图像、音频和视频等多模态输入信息。

9 个月前
2005年成立的美国老牌服务器厂商Database Mart正推出春季大促活动,低至5折,超40款GPU服务器套餐配备独立英伟达显卡,如NVIDIA P1000, GTX 1650, RTX 3060, A5000, A6000, H100等,满足各等级预算。支持AI渲染/推理/训练,3D渲染,直播,模拟器多开,指纹浏览器,区块链,爬虫,音视频编辑,深度学习等多种用途。 查看显卡服务器主站:GPU Mart 查看中文网: 鹄望云官网 推荐Database Mart的理由 🛠️ 核心优势解析: 【独占计算资源】专属美国IP+独享GPU:告别共享云GPU的资源争抢问题,GPU VPS与GPU独立服务器均配备独立显卡与固定IP,确保高性能计算环境零干扰,推理训练更稳定。 【开箱即用】预集成AI开发套件:内置Ollama、Stable Diffusion等工具链,一键部署机器学习/AI开发环境。 【全天候智囊支持】多场景KB支持,7×24小时中英文专家护航:GPU架构师团队随时待命,零额外成本获取专业技术支持。 【无瓶颈数据传输】全系方案标配无限流量通道,保障大规模数据吞吐。 【企业级安全防护】智能DDoS防火墙,多层分布式防御体系 🚨GPU服务器春季限时特惠: 精选机型立省50%,算力采购成本触底! 👉 立即抢购 备注试用(free trial)提交订单即可免费测试。非促销款还可享受本站特别折扣,用折扣码下单,立享永久8折优惠。 折扣码 鹄望云折扣码:TC1ONYWD GPU Mart折扣码:TC12U2ZS 选型建议: 学习/测试:选GT730/P620 中小模型:RTX 2060/T1000/A4000 VPS 企业级AI:A5000/A6000/A100 客户常见问题 Q:是否支持Windows系统? A:全系列支持Windows/Linux,可自由重装 Q:GPU服务器能否跑Llama3? A:RTX A4000可流畅运行7B/13B模型,A6000支持70B参数 Q:是否支持使用? A:提供24小时免费测试 点击查看更多爆款 ! 如需中文和支付宝付款服务,查看鹄望云官网,联系客服获取同等促销价。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI