语言模型 - AI平台 | AI工具集｜AI资讯站

如何用用语言描述物理运动，让AI生成物理真实运动的视频
这正是当前 AI 视频生成领域最前沿的突破方向。你提出的这个问题，本质上是在问如何让 AI 从“画皮”进阶到“画骨”——即不仅画面好看，运动逻辑也要符合现实世界的物理法则。结合最新的技术进展（如 2
3 个月前
利用大语言模型构建虚拟的“世界模型”
利用大语言模型（LLM）构建虚拟的“世界模型”（World Models），以此作为 KI 智能体（AI Agents）积累经验和训练的场所。核心概念：让 LLM 成为 AI 的“模拟练习场” 目前
4 个月前
亚马逊推出新一代基础模型 Nova2
Nova 2是亚马逊于2025年12月在re:Invent 全球大会上推出的新一代基础模型家族，共包含4款模型，均需通过Amazon Bedrock平台使用，兼顾行业领先的性价比与多场景适配性，具体介
4 个月前
Gemini 3：真的是 AI 领域的重大进步吗？
Gemini 3 标志着AI模型从“增量优化”向“范式转变”的重大跃进。
5 个月前
一图胜千言：DeepSeek 发布开源视觉语言模型 DeepSeek OCR
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型（VLM），旨在探索“光学上下文压缩”
6 个月前
DeepGPT：融合 DeepSeek 和 ChatGPT 双模型，创造更强大的 AI 助手
将 DeepSeek 的深度推理、代码能力与 ChatGPT 的语言创造力、通用对话能力相结合，设计一个名为 DeepGPT 的 AI 工具，这确实是一个极具潜力的构想。它代表了一种“强强联合”的思
11 个月前
谷歌大模型与人脑语言处理机制研究发现惊人的一致性
谷歌大模型与人脑语言处理机制研究由谷歌研究院与普林斯顿大学、纽约大学等合作开展。3 月上旬，谷歌的研究成果表明大模型竟意外对应人脑语言处理机制。他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌
1 年前
语言模型中100万Token是个什么概念？
在自然语言处理和人工智能领域，token通常是指文本中的基本单元，比如一个单词、一个标点符号或者一个子词等。100万token的输入输出量是一个较大的数据规模，以下从不同角度来理解这一概念：从文本长
1 年前
文心一言4.0和文心一言4.5的功能区别
文心一言4.0和文心一言4.5的功能区别主要体现在以下几个方面：多模态能力文心一言4.0：具备一定的多模态能力，但可能在模态融合的深度和广度上存在一定限制，例如在处理多模态任务时可能需要更多的人
1 年前
阿里发布开源推理模型千问 QwQ-32B
3月6日凌晨，阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B：模型性能媲美大参数模型：拥有320亿参数，性能可与具备6710亿参数（其中370亿被激活）的DeepSeek - R1媲美
1 年前
Inception Labs 推出第一个基于 Diffusion 的商业语言模型：Mercury
由斯坦福大学教授 Stefano Ermon 创立的初创公司 Inception Labs 推出了 Mercury Coder，这是第一个大规模基于扩散的语言模型（dLLM）。与按顺序生成文本的传
1 年前
开源版和商业不开源版大语言模型（LLM）的区别
开源版和商业不开源版的大语言模型（LLM）在多个方面存在显著区别，包括访问方式、性能、定制化能力、数据安全性、技术支持、成本等。以下是详细对比： 1. 访问方式开源版：通常提供模型权重、训练
1 年前
预训练语言模型 BERT
BERT（Bidirectional Encoder Representations from Transformers）是由Google于2018年发布的一种预训练语言模型，基于Transforme
1 年前
如何集合多种大模型API并提供开发者服务
如何整合大模型API并提供开发者服务随着人工智能技术的快速发展，越来越多的开发者希望在自己的应用中集成AI能力，如自然语言处理、图像生成、语音识别等。如果你计划搭建一个AI平台，并向开发者（B2C）
1 年前
双模融合：DeepSeek R1与ChatGPT合并使用将会突破技术边界
结合DeepSeek R1和ChatGPT的合并使用，理论上可以通过互补优势提升整体性能，但实际效果取决于具体实现方式、任务类型及资源优化能力。以下是综合分析：一、合并使用的潜在优势任务性
1 年前
GPT-5: 致力于创建一个“统一智能”系统
OpenAI 对 GPT-5 的愿景集中于创建一个“统一智能”系统，无缝整合多种 AI 功能。这种方法旨在消除用户在不同模型之间进行选择的需求，而是提供一个单一且强大的 AI，能够轻松处理各种任务。
1 年前
德国大语言模型公司Aleph Alpha无分词器技术创新
Aleph Alpha无分词器LLM架构创新与应用解析 1️⃣ 创新架构：突破传统分词限制德国Aleph Alpha公司推出无分词器（tokenizer-free）LLM架构，通过分层字符-词语
1 年前
腾讯混元大模型的技术原理
腾讯混元大模型的数学原理主要基于深度学习和自然语言处理领域的相关技术，以下是其核心要点：神经网络与Transformer架构多层神经网络：混元大模型采用多层神经网络结构，通过模拟人脑神经元之间的
1 年前
Build a Large Language Model (From Scratch)：从零开始构建自己的大型语言模型
由机器学习专家 Sebastian Raschka 撰写的一本实用指南，帮助读者从零开始构建自己的大型语言模型（LLM）。
1 年前
腾讯公司有哪些智能体（AI 代理）平台？
腾讯两大智能体平台：腾讯元器和 AppAgent。
1 年前
大语言模型中三个不同的概念：字节、字符和Token的区别
在语言大模型中，字节（Byte）、字符（Character）和Token是三个不同的概念，它们在文本处理中扮演着不同的角色。以下是它们的详细区别： 1. 字节（Byte）定义：字节是计算机存储和传
1 年前
与AI聊天"上下文长度"是什么意思？
AI聊天上下文长度是指在一次对话中，AI模型能够记住并参考的最大文本量。这包括用户输入和AI回复的总字数或 token 数（AI 模型处理文本的基本单位，类似于单词或字符片段）。 📚 上下文长度的关键
1 年前
Anthropic 发布《Building effective agents》详细探讨如何构建高效的 AI 代理系统
Anthropic 于2024年12月发布的文章《Building effective agents》详细探讨了如何构建高效的大语言模型（LLM）代理系统。Anthropic 与数十个团队合作构建了跨
1 年前
为什么中国最好语言大模型产生在杭州？
杭州在AI领域崛起有城市“基因密码”，使得杭州在人工智能技术，特别是语言大模型领域引领全球。
1 年前
AI比较：基于API调用费用的10大语言大模型价格比较
以下是基于API调用费用的10大语言大模型价格比较表格，整理自最新公开信息：模型名称提供商输入价格（$/1M tokens）输出价格（$/1M tokens）上下文长度备注
1 年前
DeepSeek推出的数款AI产品
DeepSeek（深度求索）是一家专注于大语言模型（LLM）和相关技术研发的创新型科技公司，成立于2023年7月，由知名量化私募巨头幻方量化创立。DeepSeek的AI产品主要包括以下几类：语言模型
1 年前
AI智能体开发框架：Amazon Bedrock 代理
通过与企业系统、API 和数据来源无缝连接，使生成式人工智能应用程序能够自动执行多步任务。
1 年前
谷歌Gemini 2.0 ：为了人工智能代理时代的新AI模型
Gemini 1.0是为了组织和理解信息，Gemini 2.0则是为了让信息变得更有用。
1 年前
模块化的简介框架：智能体开发的新工具Atomic Agents
不同于其他复杂抽象层的框架，Atomic Agents 追求的是简洁和直观。
1 年前
微软推出小型语言模型Phi-4
微软2024年12月13日宣布推出 14B 参数 “最先进” 小型语言模型（SLM）Phi-4。除了传统的语言处理外，它还擅长数学等领域的复杂推理。 Phi-4 是 Phi 系列小型语言模型的最新成
1 年前
语言大模型（LLM）为什么能够生成图片和视频？
语言大模型（LLM）能够生成图片和视频的能力主要依赖于其多模态学习和生成技术。
1 年前
Not Diamond：网络化人工智能
语言技术（语音、书写、印刷、编码）的每一次重大发展都催化了我们物种的新文明时代。
1 年前
性能大幅提升的Claude 3.5 Sonnet
Claude 3.5 Sonnet属于中等尺寸模型，介于小型Haiku和高端Opus之间，在前代的基础上迭代升级，性能更快，编码、视觉和自然语言理解能力更强。
1 年前
因电力等成本因素，微软和英伟达纷纷抢滩小型语言模型
在语言模型领域如今出现了一种新趋势：小型语言模型（SLM）正逐渐崭露头角，AI巨头们也在“以小博大”。
1 年前
Meta推出Transfusion, 实现对文本和图像的统一处理和生成
Meta的Transfusion模型代表了多模态AI领域的一个重要进展，成功地将Transformer架构与扩散模型（Diffusion models）结合起来，实现了对文本和图像的统一处理和生成。
1 年前
百度 ERNIE 4.0 Turbo 大模型
ERNIE 4.0 Turbo 是百度文心系列的最新旗舰版大模型。
1 年前
苹果的开源模型DCLM-7B
DCLM-Baseline-7B是在DCLM-Baseline数据集上训练的70亿参数语言模型。
1 年前
蚂蚁集团百灵大模型HI
2024年7月5日，在世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了百灵大模型的最新研发进展：它已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、
1 年前
李开复零一万物公司系列模型：Yi
“Yi”大模型是由李开复带队创办的 AI2.0 公司零一万物训练的一系列大语言模型。它是一款双语（英文/中文）模型，在多个方面展示出了强大的性能。
1 年前
如何解决大语言模型的幻觉（AI Hallucinations）？
AI模型可能会产生不准确或具误导性的输出。该问题称之为“幻觉”，即AI模型会产生完全捏造的信息，既不准确也不真实。
1 年前
腾讯混元大模型的比较优势
所有的大模型都有共性和特性，那腾讯的混元大模型的相对优势在哪呢？
1 年前
腾讯混元大模型(Tencent Hunyuan)
腾讯混元大模型具备强大的中文创作能力、复杂语境下的逻辑推理能力以及可靠的任务执行能力，产品包括混元生文与混元生图。
1 年前
字节跳动旗下豆包和小悟空两款AI应用工具的区别
豆包和小悟空都是字节跳动基于云雀模型开发的 AI，都有网页版、APP 端，注册/登录均可使用手机号、抖音号。它们的主要区别如下：产品定位：豆包是一个综合性的 AI 智能体平台，产品定位更倾向于成为
1 年前
OpenAI将会发布Level 2 AI 新项目 Strawberry
OpenAI的“草莓”项目旨在提升AI模型的推理能力，使其能够处理复杂的科学和数学问题，并进行长期任务规划（LHT），即在较长时间内执行一系列复杂动。
1 年前
怎样根据需求调整token数量？
要根据任务需求调整 token 的数量，可以考虑以下几个方面： 1. 明确任务目标和范围：首先要清晰地确定任务的具体内容和所需涵盖的信息范围。如果任务较为简单、明确，可能需要的 token 数量相对较
1 年前
在语言模型中，1000 Token是多少文字？
在 AI 语言模型中，Token 的大小并不是固定的字节数。一般而言，一个简单的英文单词可能算作一个 Token，一个汉字有时也会被当作一个 Token。但像一些常见的短语、专有名词等可能会被视为一
1 年前
LangChain的扩展工具：LangGraph
LangGraph 是用于构建具有大型语言模型（LLMs）的强大且有状态的多角色应用程序的工具，它是 langchain 的一个扩展。 LangGraph 将应用程序的工作流程表示为一个图结构，其中节
1 年前
LangGraph的应用场景
LangGraph 是一个用于构建具有状态和多个参与者的应用程序的库，它受到 Pregel 和 Apache Beam 的启发，允许使用常规的 Python 函数来协调和检查点多个链（或参与者）在循环
1 年前

1 2