
在人工智能的浪潮中,数据曾被视为无尽的宝藏。然而,这一局面可能即将改变。Ilya Sutskever,OpenAI的前首席科学家,在NeurIPS2024上抛出了一枚重磅炸弹:预训练模型的时代即将结束,我们能获得的数据已经到达极限。这一观点不仅震动了AI界,也为我们的未来发展指明了新的方向。
他提出,我们所熟悉的预训练无疑会结束,因为可用的新数据已经接近枯竭。这一趋势将迫使行业改变当前的模型训练方式。Sutskever将数据比作化石燃料,强调互联网中由人类生成的内容是有限的。
Ilya警告说:“我们已经达到了数据的峰值,未来不会再有更多数据。”我们必须利用现有的数据,因为互联网只有一个。

18 天前
LoRA(Low-Rank Adaptation)是一种对大模型进行“轻量级微调”的技术。

21 天前
Gemini 3 标志着AI模型从“增量优化”向“范式转变”的重大跃进。

1 个月前
Alice AI:俄罗斯搜索引擎Yandex推出的人工智能助手 从日常任务到城市生活,Yandex的Alice AI正在重新定义人与机器的互动方式。 在2025年10月28日的“Alice,what‘s new?”大会上,俄罗斯科技巨头Yandex推出了全新升级的Alice AI——一个强大的通用神经网络,能够帮助用户在聊天中解决几乎任何任务。 这项技术代表了过去几十年聊天机器人从简单模式匹配到智能交互的演进历程。Alice AI不同于传统的规则驱动聊天机器人,它基于最先进的生成模型,不仅能理解复杂请求,还能主动协助用户完成从信息查询到实际行动的全流程任务。 01 从ELIZA到Alice AI,技术革命的演进历程 聊天机器人的发展始于20世纪60年代,当时麻省理工学院教授魏岑鲍姆发明了世界上第一个聊天机器人ELIZA,它通过模式匹配和替换方法来模拟对话。 受到ELIZA的启发,理查德·华莱士博士在1995年开发了ALICE系统(Artificial Linguistic Internet Computer Entity)。 ALICE采用启发式模式匹配的对话策略,并支持基于人工智能标记语言(AIML)的规则定义。 这一系统在人工智能领域获得了高度认可,在2000年、2001年和2004年三次获得洛伯纳奖(Loebner Prize)。 然而,传统的ALICE系统仍然依赖于预设的模板和规则,需要大量人力进行设计和制定。 Yandex的Alice AI则代表了技术演进的新阶段,它不再局限于规则驱动,而是基于大规模训练的神经网络,具备真正的理解和生成能力。 02 多模态架构,Alice AI的技术内核 Alice AI由三个核心模型共同驱动,构成了其多功能的技术基础。 Alice AI LLM负责处理语言相关的任务,包括回答问题、生成文本和逻辑推理。 Alice AI ART专注于视觉内容生成,能够根据文本描述创建图像和视频内容。 Alice AI VLM作为视觉语言模型,专精于图像分析、理解和与图像相关的任务解决。 这一模型家族将继续扩展,例如图像编辑模型即将推出。 Alice AI支持多种交互方式,包括文本输入、语音对话和实时摄像头交互。 用户可以通过手机摄像头获取实时视觉分析,使Alice AI能够成为识别物体、解释场景的随身助手。 03 四大应用场景,从聊天到实际行动 Alice AI的能力体现在多个实际应用场景中,使其成为用户日常生活的有用伙伴。 智能对话与文件处理:Alice AI可以处理各种类型的文件(DOC、DOCX、PDF、TXT),从中提取关键信息并生成清晰的报告。 它能够进行复杂问题的推理分析,提供深思熟虑的结论而不仅仅是快速回答。 视觉识别与创作:通过图像识别技术,Alice AI可以读取照片中的文本(如收据),识别物体,并提供即时视觉数据分析。 用户也可以请求生成图像或动画照片,用于社交媒体内容、标志设计或生日卡片制作。 浏览器集成与网页交互:Alice AI将很快深度集成到Yandex Browser中,能够利用活动标签页中的信息(无论是文本文档还是视频)来回答问题。 例如,用户可以直接询问一个500页的PDF报告中是否包含6月的销售数据,或者询问关于黑洞视频中讲师提到的内容。 城市服务与AI代理:Alice AI即将帮助城市居民预订出租车、安排送货、订购食物或杂货。 当用户提出请求时,AI代理会分析需求,确定能够处理任务的服务,并连接相应的代理——出租车、食品、 Lavka或送货。 04 “我的记忆”,前瞻性功能重新定义个人助手 Alice AI即将推出的“我的记忆”(My Memory)功能,将更进一步改变用户与AI的互动方式。 这一功能让Alice AI能够将用户随意思考的想法和想法转化为待办事项列表、购物清单、笔记和提醒,所有这些都直接呈现在聊天界面中。 用户可以在行动中向Alice AI口述任务,它会记住所有内容,进行组织,并在适当时机提醒重要事项。 Yandex还宣布了搭载Alice AI的可穿戴AI设备,使用户无需智能手机即可随时记录想法和想法。 这些设备将专注于“我的记忆”服务,让用户能够随时随地通过语音与Alice AI交互。 05 对比传统聊天机器人,Alice AI的突破 与传统聊天机器人相比,Alice AI在多个方面实现了技术突破。 传统聊天机器人如ALICE主要依赖于启发式模式匹配和AIML规则,需要大量人工编写的模板。 而Alice AI基于大规模训练的神经网络,能够理解更复杂的查询并生成更自然的回应。 传统系统多数仅限于文本对话,而Alice AI提供多模态交互,包括文本、图像、视频和语音。 最显著的进步在于,传统聊天机器人主要用于信息查询或简单任务,而Alice AI能够通过AI代理执行端到端的实际任务,从信息收集到最终结果。 从简单的模式匹配到复杂的多模态交互,从回答问题到执行任务——Alice AI代表了聊天机器人技术的又一次飞跃。 随着AI代理和“我的记忆”功能的推出,Alice AI正逐步从一个对话工具演变为一个能够理解、预测并满足用户需求的真正个人助手。 技术专家指出,未来的聊天机器人将不再局限于回答问题的角色,而是成为人类与数字设备交互的重要桥梁。 Alice AI正是这一趋势的领先代表,它正在重新定义我们与技术共存的方式。

1 个月前
2025年10月28日,PayPal宣布已与OpenAI签署合作协议,从2026年起,PayPal的数字钱包将嵌入ChatGPT,允许用户直接在该聊天机器人中完成购物支付。 PayPal首席执行官亚历克斯・克里斯表示,这项协议于上周末敲定。届时,使用PayPal服务的商家,其商品将可在ChatGPT被发现,且无需搭建集成系统,PayPal将在后台处理商家路由与支付。用户可使用PayPal钱包结账,享受买卖双方保护及纠纷解决服务,PayPal还将通过独立支付API处理ChatGPT内的银行卡支付。 此次合作PayPal将采用智能体商业协议(ACP)并结合OpenAI的“即时结账”功能。ACP是OpenAI开发的开源规范,可助力商家在AI应用中展示商品,方便用户通过AI智能体购物。OpenAI于9月推出的“即时结账”功能,能让用户在不离开ChatGPT的情况下确认订单、物流及支付信息并完成购买。 受此消息影响,PayPal盘前一度大涨超15%。此次合作标志着OpenAI在将ChatGPT拓展至电子商务领域方面迈出新一步,也被视为开启了一种由“代理式AI”驱动的全新购物模式。

1 个月前
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型(VLM),旨在探索“光学上下文压缩”(Contexts Optical Compression)的创新范式。它不是传统的 OCR(光学字符识别)工具,而是将视觉编码视为文本信息的压缩层,帮助大型语言模型(LLM)更高效地处理长文档、图像和多模态数据。 该模型的灵感来源于“一图胜千言”的理念,通过将文本转化为视觉表示,实现显著的令牌(token)减少,同时保持高准确性。 核心创新与架构 DeepSeek OCR 的核心思想是将文本作为图像处理,从而实现高效压缩: 视觉-文本压缩:传统 LLM 处理 1000 字文档可能需要数千个文本令牌,而 DeepSeek OCR 通过视觉编码器将图像压缩为更少的视觉令牌(可减少 7-20 倍),然后解码回文本。测试显示,它能保留 97% 的原始信息。 双阶段架构: DeepEncoder:视觉编码器,负责图像处理,包括文档、图表、化学分子和简单几何图形。它基于先进的视觉模型(如 Vary、GOT-OCR2.0 和 PaddleOCR 的灵感),高效提取特征。 DeepSeek-3B-MoE:解码器,使用混合专家模型(MoE,激活参数仅 5.7 亿),生成文本输出。整个模型大小约为 6.6 GB,运行速度快、内存占用低。 多功能扩展:除了基本 OCR,它支持解析图表(生成 Markdown 表格和图表)、化学公式、几何图形,甚至自然图像。深解析模式(Deep Parsing Mode)特别适用于金融图表等结构化数据。 该模型在 OmniDocBench 等基准测试中达到了端到端模型的 SOTA(最先进)性能,优于 MinerU 2.0 和 GOT-OCR2.0 等更重的模型,同时视觉令牌使用最少。 它还支持 vLLM(虚拟 LLM 推理引擎),便于批量处理。 优势与应用场景 效率提升:减少计算成本,适合处理长上下文(如聊天历史或长文档)。例如,将旧对话“低分辨率”存储为图像,模拟人类记忆衰减机制。 实用性:在 OCR 之外,它能处理复杂视觉任务,如从图像中提取结构化数据,而非简单文本复制。 开源与易用:模型托管在 Hugging Face(deepseek-ai/DeepSeek-OCR),支持 PyTorch 和 CUDA。GitHub 仓库提供完整代码和示例。 局限性:作为实验性模型,对简单矢量图形解析仍有挑战;输出有时可能出现幻觉(如中文符号混入英文响应)。 如何使用(快速入门) 安装依赖:克隆 GitHub 仓库(git clone https://github.com/deepseek-ai/DeepSeek-OCR.git),安装 Transformers 和 vLLM。 Python 示例(使用 Hugging Face): from transformers import AutoModel, AutoTokenizer from PIL import Image import torch model_name = 'deepseek-ai/DeepSeek-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda().eval() # 加载图像 image = Image.open("your_image.png").convert("RGB") # 提示(prompt) prompt = "<image>\nFree OCR." # 或其他任务提示,如 "<image>\nParse chart." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) inputs["image"] = image # 添加图像 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 这将从图像中提取并输出文本。 DeepSeek OCR 代表了 OCR 从“文本提取”向“多模态压缩”转型的趋势,对于 AI 研究者和开发者来说,是一个值得关注的开源工具。

1 个月前
2025年10月14日,沃尔玛宣布与OpenAI达成一项新的合作伙伴关系: 合作内容:消费者将能够通过AI聊天机器人ChatGPT直接购买沃尔玛的商品,包括杂货(不含生鲜食品)、家庭日用品等,并实现即时结账。山姆会员店会员还可在与AI对话过程中规划膳食、补充日常必需品,并发现新的商品。顾客需先将沃尔玛账户与ChatGPT应用进行绑定,之后在购物时点击ChatGPT应用内的“购买”按钮即可完成下单。该功能计划在今年秋季晚些时候正式上线,届时也将支持第三方卖家的商品。 合作意义:此次合作将帮助零售商更深入地了解并预测客户需求,从而让线上购物体验变得更加个性化和主动化,不再仅仅是被动响应用户搜索。 双方合作基础:沃尔玛与OpenAI在其他业务领域已有合作基础,其内部团队已采用OpenAI认证课程及ChatGPT Enterprise企业版工具。 沃尔玛的AI布局:除了与OpenAI的合作,沃尔玛还推出了自研的生成式AI购物助手“Sparky”,旨在帮助顾客发现、比较商品并完成购买。未来,该功能将进一步扩展,支持自动复购、服务预约,并能理解来自文本、图像、音频和视频等多模态输入信息。

4 个月前
大模型的范式(paradigm)是指支撑其设计、训练和应用的核心方法论或框架,反映了其处理问题的基本模式。这一概念可以从多个维度理解,以下是关键要点: 1. 技术范式 自监督学习 大模型的核心训练方式,通过海量无标注数据(如文本、图像)进行预训练,利用掩码语言建模(如BERT)、自回归生成(如GPT)等任务学习通用表示。 规模化(Scaling Laws) 遵循"规模效应":模型参数量、数据量和算力同步扩大时,性能显著提升(如Chinchilla定律)。 Transformer架构 基于自注意力机制(Self-Attention)的模型结构,支持并行计算和长程依赖建模,成为大模型的基础骨架。 2. 功能范式 预训练+微调(Pretrain-Finetune) 先在通用数据上预训练,再针对下游任务微调(如分类、生成)。例如,BERT通过附加任务层适配不同场景。 提示学习(Prompt Learning) 通过设计自然语言提示(Prompt)激发模型潜能,减少微调需求(如GPT-3的few-shot learning)。 多模态统一建模 将文本、图像、视频等映射到统一语义空间(如CLIP、Flamingo),实现跨模态理解与生成。 3. 应用范式 生成式AI(Generative AI) 大模型的核心能力转向生成内容(文本、代码、图像等),如ChatGPT的对话生成、Stable Diffusion的图像合成。 AI即服务(AIaaS) 通过API或开放平台提供模型能力(如OpenAI API),降低技术使用门槛。 智能体(Agent)架构 大模型作为"大脑",结合工具调用(Tool Use)、记忆和规划,实现复杂任务自动化(如AutoGPT)。 4. 生态范式 开源与闭源并存 开源模型(如LLaMA、Stable Diffusion)推动社区创新,闭源模型(如GPT-4)侧重商业化。 数据飞轮效应 用户反馈数据持续优化模型,形成闭环(如ChatGPT基于人类反馈的强化学习RLHF)。 垂直领域适配 通用大模型通过领域适配(如医学、法律)释放专业价值(如Med-PaLM)。 5. 挑战与演进方向 效率问题:模型压缩(如量化、蒸馏)、稀疏化(如Mixture of Experts)。 对齐(Alignment):确保模型行为符合人类价值观(如RLHF技术)。 新架构探索:超越Transformer的潜在方案(如RWKV、Mamba等状态空间模型)。 总结 大模型的范式本质是通过规模化预训练获得通用能力,再通过灵活适配解决多样任务,其发展正从单一语言模型转向多模态、交互式、智能体化的综合系统。这一范式正在重塑AI研发和应用的基本逻辑。

7 个月前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI