Aleph Alpha无分词器LLM架构创新与应用解析
1️⃣ 创新架构:突破传统分词限制
德国Aleph Alpha公司推出无分词器(tokenizer-free)LLM架构,通过分层字符-词语处理机制解决传统模型痛点:
技术原理:采用轻量级字符编码器将字符序列直接转化为词嵌入,经主干模型处理后由紧凑解码器还原为字符,避免传统分词对低频语言及专业术语的割裂。
核心优势:支持多字母系统(如西里尔文、特殊符号)、小语种及垂直领域知识(法律/医疗术语),训练数据与计算需求降低70%,显著减少碳排放。
2️⃣ 技术联盟:优化生态与可持续性
联合AMD、SiloAI及Schwarz Digits构建技术生态:
AMD提供硬件支持:通过优化芯片架构与云资源提升算力效率;
SiloAI协同算法开发:压缩模型规模并加速推理过程;
商业场景验证:Lidl母公司数字部门推动零售等行业的本地化应用测试。
3️⃣ 欧洲中心战略:深耕专业与政务市场
聚焦欧洲多语言与合规需求,推出两大方向:
政府智能化:开发专用AI操作系统"Pharia",强化公共数据安全与多语言服务能力;
垂直领域渗透:针对金融、医疗等专业场景提供低能耗、高精度模型,规避依赖GPT系列的数据出境风险。
意义:该架构通过技术底层革新,降低LLM进入门槛,推动欧洲本土AI生态独立发展,同时以环保效益回应全球可持续计算趋势。
20 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
人工智能是汉诺威工业展上的主导主题 微软正在推出创新助手,旨在显著简化工厂的工作流程。在近日开幕的2025汉诺威工业博览会上,微软展示了可广泛应用于工业领域的具有人工智能的创新虚拟助手。该软件公司在此次展会上展示的新产品之一是“工厂运营代理”(Factory Operations Agent)。 据该公司介绍,这是一个人工智能助手,旨在优化工厂车间的流程。例如,该解决方案使工人能够通过使用自然语言查询来分析机器的数据。 “负责任的经理”将能够优化制造流程。人工智能助手还可以比以前更轻松地识别错误来源并解决问题。 微软德国公司董事总经理阿格尼丝·赫夫伯格在汉诺威工业博览会开幕式上表示,人工智能已经走出了测试和实验阶段,正在工业领域得到广泛应用。 “我们必须毫不犹豫地引入人工智能,否则德国将在国际竞争中落后。我们必须让数据宝藏为人工智能所用。” 德国人工智能已经存在 根据德国数字协会Bitkom的一项代表性调查,42%的德国工业企业已经在生产中使用人工智能,另有三分之一(35%)有相应计划。其中包括机器的监控、机器人和车辆的控制以及能源消耗的优化:这项调查是在德国 552 家拥有 100 名或更多员工的工业制造公司中进行的。82%的公司认同人工智能的使用对于德国工业的竞争力至关重要。 然而,近一半(46%)的人认为德国工业界可能会错过人工智能革命。微软与谷歌、Meta、亚马逊并列成为全球领先的人工智能系统提供商,部分原因是微软首席执行官萨蒂亚·纳德拉早期投资数十亿美元与加州人工智能初创公司OpenAI及其开发的聊天机器人ChatGPT进行全面合作。 (资讯来源: tagesschau.de, 图片来源: heise.de)
1 个月前
谷歌大模型与人脑语言处理机制研究由谷歌研究院与普林斯顿大学、纽约大学等合作开展。3 月上旬,谷歌的研究成果表明大模型竟意外对应人脑语言处理机制。他们将真实对话中的人脑活动与语音到文本 LLM 的内部嵌入进行比较,发现两者在线性相关关系上表现显著,如语言理解顺序(语音到词义)、生成顺序(计划、发音、听到自己声音)以及上下文预测单词等方面都有惊人的一致性 研究方法:将真实对话中的人脑活动与语音到文本LLM的内部嵌入进行比较。使用皮层电图记录参与者在开放式真实对话时语音生成和理解过程中的神经信号,同时从Whisper中提取低级声学、中级语音和上下文单词嵌入,开发编码模型将这些嵌入词线性映射到大脑活动上。 具体发现 语言理解与生成顺序:在语言理解过程中,首先是语音嵌入预测沿颞上回(STG)的语音区域的皮层活动,几百毫秒后,语言嵌入预测布罗卡区(位于额下回;IFG)的皮层活动。在语言生成过程中,顺序则相反,先由语言嵌入预测布罗卡区的皮层活动,几百毫秒后,语音嵌入预测运动皮层(MC)的神经活动,最后,在说话者发音后,语音嵌入预测STG听觉区域的神经活动。这反映了神经处理的顺序,即先在语言区计划说什么,然后在运动区决定如何发音,最后在感知语音区监测说了什么。 神经活动与嵌入的关系:对于听到或说出的每个单词,从语音到文本模型中提取语音嵌入和基于单词的语言嵌入,通过估计线性变换,可以根据这些嵌入预测每次对话中每个单词的大脑神经信号。全脑分析的定量结果显示,在语音生成和语音理解过程中,不同脑区的神经活动与语音嵌入和语言嵌入的峰值存在特定的先后顺序和对应关系。 “软层次”概念:尽管大模型在并行层中处理单词,人类大脑以串行方式处理它们,但反映了类似的统计规律。大脑中较低级别的声学处理和较高级别的语义处理部分重叠,即存在“软层次”概念。例如,像IFG这样的语言区域不仅处理单词级别的语义和句法信息,也捕捉较低级别的听觉特征;而像STG这样的低阶语音区域在优先处理声学和音素的同时,也能捕捉单词级别的信息。 以往相关研究成果 2022年发表在《自然神经科学》上的论文显示,听者大脑的语言区域会尝试在下一个单词说出之前对其进行预测,且在单词发音前对预测的信心会改变在单词发音后的惊讶程度(预测误差),证明了自回归语言模型与人脑共有的起始前预测、起始后惊讶和基于嵌入的上下文表征等基本计算原理。 发表在《自然通讯》的论文发现,大模型的嵌入空间几何图形所捕捉到的自然语言中单词之间的关系,与大脑在语言区诱导的表征(即大脑嵌入)的几何图形一致。 后续研究还发现,虽然跨层非线性变换在LLMs和人脑语言区中相似,但实现方式不同。Transformer架构可同时处理成百上千个单词,而人脑语言区似乎是按顺序、逐字、循环和时间来分析语言。 总之,该研究表明,语音到文本模型嵌入为理解自然对话过程中语言处理的神经基础提供了一个连贯的框架,尽管大模型与人脑在底层神经回路架构上存在明显不同,但在处理自然语言时有着一些相似的计算原则。
1 个月前
这项研究由科布伦茨应用科学大学和波恩大学医院的医学研究人员团队完成,他们开发了一种名为 OptAB 的 AI 模型,用于个体化和优化地选择治疗败血症的抗生素。该模型完全基于 AI 数据驱动,并特别注重在考虑副作用的情况下,为败血症患者选择最合适的抗生素。其目标是最大化治疗成功率,同时显著降低治疗过程中的副作用。 此外,这一研究得到了莱法州卫生部门的资助,并被认为是首个能够为败血症患者提供个性化抗生素优化选择的在线模型。由于败血症治疗开始时病原体通常未知,医生常常依赖广谱抗生素,而 OptAB 模型可以通过分析患者的临床数据、病原体信息及药物敏感性,帮助医生快速制定更精准的治疗方案。相关成果已发表在医学期刊《npj·digital medicine》上。 据开发人员称,该 AI 模型是使用历史败血症病例的数据创建的,是世界上第一个此类 AI 模型。找到正确的药物组合来治疗败血症可以大大增加康复的机会,并消除对可能导致严重副作用的广谱药物治疗的需求。 (资讯来源:德国联邦外贸与投资署)
1 个月前
2025 年 3 月 12 日,清华大学 NLP 实验室联手中南大学等提出 APB 序列并行推理框架,可解决长上下文远距离语义依赖问题,在 128K 文本上比 Flash Attention 快约 10 倍。
1 个月前
在自然语言处理和人工智能领域,token通常是指文本中的基本单元,比如一个单词、一个标点符号或者一个子词等。100万token的输入输出量是一个较大的数据规模,以下从不同角度来理解这一概念: 从文本长度角度 一般来说,英文中一个单词可以看作一个token,中文可能一个字或一个词作为一个token。如果平均每个token对应5个字符(这只是一个粗略的估计,实际会因语言、文本类型等因素而不同),那么100万token大约对应500万个字符。以一本普通的中文书籍每页约1000字来算,500万个字符相当于5000页的书籍内容,这是非常庞大的文本量。 从处理难度角度 对于语言模型等人工智能系统来说,处理100万token的输入输出意味着要处理大量的信息。模型需要在这么多的token中理解语义、语法关系,捕捉上下文信息等,这对模型的容量、计算能力和算法设计都提出了很高的要求。模型需要有足够多的参数和足够深的网络结构,才能有效地处理如此大规模的文本数据,以生成准确、合理的输出。 处理如此大量的token还需要消耗大量的计算资源和时间。在训练过程中,可能需要使用高性能的GPU或TPU集群,花费数天甚至数周的时间才能完成训练。在推理阶段,也需要较多的计算资源来快速处理输入并生成输出,以满足实时性或高效性的要求。 从应用场景角度 机器翻译:如果用于机器翻译任务,100万token可能包含了各种领域的大量句子和段落。这意味着模型可以学习到丰富的语言表达方式和翻译模式,能够处理更复杂、更专业的翻译任务,提高翻译的准确性和质量。 文本生成:在文本生成任务中,如创作小说、新闻报道等,100万token的输入可以让模型学习到大量的文本风格、主题和结构信息,从而生成更丰富多样、更具创意和逻辑性的文本内容。 智能客服:对于智能客服系统,100万token的输入输出量可以使系统处理大量的用户咨询和问题,学习到各种常见问题的回答模式和解决方案,从而更准确、更快速地为用户提供服务,提高用户满意度。
1 个月前
delphi GmbH 是一家成立于 2001 年的德国创新型企业,总部位于德国,专注于健康促进和预防领域。自创立以来,公司从最初的药物滥用预防和咨询服务起步,逐步发展为一家将科学研究、数字化技术与实践应用相结合的行业先锋。近年来,delphi GmbH 在人工智能(AI)领域的投入尤为突出,其标志性项目之一——SuchtGPT,充分展示了公司在健康服务中应用AI的雄心与能力。 公司概况与核心业务 delphi GmbH 的使命是通过科学方法和创新手段提升人们的健康与福祉。公司业务涵盖在线咨询与干预项目、项目评估与研究、健康信息传播以及创新项目开发。其团队由心理学、公共健康、社会工作等领域的专家组成,强调将理论知识转化为实际解决方案。服务的客户包括公共机构和私营企业,业务范围覆盖德国及相关合作网络。 delphi 的核心价值体现在四个方面:科学性(以实证研究为基础)、实用性(贴近实际需求)、数字化(利用现代技术接触广泛人群)以及合作性(与客户共同制定策略)。这些理念不仅贯穿其传统健康服务,也为其AI相关业务奠定了基础。 AI业务:SuchtGPT 项目 在人工智能领域,delphi GmbH 的代表性项目是 SuchtGPT(“Gestaltung, Programmierung und Testung eines KI-basierten Chatbots für Suchtfragen” 的缩写,意为“设计、编程和测试用于毒瘾问题的AI聊天机器人”)。该项目由德国联邦卫生部(Bundesministerium für Gesundheit, BMG)资助,旨在开发一个基于AI的聊天机器人,为用户提供毒瘾相关问题的低门槛、匿名支持。 SuchtGPT 的目标是通过一个符合欧盟数据保护标准(DSGVO-konform)的数字化工具,帮助用户获取信息或引导他们进入专业戒毒体系。项目利用大型语言模型(Large Language Model, LLM),结合毒瘾领域的专业知识和沟通技巧,使聊天机器人能够独立、准确地回答用户提问。开发过程采用参与式方法,广泛吸纳毒瘾救助领域的利益相关者(如专业协会、戒毒机构和政策制定者)的意见,确保工具的实用性。 项目实施分为多个阶段:前期技术框架搭建与背景研究、原型开发与测试、以及基于数据分析的持续优化。截至 2025 年 3 月,SuchtGPT 仍处于开发阶段。2025 年 1 月 15 日,项目团队举办了一场数字化信息活动,向超过 250 名参与者展示了项目规划和生成式AI的应用成果。更多进展可通过其官网跟踪。 AI与健康服务的融合 SuchtGPT 项目不仅体现了 delphi 在AI技术上的投入,也延续了其在数字化健康服务领域的专长。公司通过在线咨询平台、健康教育工具等积累了丰富的经验,而 AI 的引入进一步扩展了服务的广度和深度。例如,SuchtGPT 的聊天机器人旨在以更高效、智能的方式触达需要帮助的人群,同时保持服务的科学性和可靠性。这种将AI与健康促进相结合的模式,凸显了 delphi 在行业中的前瞻性。 团队与合作伙伴 delphi 的 AI 项目由一支跨学科团队推动,成员包括心理学专家、技术开发人员和数据分析师。在 SuchtGPT 项目中,公司与 nexus Institut 等合作伙伴协作,负责参与流程的执行,同时依托 IT 与 AI 专家确保技术实现的高标准。这种合作模式也反映了 delphi 一贯强调的“协作性”理念。 总结 delphi GmbH 是一家在健康促进领域深耕多年的德国企业,以科学性与实用性著称。近年来,公司通过 SuchtGPT 等项目,积极探索人工智能在健康服务中的应用,致力于为毒瘾等问题提供创新、数字化的解决方案。凭借其专业团队和与时俱进的技术战略,delphi 在德国乃至全球的健康科技领域占据了重要地位。 这家企业不仅是健康促进的践行者,更是 AI 技术在公共福祉领域应用的先锋。未来,随着项目的推进,delphi 的影响力有望进一步扩大。 (信息来源:dephi官网)
1 个月前
德国Comarch ERP Enterprise 是一款全面的企业资源规划 (ERP) 系统,专为寻求在流程方面提高 ERP 系统用户技术进步水平的企业而设计。它是一款现代化的 ERP 系统,具有高度的灵活性和可扩展性,能够满足各种规模和行业的企业的需求。 Comarch企业软件公司最近撰文:“ChatERP: Quantensprung im Enterprise-Resource-Planning”,即ChatERP在企业资源规划中的巨大进步。这份白皮书提到ERP系统是企业的核心,整合了关键业务流程和数据。过去,AI在ERP中的应用成本高且复杂,主要适用于大企业。但生成式AI和大型语言模型(如ChatGPT)的出现改变了这一状况,使得中小企业也能利用AI提升竞争力。这里的关键点是生成式AI降低了使用门槛,使得ERP中的AI助手变得可行。 1. 引言与背景 ERP系统的重要性:作为企业核心,整合关键业务流程(生产、采购、销售等)及数据(客户、订单、库存等)。AI在ERP中的演变:传统AI(如机器学习)成本高、数据需求大,仅适用于大企业;生成式AI(如ChatGPT)通过大型语言模型(LLM)降低门槛,使中小企业也能利用AI提升竞争力。ChatERP的定位:Comarch ERP Enterprise(6.4+版本)内置的多语言AI助手,通过自然语言交互革新ERP使用方式。 2. 改善可用性与降低使用障碍 自然语言交互:用户可通过对话形式与ERP系统互动,支持多语言,会话上下文感知。 动态帮助系统:基于RAG(检索增强生成)技术,AI助手深度理解ERP系统细节,无需额外训练。替代静态文档,提供实时、步骤化指导(如创建新文章、导航功能)。 降低学习成本:新用户快速上手,缩短培训时间;有经验用户更快掌握新功能。减少对IT支持的依赖,释放IT团队资源用于创新任务。 3. 通过语音/文本命令高效控制应用 多模态交互:支持传统UI操作与语音/文本指令结合,提升效率。应用场景: 快速导航:直接跳转深层功能(如“打开分类为家居用品的文章”)。数据操作:创建/打开记录(如“为Mustermann公司新建订单”并预填数据)。自动化任务:处理重复性工作(数据清理),但关键操作需人工审核。 类似消费级助手(如Siri):但针对企业复杂场景优化,通过API集成ERP功能。 4. 通过聊天探索ERP数据价值 数据查询与分析: 自然语言生成报告(如“显示上季度各地区销售额”),自动生成图表或摘要。预测与洞察:销售趋势预测、库存优化建议。 降低数据分析门槛:非技术用户无需复杂技能即可获取业务洞察,支持数据驱动决策。 5. 安全与合规 权限管理:通过架构设计确保数据访问合规性(如Berechtigungen权限控制)。数据隐私:企业数据仅用于内部处理,符合GDPR等法规。 6. 实施建议与结论 采用策略: 选择兼容现有系统的AI助手(如ChatERP),分阶段部署,从小任务开始。培训员工适应新交互方式,结合传统与AI操作以最大化效率。 未来潜力: 持续优化AI模型,扩展应用场景(如供应链优化、客户行为分析)。推动ERP从“记录系统”向“智能决策支持系统”转型。 核心价值总结: ChatERP通过自然语言交互、动态帮助、语音控制及智能数据分析,显著提升ERP系统的易用性、效率和决策支持能力,尤其助力中小企业以更低成本实现数字化转型。
1 个月前
埃隆·马斯克领导的美国政府效率部(DOGE)正在开发一款名为 AutoRIF(Automated Reduction in Force)的自动裁员软件,旨在帮助美国政府大规模“精简”工作人员。 AutoRIF 最初由美国国防部在二十多年前开发,已多次更新,并被多个机构用于加速裁员进程。目前,DOGE 的工程师,包括前特斯拉工程师 Riccardo Biasini,正在对 AutoRIF 的代码进行编辑。传统上,裁员由人力资源官员手动处理,首先针对试用期员工。然而,随着新软件和人工智能的使用,政府员工担心未来可能会更大规模、更快速地进行裁员。 最近,美国人事管理办公室(OPM)向政府工作人员发送电子邮件,要求他们列出每周的工作成果,这些信息据称将被输入大型语言模型(LLM)以评估员工的必要性。一些机构,如联邦调查局(FBI),建议员工不要回复这些电子邮件。目前尚不清楚 DOGE 对 AutoRIF 的具体改动内容。 此外,DOGE 的一系列举措显示,第二轮大规模裁员可能更加迅猛。 然而,值得注意的是,政府效率部的举措可能触及根深蒂固的既得利益政治势力,在美国政治极化和两党矛盾激化的背景下,马斯克作为部门领导人可能面临挑战。 总而言之,DOGE 正在推进 AutoRIF 软件的开发,以实现政府裁员的自动化和高效化,但这一过程也引发了对法律、隐私和道德方面的担忧。 (资讯来源:wired.com)
2 个月前
由斯坦福大学教授 Stefano Ermon 创立的初创公司 Inception Labs 推出了 Mercury Coder,这是第一个大规模基于扩散的语言模型 (dLLM)。与按顺序生成文本的传统大型语言模型 (LLM) 不同,Mercury Coder 使用扩散方法同时处理整个序列,类似于 AI 图像和视频生成。结果:该模型声称比现有模型快十倍,运行成本也明显降低。 产品要点: Mercury Coder 是第一个基于扩散的大型语言模型 (dLLM),它使用粗到细的方法生成文本,而不是按顺序预测标记。 它的速度比传统 LLM 快 10 倍,在 NVIDIA H100 GPU 上每秒生成超过 1000 个Token。 早期的基准测试表明,Mercury Coder 可与 GPT-4o Mini 和 Claude 3.5 Haiku 等模型相媲美,同时更具成本效益。 该模型基于斯坦福大学教授 Stefano Ermon 的研究,使用了一种不同的方法——从文本的粗略估计开始,然后并行进行提炼,类似于 Midjourney 和 OpenAI 的 Sora 等 AI 图像和视频生成器的运行方式。 据 Inception Labs 称,Mercury Coder 不仅与众不同,而且速度要快得多。该公司声称该模型可以在 NVIDIA H100 上每秒生成超过 1000 个Token,这种速度通常需要 Groq 或 Cerebras 等专用硬件加速器。该方法还降低了计算成本,使其成为希望优化 AI 基础设施的企业的一个引人注目的选择。 早期基准测试表明,Mercury Coder 的性能可与领先的 LLM 相媲美。在头对头编码评估中,该模型与速度优化模型(如 OpenAI 的 GPT-4o Mini 和 Anthropic的 Claude 3.5 Haiku)相当或优于速度优化模型,同时运行延迟仅为其一小部分。如果这些结果在实际应用中是一致的,那么 dLLM 可以提供传统 LLM 的可行替代方案,尤其是在需要高速响应的场景中,例如客户支持、代码生成和企业自动化。 行业领导者正在注意到这一点。AI 研究员 Andrej Karpathy 指出,Mercury Coder 的扩散方法与常态不同,他指出:“为什么文本生成抵制扩散,而图像和视频生成却接受了它,这一直是个谜。这个模型可以揭示 AI 文本生成的新优势和劣势。 目前,Inception Labs 将 Mercury Coder 定位为现有模型的直接替代方案,提供 API 访问和本地部署。该公司已经与希望减少 AI 延迟和成本的财富 100 强企业合作。Inception 还提及了未来的 dLLM 版本,包括针对对话式 AI 优化的模型。 基于扩散的 LLM 是否会成为传统模型的严重竞争对手还有待观察。但借助 Mercury Coder,Inception Labs 提出了一个令人信服的案例,即 AI 文本生成不必受到当今主流模型中顺序架构的限制。 (资讯来源:Maginative)