当前我们说的 LLM,一般代指以 ChatGPT 为代表的基于 Generative Pre-trained Transformer 架构的自然语言处理神经网络模型。顾名思义,它是个以预训练技术为核心的模型,是个生成模型。同时它是Transformer这个编码-解码模型的解码部分。
大语言模型基本逻辑,就是这张图的右边部分。到了这里,非基础研究、应用研究的同学就开始在听天书了。读这篇文章的这一部分,大家是为了’学到‘知识,而不是为了’被懂算法的同学咬文嚼字扣细节给自己听,被秀一脸,留下自己一脸茫然‘。大家的目标是‘学习’为首,‘准确’为辅。那我就用不嗑细节的‘人话’跟大家讲一讲,什么是自然语言处理大模型。虽然,这些内容就仅仅是’毕业生面试应用研究岗位必须完全答对‘的档次,但是,‘知之为知之,不知为不知,是知也’,大家如果不懂,是应该看一看的。
1 编解码与表示学习
什么是自编码器(autoencoder,encoder-decoder model)?通俗地说,用拍摄设备,录制视频,录制成了 mp4 文件,就是采集并且 encode;你的手机视频播放器播放这个视频,就是 decode 视频并且播放。做 encode-decode 的模型,就是编码-解码模型。很明显,编码模型和解码模型是两个模型,但是,他们是配对使用的。你不能编码出一个.avi 文件,然后用只支持.mp4 的解码器去解码。
在深度学习领域里,下面这个就是最简单的编码-解码模型示意图。f 函数是编码器,把输入 x 变成某个叫做 h 的东西,g 是解码函数,把编码出来的东西,解码成输出 r。
那么,最简单的编码器,就是什么都不干:f(x)=x,h=x,r=g(f(x))=h。输入‘Tom chase Jerry’,输出就是‘Tom chase Jerry’。显然,这样的字编码器不需要训练,并且,也没有任何用处。
如果,输入‘Tom chase Jerry’,输出是‘汤姆追逐杰瑞’,那么这个自编码器就完成了机器翻译的任务。我们人类可以做翻译,实际流程上,也跟这个差不多。那么,我们人类是怎么做到的呢?我们并不是以‘做翻译’为唯一的目标去学习语言的,我们会学习‘单词’、‘语法’、‘语言所表达的常识’这些语言之下最基础的‘特征’的‘表示’。当我们学会了被表达的事物和它在不同语言中的表示之后,我们就能做翻译这件事情了。我们仔细审视一下这个过程,我们至少做了两件事情:
1 ) 学会被各种语言所表示的‘东西’,这里我们称之为世界知识 (world knowledge),它包括事实性知识 (factual knowledge) 和常识 (commonsense)。其中包括,学会至少两门语言里表达世界知识的单词和语法。
2)学会按别人的要求去执行翻译这个任务。
那么,这两件事情的第一件,就是 GPT 的第二个单词,Pre-train(预训练)。我们就是要去学到‘Tom chase Jerry’这句话和其他无数句话在被拆解成世界性知识之后的‘表示’。
Transformer 就是一个专门用于自然语言处理的编码-解码器架构。编码器-解码器可以有很多不同的架构细节,就能得到不同的自编码架构,Transformer 是此刻看起来效果最好的,能很好地学到自然语言背后的特征,并且有足够大的模型容量。所谓模型容量,是指,有一些模型参数过多,就反而学不到特征,或者无法训练了,无法用于表示特别复杂的东西。
2 GPT
GPT 全称 Generative Pre-trained Transformer,前面讲了编解码,算是讲了一点点 Transformer,也讲了预训练、Pre-trained。那么,Generative 从何讲起?
我接着说人话。前面讲到了,编码器-解码器是两个不同的模型,就像你看视频,你的手机上并不需要视频录制、编辑软件,只需要一个解码-播放器一样。训练两个模型太麻烦,我们希望就围绕一个模型做研究,做训练。我们能不能不做编码,就围绕解码模型来达到一些目的呢?答案当然是可以的。
打个不严谨的比方。我现在想找人帮我画一幅肖像画。其实我并不懂怎么画画。于是,我请人给我画。我并不能从画工技艺、艺术审美方面去评判他画得好不好。但是,我是有能力去判断我请的人画出来的画是不是令我满意的。此时,我就是一个 decode-only 的模型。你会说,“你这个 decode-only 的模型必须要有一个懂 encode 的画师才能工作啊“。是的,我不懂画画。确实需要一个画师。
但是,你记得吗,OpenAI 训练 GPT3 的模型,就是给它海量的数据,让它去训练。那么,画师不教导我绘画技巧,只是不停的给我画肖像,并且,给我看肖像是否满意,我指出哪些地方不满意,他做出修改。这个事情干了一千万次,我是不是至少能学到‘当给我一幅没画好的我的肖像画,我知道应该怎么接着画下一笔‘?我不是从拆解好的理论体系里去学习的,我并不能叫出各种会画技法的名字,但是,我就是会做上面这件事情了。
相当于,我听到“GPT 是一个预训练模”,我就知道下一个字一定是“型”字一样。而因为我只擅长接着前面做好的事情完成接下来的事情,所以,我会‘生成’这个工作方式,同时,我也只会‘生成’这个工作方式。这就是 Generative 的意思。
总结一下,Generative 是被训练出来的模型的工作的方式,Transformer 是这个模型的架构,Pre-trained 是形容 Transformer 的,就是说训练这个模型,预训练是不可或缺的核心步骤。
3 巨量参数
有一个很重要的点,被训练完成的我,是如何知道没画完的肖像画的下一笔是应该怎么画的?就相当于你听到“今天天气很”之后,你是怎么知道下一个词是什么的?显然,你是靠猜测的。什么东西来支撑你的猜测?是你被训练了一百万次的经验。这些经验构成了什么?这些经验被你潜意识地总结成了一些规律。有一些规律确定性很高,有一些规律确定性很低。“今天天气很”后面接的字,确定性很低,“GPT 是一个预训练模”后面接的字确定性很高。
那么,你实际上就是学到了一个概率模型,这个概率模型其实是无数个场景的概率分布组合而成的概率模型。预测“今天天气很”的下一个词,是一个概率分布。“GPT 是一个预训练模”的下一个词是另一个概率分布。所以,从头学习机器学习、深度学习,就会知道,所有机器学习、深度学习模型都是概率模型,统计学是核心工具。
GPT3 的 paper讲,OpenAI 做的 GPT3 有 1750 亿参数。不管 paper 怎么说,实际上是如何做到的。你只是自己想象一下,想要记住足够全面的‘世界知识’,是不是至少要有足够大的'模型体积(模型容量)',即足够多的参数?更深入的研究还在继续进行,此刻,按照 GPT3 的 paper 来说,当参数量达到 1750 亿的时候,模型就能记住这个世界的‘世界知识’所需要的所有‘特征’的‘表示’了。每个参数用 16 位的浮点数保存,体积是 320GBytes。这个世界的‘世界知识’,被这 320G 的数据表示了。
我们在对话聊天的时候,如果说了一些自己觉得是常识,对方却不懂的时候,是不是对话就较难进行下去了?所以,为什么我们的模型需要这么多参数?因为它需要‘什么都懂’。如果我说我用 32M 规模的数据就记住了这个世界的常识,你是不是会觉得‘这显然不可能’?
4 GPT3 不等于 ChatGPT
前面已经讲了 Generative、Pre-trained、Transformer 这些概念。我们接着讲 ChatGPT。首先,GPT3 不等于 ChatGPT,GPT3 这个预训练模型,是 ChatGPT 的基础。回顾我们最开始讲的‘人如何学会翻译’至少需要两个步骤,第一步就是训练一个 GPT3 的预训练模型。有了这个模型之后,我们还要接着做一些训练,才能完成 ChatGPT。
我们首先来回顾一下 GPT1、GPT2。
GPT1 的 paper名字叫做,Improving Language Understanding by Generative Pre-Training,通过生成式预训练提升模型对语言的理解能力,这就是我们前面讲过的东西。但是,它还没达到很好的效果。我们想在 decoder-only 的模型里学到‘用语言呈现的世界知识’的'深层表示',初步证明这个方向有前途。
GPT2 的 paper名字叫做,Language Models are Unsupervised Multitask Learners。在这篇文章里,找到了让 GPT1 这个‘思想方法’达到很好的效果的技术手段,通过自监督学习。怎么个自监督法呢?就是我们手里有很多书籍、文章,我们通过给模型书籍的前 n 个字儿,让它猜测第 n+1 个字儿是什么,我们手里有正确的第 n+1 个字儿,让模型去不断纠正自己。模型为了达到更准确猜中第 n+1 个字儿的目标,就被迫‘学到’了潜在的‘世界知识’的表示。就像我们学到了语言的语法,记住了单词,掌握了世界的常识。实际上,我们交给模型的任务,都是‘猜下一个词’。但是计算‘56+21=’也是猜下一个词。
所以,又可以把猜下一个词分解为很多种猜词任务,数学计算就是其中一种。最后,证明了 GPT2 效果还不错。多说一句,上面这么搞,怎么就是自监督了呢?是否是‘有监督’学习,本身这个概念比较模糊,并不是一个科学的定义,只是大家习惯这么叫而已。我们约定俗成,把‘训练数据是经过精巧地设计,并且准备过程对人力成本较高’的训练,叫做有监督训练,否则就是无监督。我们只是把前人努力写的书做了一个调整给到模型,按照这个约定,应该属于无监督学习。但是,好像,我们又其实是在用人类努力的成果在训练它。所以,有人就开始称这种情况为‘自监督学习’。
接着,你就会想,深度学习是一门科学啊,怎么能对概念的定义搞得这么模糊不严谨?对,你说得没错,深度学习,在玩数学的人眼里,就是充满了不严谨,处在鄙视链的底端。但是,你挡不住深度学习应用的效果好呀。深度学习就是这么一系列‘不严谨’,充满了‘我不知道为什么,但是这么做效果就好’的方法。科学家们在努力地解释它为什么效果好,但是,这些研究远远追不上,找到‘效果更好,但是并不理解为什么效果好’的方法的步伐。对你自己的认知亦是如此,你有自我认知,那么,你的自我认知是怎么来的?“我是谁,我从哪里来,我要到哪里去?”
GPT3 的 paper名字叫做,Language Models are Few-Shot Learners。意思就是,在 GPT2 的思路的指导下,我们通过把参数增加到 1750 亿,真地学到了‘世界知识’!学到了这些潜在的‘表示/特征’之后,我们只需要再让模型学一个任务的少量几个 case,模型就能学进一步学到我们给的几个 case 里的潜在的'特征',即这几个 case 所表达的规律和逻辑。
但是,GPT3 掌握了知识,但是,它还不会干活呀。比如,你给它输入“给我写一段简介”,模型理解你确实说了“给我写一段简介”,但是,它此刻可以生成很多东西。比如生成一个“要简介限制在 120 个字以内”。它是个生成模型,把你说的话续写下去,也是一种生成啊!所以,我们还得教一个理解了我们的话模型,按照我们想要的方式去生成结果。就像,我们在进行一场对话。所以,就是 ChatGPT,chat+GPT。我们要进行聊天,本质上,就是让模型‘要能听懂我们的指令’。所以,OpenAI 接着又有一篇重磅论文Training language models to follow instructions with human feedback,它在 OpenAI 的官网上,是另一个名字Aligning language models to follow instructions。
顾名思义,就是要通过一些‘问题-回答’对的训练数据,让模型能在收到“给我写一段简介”这样的指令性的输入的时候,真地去按照指令的要求去生成接下来的东西。OpenAI 的标题里出现了一个词'Alignling(对齐)',你可以不管它。但是,理解了这个词,你才理解了‘制定对齐/指令微调’的核心技术。有兴趣,你可以接着看这个自然段,也可以不看,直接跳到下下一个自然段。
‘指令对齐’,就让掌握了知识的模型能按照我们想要的方式去生成更多的词了。达到这个效果的方法,讲起来,很硬核。为了说人话,我就打个比方。现在,我们有一个房间,里面有几百本书就像垃圾一样堆砌在一起。这就是预训练已经把隐藏特征学到了。我们应该怎么去整理这些书籍呢?这个问题,取决于,我们后续要如何使用这些书籍。我们可以按门类,去排列书籍,每一类书籍一个书架。也可以按照书名去排列书籍,所有书籍分别根据书名被放在按 A-Z 排列的的书架里。
所以,对齐,就是根据我们的目的,去整理模型学到了的知识。那么,为什么我们不用整理、重构之类的词,而用对齐呢?因为,我们知道模型学到了知识,但是,我们能看到这些表示,就是 1750 亿个参数,但是,人类看不懂它。就像,人类能看到自己的脑袋,但是脑袋里的神经元是如何联合在一起工作的,看不懂。
更具体的,‘1+1=2’这个知识,你知道它存储在你大脑里的具体哪个神经元上么?你当然不能。所以,我们没有细粒度的手段去整理书籍。有一个比较粗力度的手段,就是:按照我的需求,大概地把一些数据强行抓住首尾两本书,把它们压齐。你整理书籍,可以一本一本放。但是你没法去拿其中一本的时候,你当然可以从一对儿书的两端,用力压,被按照我们想要的方式挤压之后,书自己就变得更整齐了,对齐到了我们想要的结构。
我再打个比方,社会共识、常识,本身也是‘对齐’得来的。‘婚姻应该是自由恋爱的结果’,这个常识,不是从来如此的。是理性主义崛起之后,紧接着浪漫主义在 1900 年左右崛起,在 20 世纪才出现的。浪漫主义借由‘罗密欧与朱丽叶’之类的文艺作品广泛传播、得到认可,进而才把我们的常识‘对齐’成了这么一个结果。说得更远一点,习惯了中国文化的人在美国必然会被‘文化冲突’所困扰,也是因为,中国和美国其实都通过媒体把自己的常识对齐成了不同的‘形状’。‘对齐’无时无刻不在这个世界里发生。
实际上,模型每次只能生成一个词儿,那么,把问题和回答都当成字符串连接起来,结构是:输入[问题里所有的词][回答的前n个词儿],生成回答的第 N+1 个词儿。如果进行第二轮对话。输入就变成了:输入[第一个问题里所有的词][第一个回答的所有词][第二个问题的所有词][第二个问题的回答的前n个词],输出[第二个回答的第 N+1 个词]。至于模型如何知道哪一段是问题,哪一段是问题,这里不展开描述。
实际上,ChatGPT 的训练过程,可以看下面这张图:
至此,你知道了 GPT3 是 ChatGPT 这个‘技惊四座’的模型的基础。
文章来源:腾讯工程师公众号
20 天前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)
1 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
2 个月前
BERT(Bidirectional Encoder Representations from Transformers)是由Google于2018年发布的一种预训练语言模型,基于Transformer架构,用于自然语言处理(NLP)任务。它的双向(Bidirectional)上下文理解能力使其在文本理解、问答系统、文本分类等任务中表现卓越。 BERT的核心特点 1. 双向上下文理解 传统语言模型(如GPT)通常是单向的(从左到右或从右到左)。 BERT采用Masked Language Model(MLM,掩码语言模型),即在训练过程中随机遮挡部分词语,并让模型根据上下文预测这些被遮挡的词,从而实现双向理解。 2. 预训练+微调(Pre-training & Fine-tuning) 预训练(Pre-training):在海量无标注文本数据(如维基百科、BooksCorpus)上进行训练,使BERT学会通用的语言知识。 微调(Fine-tuning):针对具体任务(如情感分析、问答系统、命名实体识别)进行轻量级训练,只需少量数据,即可获得良好效果。 3. 基于Transformer架构 BERT使用多层Transformer编码器,通过自注意力(Self-Attention)机制高效建模文本中的远程依赖关系。 Transformer结构相比RNN和LSTM,更适合并行计算,处理长文本能力更强。 BERT的两大核心任务 Masked Language Model(MLM,掩码语言模型) 在训练时,随机遮挡输入文本中的15%单词,让模型根据上下文预测这些词。 这种方法使BERT学习到更深层次的语言表示能力。 Next Sentence Prediction(NSP,下一句预测) 让模型判断两个句子是否是相邻句: IsNext(相关):句子A和B是原始文本中相连的句子。 NotNext(无关):句子B是随机选择的,与A无关。 这一任务有助于提高BERT在问答、阅读理解等任务中的能力。 BERT的不同版本 BERT-Base:12层Transformer(L=12)、隐藏层768维(H=768)、12个自注意力头(A=12),总参数110M。 BERT-Large:24层Transformer(L=24)、隐藏层1024维(H=1024)、16个自注意力头(A=16),总参数340M。 DistilBERT:更小更快的BERT变体,参数量约为BERT的一半,但性能接近。 RoBERTa:改进版BERT,去除了NSP任务,并采用更大数据量进行训练,提高了性能。 BERT的应用 BERT可以应用于多种NLP任务,包括: 文本分类(如垃圾邮件检测、情感分析) 命名实体识别(NER)(如人名、地名、组织识别) 阅读理解(QA)(如SQuAD问答) 文本摘要 机器翻译 搜索引擎优化(SEO)(Google已将BERT用于搜索算法) BERT的影响 推动NLP进入预训练时代:BERT的成功引发了NLP领域的“预训练+微调”范式(如GPT、T5、XLNet等)。 提升搜索引擎性能:Google 在搜索引擎中使用BERT,提高查询理解能力。 加速AI技术发展:BERT的开源推动了自然语言处理技术在学术界和工业界的广泛应用。 总结 BERT是Transformer架构的双向预训练模型,通过MLM和NSP任务学习通用语言知识,在NLP领域取得巨大突破。它的成功奠定了现代大模型预训练+微调的范式,被广泛用于搜索、问答、文本分类等任务。
2 个月前
如何整合大模型API并提供开发者服务 随着人工智能技术的快速发展,越来越多的开发者希望在自己的应用中集成AI能力,如自然语言处理、图像生成、语音识别等。如果你计划搭建一个AI平台,并向开发者(B2C)提供AI API服务,那么本文将详细介绍如何整合现有大模型的API,并成为官方分销商。 1. 选择合适的大模型API 当前市场上已有多个强大的AI大模型提供API服务,以下是几家主流供应商: OpenAI(ChatGPT/GPT-4):适用于通用对话、文本生成、代码补全等。 Anthropic(Claude):擅长安全对话和长文本理解。 Google Gemini(原Bard):适合多模态(文本、图像)AI应用。 Mistral AI:提供高效、开源的AI模型,适合灵活集成。 Hugging Face:开放API,可用于多种NLP任务。 Stable Diffusion/DALL·E:用于图像生成。 Whisper API:优秀的语音识别能力。 选择API时,需要考虑成本、调用限制、商业许可、模型能力等因素。 2. 如何获得大模型API的分销权限? 如果你希望不仅是API的用户,还能将API分发给开发者,需要与AI公司建立更深层次的合作关系。不同公司有不同的合作方式: OpenAI(ChatGPT/GPT-4) 标准API使用:直接在OpenAI官网注册并获取API Key。 企业级API访问:通过 OpenAI Enterprise 申请更高额度的API。 成为OpenAI API Reseller(API分销商):需要直接联系OpenAI商务团队(sales@openai.com)并提供业务计划,通常要求较大的流量或消费额度。 Anthropic(Claude) 访问 Anthropic API 并申请企业合作。 需要提供详细的业务应用场景,并确保数据安全合规。 直接联系 sales@anthropic.com 申请API分销权限。 Google Gemini(原Bard) 使用 Google AI Studio 获取API。 申请Google Cloud AI企业级API,并与Google商务团队合作。 通过 Google Cloud AI Solutions 申请大规模API使用权限。 Mistral AI 访问 Mistral API 并申请企业级合作。 直接联系 Mistral 商务团队申请API分销许可。 Hugging Face 访问 Hugging Face Inference API。 联系 Hugging Face 申请企业API许可,并可能合作进行API优化。 3. 技术架构:如何整合多个API? 如果你希望提供一个集成多个AI API的服务平台,你需要构建一个API管理系统,包括: (1)API网关与管理 API网关(API Gateway):使用 Kong、AWS API Gateway、Apigee 统一管理所有API。 身份认证(Authentication):使用 JWT Token 或 OAuth2 进行用户管理。 负载均衡与缓存:结合 Redis 或 Cloudflare 优化API请求速度。 (2)用户管理与计费系统 API密钥管理:允许用户注册并申请API Key。 调用监控与限流:防止滥用,确保稳定性。 计费系统:使用 Stripe、PayPal 提供按量计费或订阅计划。 (3)前端支持与开发者体验 API文档:使用 Swagger UI 或 Redoc 提供清晰的API说明。 SDK支持:开发 Python/Node.js SDK 方便开发者集成。 在线测试环境:允许开发者在Web端试用API调用。 4. 商业模式:如何盈利? 如果你计划向开发者提供API服务,可以采用以下盈利模式: (1)免费+付费模式 提供 免费调用额度(如每月100次),超出后按量付费。 按不同模型提供不同的价格(GPT-4 高级版 vs GPT-3.5 免费版)。 (2)订阅模式 个人套餐:低价格,适合独立开发者。 企业套餐:支持高并发调用,并提供专属API密钥。 定制服务:为大型企业或团队提供专属AI API。 (3)增值服务 提供高优先级的API访问,减少延迟。 允许用户定制API模型参数,提高个性化。 结合其他工具,如AI自动化工作流、数据分析等。 5. 未来展望 随着AI技术的普及,越来越多的开发者希望将大模型能力集成到他们的产品中。如果你能整合多个AI API,并提供易用的开发者服务,将能在这一市场获得先机。通过与OpenAI、Anthropic、Google等公司建立合作,并搭建高效的API管理系统,你可以打造一个强大的AI API分发平台,为全球开发者提供优质的AI服务。 如果你有意向进入这一领域,不妨立即申请各大AI公司的企业级API,并开始搭建你的API分发平台!
2 个月前
Scaling Law 在人工智能领域的解释 Scaling Law(缩放定律)是人工智能(AI)领域中的一个核心概念,用于描述模型性能如何随着模型规模(如参数数量)、数据集大小和计算资源的增加而变化。这一规律通常遵循幂律关系,即模型性能随规模的增长呈指数或幂次提升,但提升速度会逐渐放缓并趋于上限。 核心概念 模型规模:包括模型的参数数量、层数等。例如,GPT系列模型通过不断增加参数数量实现了性能的显著提升。 数据集大小:训练数据的规模对模型性能有直接影响。更大的数据集通常能带来更好的泛化能力。 计算资源:包括训练所需的计算量(如GPU/TPU资源)和时间。计算资源的增加可以加速训练过程并提升模型性能。 幂律关系 Scaling Law 的核心是幂律关系,即模型性能 ( Y ) 与模型规模 ( X ) 的关系可以表示为 ( Y = kX^n ),其中 ( k ) 为常数,( n ) 为幂指数。例如,腾讯的 Hunyuan-Large 模型的 Scaling Law 公式为 ( C \approx 9.59ND + 2.3 \times 10^8D ),揭示了模型性能与参数数量和数据量的关系。 实践意义 资源优化:通过 Scaling Law,研究人员可以预测增加模型规模或计算资源是否能够带来显著的性能提升,从而优化资源配置。 模型设计:Scaling Law 为大规模模型的设计提供了理论支持,例如 OpenAI 的 GPT 系列和百度的 MoE 模型。 性能预测:帮助研究人员在资源有限的情况下,平衡模型规模、数据量和计算资源,以达到最佳性能。 应用实例 GPT 系列:OpenAI 通过系统性地增加模型规模,展示了 Scaling Law 在实践中的有效性。 Hunyuan-Large:腾讯的开源 MoE 模型,其 Scaling Law 公式为模型开发提供了重要指导。 迁移学习:斯坦福大学和谷歌的研究表明,预训练数据集大小与下游任务性能之间的关系也遵循 Scaling Law。 挑战与未来方向 数据资源枯竭:随着互联网数据的接近枯竭,Scaling Law 面临数据不足的挑战。 算法创新:当前 Transformer 架构的局限性促使研究人员探索更高效的算法,如 DeepSeek-R1-Zero 通过强化学习实现了突破。 新范式探索:Scaling Law 正在向后训练和推理阶段转移,研究重点从单纯追求规模转向优化数据质量和挖掘模型潜力。 结论 Scaling Law 是 AI 领域的重要理论工具,为大规模模型的设计和优化提供了科学依据。尽管面临数据资源和算法创新的挑战,但其在推动 AI 技术进步中的作用不可替代。未来,随着研究的深入,Scaling Law 的应用将更加精细化和多样化。
2 个月前
2月18日,阶跃星辰联合吉利汽车集团开源了两款阶跃Step系列多模态大模型——Step - Video - T2V视频生成模型和Step - Audio语音模型,采用MIT协议,支持免费商用、任意修改和衍生开发。 两款模型的具体信息如下: Step - Video - T2V 参数与生成能力:参数量达到300亿,可以直接生成204帧、540P分辨率的高质量视频,能确保生成的视频内容具有极高的信息密度和强大的一致性。 生成效果优势:在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出。对复杂运动场景把控能力强,能展现各种高难度运动画面;是运镜大师,支持多种镜头运动方式和景别切换;像“十级画师”,生成的人物形象逼真、生动,细节丰富,表情自然。 评测情况:阶跃星辰发布并开源了针对文生视频质量评测的新基准数据集Step - Video - T2V - Eval。评测结果显示,Step - Video - T2V的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现,均显著超过市面上既有的效果最佳的开源视频模型。 Step - Audio 功能特性:是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。可支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。 模型性能:在LlaMA Question、Web Questions等5大主流公开测试集中,模型性能均超过了行业内同类型开源模型,位列第一。在HSK - 6(汉语水平考试六级)评测中的表现尤为突出,被称为最懂中国话的开源语音交互大模型。阶跃星辰自建并开源了多维度评估体系StepEval - Audio - 360基准测试,经人工横评后,Step - Audio的模型能力均衡,在各个维度上均超过了此前市面上效果最佳的开源语音模型。
2 个月前
随着DeepSeek-R1的出现,相较于以往的大模型,带来了更先进的语义理解和数据处理能力,AI技术迎来了新的里程碑。喆塔科技作为国产领先的数智化平台领跑者,其“喆学大模型”通过融合行业Know-How与AI、大数据和云计算技术,在良率提升、效率优化及成本控制方面已取得显著成效。 Zeta科技宣布喆学模型接入R1模型 DeepSeek-R1的接入,“喆学大模型”能够更精准地分析复杂工业数据,提前预测设备故障,并提供科学决策建议,优化资源利用。这一结合为半导体、光电显示、新能源等高端制造行业注入了新的变革力量,帮助企业在这个竞争激烈的时代中保持领先。 接入DeepSeek-R1以后,喆学大模型显著增强了其在智能问答、决策支持、自我进化、易用性和垂直应用开发等方面的能力。这一创新不仅大幅降低了企业的学习门槛和技术障碍,还显著提升了工作效率和准确性,为企业实现更高效的生产和管理提供了强有力的支持。通过将复杂的数据转化为可操作的见解,并为决策提供科学依据,喆学大模型帮助企业应对工业AI时代的挑战,推动其实现数字化、智能化转型的新飞跃。 这些应用场景大模型智能问答超便捷: 工程师在工作中遇到困难,只要输入问题,就能马上得到详细的答案,它能为你画图表、做分析、写报告就像身边随时有个百事通,工作效率想不高都难。 良率分析小助手:紧盯分析数据,多轮智能问答,智能问答出图,快速给出建议,节省繁琐、重复操作步骤,提升分析效率。 Text2SQL真方便:业务人员不用再费劲去学复杂的 SQL 语言了,轻松就能查询数据,工作变得更轻松。 智能 BI 很直观:它能把业务数据深度分析,还能以可视化的形式呈现出来,市场预测和策略建议都能精准给出,企业发展更有方向。 例如: 在半导体行业,面对复杂良率分析和新员工上手难的问题,喆塔科技提供了融合喆学大模型与自动良率分析的解决方案。通过智能问答模块,新手能快速掌握分析流程和数据获取;指令生成功能依据用户偏好一键创建图表,简化操作;智能根因分析则迅速定位良率问题并提供决策支持。 (信息来源:芯湃资本)
2 个月前
2月10日,清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:一块24G显存的4090D,就可以在本地运行DeepSeek-R1、V3的671B“满血版”。 预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。 KTransformers通过优化本地机器上的LLM部署,帮助解决资源限制问题。该框架采用了异构计算、先进量化技术、稀疏注意力机制等多种创新手段,提升了模型的计算效率,并具备处理长上下文序列的能力。
3 个月前
腾讯混元大模型的数学原理主要基于深度学习和自然语言处理领域的相关技术,以下是其核心要点: 神经网络与Transformer架构 多层神经网络:混元大模型采用多层神经网络结构,通过模拟人脑神经元之间的连接来处理和学习数据。每个神经元接收来自上一层神经元的输入,并通过激活函数进行处理后输出到下一层神经元,从而实现对数据的特征提取和模型的训练。 Transformer核心机制:混元大模型基于Transformer架构,其核心是自注意力机制。自注意力机制能够计算文本中每个位置与其他位置之间的关联程度,从而捕捉长距离依赖关系,更好地理解句子中的上下文信息。在计算自注意力时,对于输入序列中的每个位置,会计算其与其他位置的注意力得分,然后根据这些得分对相应位置的特征进行加权求和,得到该位置的新特征表示。除了自注意力机制外,Transformer还包括前馈神经网络,用于对经过自注意力机制处理后的特征进行进一步的非线性变换。 预训练与微调 预训练:在大规模语料库上预先训练模型,使其学习语言的一般规律和知识,如语法、语义、常见的语言模式等。预训练过程通常采用无监督学习的方式,例如使用大量的文本数据进行自监督学习,让模型自动预测文本中的下一个单词或句子中的空缺部分等。通过预训练,模型能够获得丰富的语言知识和语义理解能力,为后续的微调任务奠定基础。 微调:在预训练完成后,根据具体的任务需求,对模型进行微调。微调是在特定的有标注数据集上进行的有监督学习过程,通过调整模型的参数,使其在特定任务上达到更好的性能。例如,在文本分类任务中,使用标注好的文本分类数据集对预训练模型进行微调,让模型学习到如何根据输入文本的特征进行分类。 优化算法与正则化技术 优化算法:在训练过程中,使用优化算法来调整模型的参数,以最小化预测误差。常见的优化算法如随机梯度下降(SGD)及其变种Adagrad、Adadelta、RMSProp、Adam等。这些算法通过计算损失函数对模型参数的梯度,并根据梯度的方向和大小来更新参数,使得模型在训练过程中逐渐收敛到最优解。 正则化技术:为了减少过拟合,提高模型的泛化能力,混元大模型采用了正则化技术,如Dropout和Batch Normalization。Dropout在训练过程中随机丢弃一部分神经元,使得模型在每次训练时都使用不同的子网络结构,从而增加模型的鲁棒性和泛化能力。Batch Normalization则是对每个批次的输入数据进行归一化处理,使得模型在训练过程中输入数据的分布更加稳定,加快训练速度并提高模型的性能。 混合专家模型结构 混元大模型采用混合专家模型结构,每一层包含多个并行的同构专家,一次token的前向计算只会激活部分专家,推理成本远低于同等参数的稠密模型。同时,在路由策略上进行创新,在传统Top-K路由的基础上进一步提出了随机补偿的路由方式,将因为专家满负载原本会扔掉的token,随机路由到其他仍有负载冗余的专家,保障训练稳定性。还设置一个共享专家来捕获所有token所需的共同知识,并通过多个需要路由的专家动态学习特定领域的知识。 处理长文与提升推理效率 长文处理:对于长文领域,通过引入多阶段预训练和退火机制,使得模型仅使用少量长文合成语料,即可获得较好的长文效果,显著提升模型长文外推能力。 推理效率提升:使用Grouped-Query Attention和Cross-Layer Attention两种KV Cache压缩策略,从head/layer两个维度联合压缩KV cache,并引入量化技术,进一步提升压缩比,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。
3 个月前
杭州在AI领域崛起有城市“基因密码”,使得杭州在人工智能技术,特别是语言大模型领域引领全球。