Mixtral 8x7b-instruct 聊天模型

9 个月前 语言模型 181

Mixtral 8x7b-instruct 是基于 Mixtral 8x7b 模型进行微调得到的指令遵从版本聊天模型。

Mixtral 8x7b 是一个具有开放权重的高质量稀疏专家模型(SMOE)混合,采用了专家混合(MoE)架构,共有 8 个专家,每个专家拥有 70 亿的模型参数,总参数量为 46.7 亿,但在处理每个 token 时只会用到其中的 12.9 亿参数(相当于 2 个专家),这样既保证了运算速度,又控制了成本和延迟。它维持了一个 32k token 的上下文窗口,能够处理英语、法语、意大利语、德语和西班牙语等多种语言,在代码生成方面表现出强大的性能。

Mixtral 8x7b-instruct 模型在性能上超越了 GPT-3.5 turbo、Claude-2.1、Gemini Pro 和 Llama2 70b 等聊天模型,在 BBQ 和 BOLD 等基准中也显示出更少的偏见。在人类评估基准上,它的表现明显优于上述模型。

该模型通过监督微调(Supervised Fine-tuning)和直接偏好优化(Direct Preference Optimization,DPO)进行了优化,以便能够仔细遵循指令。在 MT-Bench 上,它的得分达到了 8.30,使其成为性能可与 GPT-3.5 相媲美的开源模型。

如果你想调用 Mixtral 8x7b-instruct 模型,可以使用如下代码(需先安装所需库):

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "mistralai/mixtral-8x7b-instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "hello my name is"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

不过,使用开源模型时要遵循相关的许可协议和规定。同时,模型的性能和表现可能会受到多种因素的影响,如数据、训练方法和应用场景等。在实际应用中,需要根据具体需求进行评估和选择。

最近,一家名为 Nous Research 的公司宣布,他们基于 Mixtral 8x7b 训练的新模型——Nous-Hermes-2Mixtral8x7b 在很多基准上都超过了 Mixtral-instruct,达到了当时的最优性能(State Of The Art,SOTA)。该模型在超过 100 万个条目(主要是 GPT-4 生成的数据)以及来自整个 AI 领域开放数据集的其他高质量数据上进行了训练,并根据后续微调方法的不同,分为仅用 SFT 方法微调的 Nous-Hermes-2Mixtral8x7bSFT 和用 SFT+dpo 方法微调的 Nous-Hermes-2Mixtral8x7bDPO 两个版本。但 AI 领域发展迅速,可能会有新的更优模型不断出现。


豆包AI

相关资讯