Mixtral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5。
论文地址:https://arxiv.org/pdf/2401.04088.pdf 项目地址:https://github.com/mistralai/mistral-src 论文主页:https://mistral.ai/news/mixtral-of-experts/
路由器:决定对于给定输入信任哪个专家以及如何权衡每个专家对于特定输入的结果。 专家:专门研究问题不同方面的个体模型。
Jupiter Notebook:https://github.com/dvmazur/mixtral-offloading/blob/master/notebooks/demo.ipynb 项目地址:https://github.com/dvmazur/mixtral-offloading/tree/master?tab=readme-ov-file