8x7B开源MoE击败Llama2逼近G

编辑:编辑部前几日,一条MoE的磁力链接引爆AI圈。刚刚出炉的基准测试中,8*7B的小模型直接碾压了LlamaB!网友直呼这是初创公司版的超级英雄故事,要赶超GPT-4只是时间问题了。有趣的是,创始人姓氏的首字母恰好组成了「L.L.M.」。开源奇迹再一次上演:MistralAI发布了首个开源MoE大模型。几天前,一条磁力链接,瞬间震惊了AI社区。87GB的种子,8x7B的MoE架构,看起来就像一款mini版「开源GPT-4」!无发布会,无宣传视频,一条磁力链接,就让开发者们夜不能寐。这家成立于法国的AI初创公司,在开通官方账号后仅发布了三条内容。6月,MistralAI上线。7页PPT,获得欧洲历史上最大的种子轮融资。9月,Mistral7B发布,号称是当时最强的70亿参数开源模型。12月,类GPT-4架构的开源版本Mistral8x7B发布。几天后,外媒金融时报公布MistralAI最新一轮融资4.15亿美元,估值高达20亿美元,翻了8倍。如今20多人的公司,创下了开源公司史上最快增长纪录。所以,闭源大模型真的走到头了?

8个7B小模型,赶超亿参数Llama2

更令人震惊的是,就在刚刚,Mistral-MoE的基准测试结果出炉——可以看到,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达亿参数的Llama2。来源:OpenCompass英伟达高级研究科学家JimFan推测,Mistral可能已经在开发4Bx8E,甚至B+x8E的模型了。而它们的性能,或许已经达到了GPT-.5/.7的水平。这里简单介绍一下,所谓专家混合模型(MoE),就是把复杂的任务分割成一系列更小、更容易处理的子任务,每个子任务由一个特定领域的「专家」负责。1.专家层:这些是专门训练的小型神经网络,每个网络都在其擅长的领域有着卓越的表现。2.门控网络:这是MoE架构中的决策核心。它负责判断哪个专家最适合处理某个特定的输入数据。门控网络会计算输入数据与每个专家的兼容性得分,然后依据这些得分决定每个专家在处理任务中的作用。这些组件共同作用,确保适合的任务由合适的专家来处理。门控网络有效地将输入数据引导至最合适的专家,而专家们则专注于自己擅长的领域。这种合作性训练使得整体模型变得更加多功能和强大。有人在评论区发出灵魂拷问:MoE是什么?根据网友分析,Mistral8x7B在每个token的推理过程中,只使用了2个专家。以下是从模型元数据中提取的信息:{"dim":,"n_layers":2,"head_dim":,"hidden_dim":,"n_heads":2,"n_kv_heads":8,"norm_eps":1e-05,"vocab_size":,"moe":{"num_experts_per_tok":2,"num_experts":8}与GPT-4(网传版)相比,Mistral8x7B具有类似的架构,但在规模上有所缩减:-专家数量为8个,而不是16个(减少了一半)-每个专家拥有70亿参数,而不是亿(减少了约24倍)-总计亿参数(估计值),而不是1.8万亿(减少了约42倍)-与原始GPT-4相同的2K上下文窗口此前曾曝出,GPT-4很可能是由8个或者是16个MoE构成目前,已经有不少开源模型平台上线了Mistral8×7B,感兴趣的读者可以亲自试一试它的性能。

LangSmith:

转载请注明:http://www.abuoumao.com/hykz/8662.html

网站简介| 发布优势| 服务条款| 隐私保护| 广告合作| 网站地图| 版权申明

当前时间: 冀ICP备19029570号-7