Meta 最新开源模型 Llama 3 如约而至。
上周,一位Meta员工透露,两款小型Llama 3模型将于本周发布。
今天,它来了!Meta 在官网官宣开源模型Llama-3系列, Llama 3 8B(80亿参数)和70B(700亿参数)两个版本!
Meta 将 Llama 3 称为有史以来最强的开源大模型!除了这两个版本,扎克伯克透露,Llama 3 最大的4050亿参数的模型仍在训练中。
但是根据Meta的评测,Llama 3 8B(80亿参数)和70B(700亿参数)在广泛的行业基准测试中树立了新的最佳水准,并在推理、问答、代码生成等关键能力上展现出独特优势。
Llama 3 8B 在 MMLU、GPQA、HumanEval等多项基准上的表现超过了谷歌的Gemma 7B 以及 Mistral 7B Instruct。
Llama 3 70B 的表现超过了 Claude 3 Sonnet ,而且和谷歌 Gemini Pro 1.5不分上下。
Meta 表示,通过改进预训练和后训练过程,Llama 3的预训练模型和指令微调模型在8B和70B参数规模上成为了当前最佳的模型。后训练过程的改进显著降低了错误拒绝率,提高了模型的对齐度,并增加了模型响应的多样性。
在开发Llama 3时,Meta不仅关注了模型在标准基准测试上的表现,还评估了Llama 3在现实场景中的性能。
为了评估模型性能,Meta开发了一个包含1800个提示的高质量人类评估集,覆盖了12个关键用例,包括寻求建议、头脑风暴、分类、封闭问题回答、编程、创意写作、信息提取、扮演角色/人物、开放问题回答、推理、重写和总结等。
为了防止模型在评估集上意外过拟合,即使是建模团队也无法访问这个评估集。
结果,Llama 3也击败了Claude 3 Sonnet、Mistral Medium、GPT-3.5、以及前任Llama-2这些模型。
Llama 3的预训练模型同样为相应规模的大模型设定了新的行业标准。在MMLu、AGIEval、BIG-Bench、ARC-Challenge等基准测试中,Llama 3 8B 基本全部领先于 Mistral 7B 以及 Gemma 7B,Llama 3 70B也是如此。
在模型架构方面,Llama 3使用128K token的词汇量,比前代更高效地编码语言,显著提升了模型性能。两个版本均采用了分组注意力(GQA)机制以提升推理效率。
不过 Llama 3的上下文窗口只有8k,相较于动辄数十乃至数百万窗口的大模型相比,显得有些寒酸。
在训练数据上,Llama 3使用了高达15T的公开数据进行预训练,是Llama 2训练数据的7倍,其中包括30多种语言、4倍于之前的代码数据。
而且Meta表示,在开发Llama 3模型的过程中,发现前一代的Llama模型(即Llama 2)在识别高质量数据方面表现出了惊人的能力。因此,利用Llama 2来生成用于训练文本质量分类器的数据,而这些分类器将被用于提升Llama 3模型的性能。
也就是说,Llama 3训练过程中尝试了使用AI生成的数据!
在扩大模型训练规模方面,Meta开发了一系列针对关键基准的放大规律,以指导数据集和算力的最佳配置。
最终的8B和70B模型均在15T tokens数据上持续取得对数级的性能提升。组合数据/模型/流水线等三级并行计算,Meta利用超过16000张GPU实现了超过400T浮点计算量的训练规模。
这些改进使 Llama 3 的训练效率比 Llama 2 提高了约三倍。
在监督微调、拒绝抽样、PPO和DPO等多种技术的指令微调下,Llama 3在推理、代码生成、指令跟随等能力上有了大幅提升,误判率和响应多样性也得到极大改善。多轮的人工质量审查也对模型质量的提升起到关键作用。
不仅模型本身表现出色,Meta还引入了Llama Guard 2、Code Shield、CyberSecEval 2等多个工具,从系统层面保证了Llama 3的可控和安全性,如防范有害内容、不当行为和代码风险等。
接下来,Meta还将推出上文提到的400B参数模型,并加入多模态、长上下文、多语种等更多新能力。不过 Llama 400B参数的模型是否开源还未可知。
除了这些,Meta 此次和大模型一起发布的还有自己的AI助手,Meta AI。
Meta AI由最新的Llama 3模型提供支持,它不仅将被整合到Meta 旗下的 Instagram、WhatsApp、Facebook和Messenger的搜索框中,还将首次以独立网站Meta.ai的形式对外提供服务。
扎克伯格表示,公司的目标是让Meta AI成为“全球人们可以自由使用的最智能的AI助手”。他补充说:“有了Llama 3,我们基本上感觉到我们已经达到了这个目标。”
另外,Llama 3模型还将很快在AWS、Databricks、Google Cloud、Hugging Face、Kaggle、IBM WatsonX、Microsoft Azure、NVIDIA NIM和Snowflake等平台上可用。
——转载自大数据文摘微信公众号2024年4月22日发布文章