LLaMA 3

3个月前更新 18,267 0 0

翻墙 | meta旗下（facebook）开源大语言模型系列

收录时间：

2023-04-21

打开网站手机查看

AI-01-03.大模型

LLaMA 3

打开网站

LLaMA 3是Meta(Facebook)于2024年推出的第三代开源大语言模型，代表了开源社区在大模型领域的最先进水平，为学术界和开发者社区提供了强大且可自由使用的基础模型。

技术架构上，LLaMA 3提供了从80亿到700亿参数不等的多个版本，均采用纯解码器Transformer架构。Meta特别优化了训练效率，使用自家研发的”训练集群优化器”，在同等计算资源下获得了比前代更好的性能。训练数据涵盖了超过50种语言，特别加强了编程语言和多语言理解能力。与商业大模型不同，LLaMA 3完全开放权重，支持用户在本地部署和微调。

性能特点方面，尽管参数规模小于一些商业巨头的大模型，但LLaMA 3-70B在多项基准测试中达到了接近GPT-4的水平，这归功于Meta精心设计的数据清洗和训练策略。其在代码生成(特别是与软件开发相关的任务)方面表现尤为突出，超越了部分商业模型。Meta还特别优化了其在消费级GPU上的推理效率，使得70B参数模型可以在单台配备多块高端显卡的服务器上运行。

应用生态上，LLaMA 3已成为开源社区最活跃的基础模型，衍生出了数百个专业领域的微调版本，包括医疗、法律、金融等垂直领域。Hugging Face等平台基于LLaMA 3构建了丰富的工具链和简化接口。许多初创公司使用LLaMA 3作为基础，避免了商业API的成本和限制。

LLaMA 3的核心价值在于其开放性和可及性，极大降低了AI研发门槛。Meta还配套发布了详细的训练日志和伦理评估报告，提高了透明度。不过，作为开源模型，它缺乏商业模型那种持续更新和精细内容过滤机制。

数据统计

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...