Meta 发布多模态 Llama 3.2 开源模型，视觉领先 GPT4o-mini，还有适合装在手机的 1B 版本

BOB • 2024年9月26日 16:00 • 投稿

AI 进步速度真的快得吓人，继7月底时Meta推出Llama 3.1之后，才过2个月时间，Meta又再度推新开源模型「Llama 3.2」，而且这次厉害地方在：支持多模态，意味着现在 Llama 3.2 可以读图像信息了。

不仅如此，Llama 3.2 还有推出适合在笔记本、手机本地运行的 3B 和 1B 版本，现在已经可以下载试用。

Meta 发布多模态 Llama 3.2 开源模型，视觉领先 GPT4o-mini，还有适合装在手机的 1B 版本 -

支持多模态的 Meta Llama 3.2 开源模型登场，共有四种版本

这次 Meta Llama 3.2 开源模型共有四种版本

Llama 3.2 90B Vision：目前Meta最先进的模型，与 11B 模型类似，但支持更进阶的图像推理应用，可以处理更大范围和更复杂的图表、地图等视觉数据，以及提供更准确和详细的图像描述和推理结果。
Llama 3.2 11B Vision：支持图像推理应用，包括文件级理解（如图表和图形），能做到用自然语言描述图像中的物体、快速回答图表中企业最佳销售月份数据、以及通过地图推理出，走路路线的坡度变化，或特定路径距离等问题
Llama 3.2 3B：与 1B 模型相似，具备更强大的多语言文字生成和工具调用能力，支持更复杂的应用场景和多样化的任务需求，适合在笔记本中运行。
Llama 3.2 1B：轻量级模型，拥有高效的多语言文字生成能力，能摘要最近的消息、提取移动项目等，适合在移动设备上运行。

Meta 也有提供一些范例，像是视觉模型，上传图后，就会通过文字描述出这张图，接着可以针对文字提示，找出符合的图像内容：https://imgur.com/a/xjG9ai9/embed?pub=true&ref=https%3A%2F%2Fwww.koc.com.tw%2Farchives%2F567185&w=540

在手机上运行 Llama 3.2，可以当成作为文字编辑助手、总结 Demo、或是重写内容，Meta 还说为了让移动设备能更兼容运行模型，进行更多创新，他们有跟高通、联发科、ARM 合作，未来会分享更多相关信息：

Llama 3.2 跟其他竞争模型比较

而跟其他模型效能比较部分，Meta 也有分享一些实测数据，首先是 11B 和 90B 版本，比对对象是 Claude 3 – Haiku 和 GPT-4o-mini。

图像测试的MMMU中，11B以50.7赢过Claude 3 – Haiku的50.2;90B则以60.3赢过GPT-4o-mini的59.4
MMU-Pro， Stadard 和 MathVista 也是 Llama 3.2 获胜，不过 Vision 模式 90B 的 33.8 稍微落后 GPT-4o-mini
文字测试的 MMLU 中，90B 赢过 GPT-4o-mini，11B 则小输 Claude 3 – Haiku。
MATH 测试 11B 赢 Claude 3 – Haiku 不少。
GPQA 和 MGSM 表现都差不多。