Meta 发布多模态 Llama 3.2 开源模型,视觉领先 GPT4o-mini,还有适合装在手机的 1B 版本

AI 进步速度真的快得吓人,继7月底时Meta推出Llama 3.1之后,才过2个月时间,Meta又再度推新开源模型「Llama 3.2」,而且这次厉害地方在:支持多模态,意味着现在 Llama 3.2 可以读图像信息了。

不仅如此,Llama 3.2 还有推出适合在笔记本、手机本地运行的 3B 和 1B 版本,现在已经可以下载试用。

Meta 发布多模态 Llama 3.2 开源模型,视觉领先 GPT4o-mini,还有适合装在手机的 1B 版本 -

支持多模态的 Meta Llama 3.2 开源模型登场,共有四种版本

这次 Meta Llama 3.2 开源模型共有四种版本

  • Llama 3.2 90B Vision:目前Meta最先进的模型,与 11B 模型类似,但支持更进阶的图像推理应用,可以处理更大范围和更复杂的图表、地图等视觉数据,以及提供更准确和详细的图像描述和推理结果。
  • Llama 3.2 11B Vision:支持图像推理应用,包括文件级理解(如图表和图形),能做到用自然语言描述图像中的物体、快速回答图表中企业最佳销售月份数据、以及通过地图推理出,走路路线的坡度变化,或特定路径距离等问题
  • Llama 3.2 3B:与 1B 模型相似,具备更强大的多语言文字生成和工具调用能力,支持更复杂的应用场景和多样化的任务需求,适合在笔记本中运行。
  • Llama 3.2 1B:轻量级模型,拥有高效的多语言文字生成能力,能摘要最近的消息、提取移动项目等,适合在移动设备上运行。

Meta 也有提供一些范例,像是视觉模型,上传图后,就会通过文字描述出这张图,接着可以针对文字提示,找出符合的图像内容:https://imgur.com/a/xjG9ai9/embed?pub=true&ref=https%3A%2F%2Fwww.koc.com.tw%2Farchives%2F567185&w=540

在手机上运行 Llama 3.2,可以当成作为文字编辑助手、总结 Demo、或是重写内容,Meta 还说为了让移动设备能更兼容运行模型,进行更多创新,他们有跟高通、联发科、ARM 合作,未来会分享更多相关信息:

Llama 3.2 跟其他竞争模型比较

而跟其他模型效能比较部分,Meta 也有分享一些实测数据,首先是 11B 和 90B 版本,比对对象是 Claude 3 – Haiku 和 GPT-4o-mini。

  • 图像测试的MMMU中,11B以50.7赢过Claude 3 – Haiku的50.2;90B则以60.3赢过GPT-4o-mini的59.4
  • MMU-Pro, Stadard 和 MathVista 也是 Llama 3.2 获胜,不过 Vision 模式 90B 的 33.8 稍微落后 GPT-4o-mini
  • 文字测试的 MMLU 中,90B 赢过 GPT-4o-mini,11B 则小输 Claude 3 – Haiku。
  • MATH 测试 11B 赢 Claude 3 – Haiku 不少。
  • GPQA 和 MGSM 表现都差不多。
Meta 发布多模态 Llama 3.2 开源模型,视觉领先 GPT4o-mini,还有适合装在手机的 1B 版本 -

Llama 3.2 的 1B 和 3B 比对对象是 Gemma 2 2B IT 和 Phi-3.5-mini IT,所有测试中,长内容部分 Llama 3.2 优势比较明显,其他有赢有输,大图部分可以到 Meta 官网查看:

Meta 发布多模态 Llama 3.2 开源模型,视觉领先 GPT4o-mini,还有适合装在手机的 1B 版本 -

Llama 3.2 哪里可以下载

目前 Llama 3.2 已经在 Meta 官网和 Hugging Face 网站上开放下载,有需要的人可以按前方链接跳转。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论