Google Gemini 1.0 正式登场:功能强大,教你如何用

谷歌 的 AI 智能模型 Gemini 现在正式带来 Gemini 1.0 版本。 Gemini 1.0 也依照处理难度的不同分为 Ultra、Pro 和 Nano 三种,这边我们不仅要来看看 Gemini Ultra、Gemini Pro 和 Gemini Nano 有什么不同,还要来看看实际上的应用可以做些什么!

Google Gemini 1.0 正式登场:功能强大,教你如何用

GEMINI 1.0 能做些什么?

Gemini 1.0 能够具体的回答出提问者的问题,甚至是延续问题的继续回答下去。 像是一开始在纸上先画出了一条线,接着开始完成鸭子的图案。 过程中 Gemini 1.0 会依照笔画的增加后回答他看到的样子,最后更能介绍鸭子的生活型态。 当提问者接着问这只鸭子能不能浮起来的时候,Gemini 1.0 还会提出「必须依照材质来决定,但它“看起来”是塑料」这样相当有判断力的回答方式。

提问者后续进一步的请 Gemini 1.0 教他「鸭子」的其他语言时,也能教导提问者「鸭子」的发音(很刚巧的,视频中就用我们熟悉的中文来示范)。 或是后面画了一张图,有左右两条叉路,问 Gemini 要走哪条时,Gemini 还能做出「右边的熊对鸭子来说是有危险,左边的鸭子较为安全,建议走左边。」 这样有逻辑性的推断建议。

Google Gemini 1.0 正式登场:功能强大,教你如何用

视频后面还示范了不断地对 Gemini 1.0 提供两个物品,它能够说出它们的相似点、藉由桌面上的地图来设计新游戏、给它两个颜色的毛线球来请它给出可以做什么的建议… 更惊人的还有竟然能跟它玩猜球在哪个杯子的游戏!

Google Gemini 1.0 正式登场:功能强大,教你如何用

看完是不是觉得很神奇? 这就是即将出现在你我生活上的 AI 应用? 是的,Gemini 就是一个能够流畅理解自然图像、音频和视频,到数学推理,还能结合包括文字、图像、音频、视频和代码在内的不同类型信息做出响应的人工智能模型。

谷歌 说 Gemini 1.0 会依照模型的大小不同有 Ultra、Pro 和 Nano 三种。 所谓的模型大小会影响的就是能做到的指令复杂程度。

  • Gemini Ultra:是规模最大、功能最强大的模型,专为高度复杂的任务而设计。
  • Gemini Pro:最适合扩展、横跨各种类型的任务。
  • Gemini Nano:处理设备上的任务最有效率的模型。
Google Gemini 1.0 正式登场:功能强大,教你如何用

因此可以理解成 Gemini Ultra 是 谷歌 Gemini 中最强的模型,是为处理高度复杂的任务而设计,因此能够相当快速理解并处理包括文字、图像、音频、视频和程式码等不同类型的信息,主要对象会像是编程、制图员与开发者、企业用户等专业人士来使用。 用户未来可以通过 Bard Advanced 来体验 Gemini Ultra 模型。 谷歌 也预告会在明年初正式向更多用户开放 Bard Advanced 的测试计划。

而 Gemini Pro 也已经开放到 Bard 上,主要是用来处理像是理解、归纳总结、推理、编程跟规划等多面向的处理需求,可以想成 Gemini Pro 会让 Bard 变成更好聊天的机器人。 目前 Gemini Pro 模型的 Bard 会先以英文版本开放使用,并先支持以文字为主的指令提示。 日后也会持续新增对于不同语言和地区的支持。

至于最小的 Gemini Nano,有提到它主要是用来处理「设备」上的任务,没错,所以它会先在 Pixel 8 Pro 上推出,只要用户将手机切换成英文的界面就能使用。 目前 Gemini Nano 能够支持录音机应用程序中的「摘要」-把录音的内容作出重点整理; 另一个是支持 Gboard 中的智能回复,用户现在能通过 Whatsapp 应用程序中试用此项功能。

Gemini 是 谷歌 设计的人工智能模型,有别于一般多模态模型是针对不同的模态去训练个别的组件,再把组件组合在一起,来大致模拟出一部分的多模态功能的方式。 Gemini 则是一开始就以多模态的模式来训练,后续再透过额外的多模态数据进行微调,进一步提升效能。 这样可以帮助 Gemini 从一开始就能顺畅地理解和推理各种输入的信息。

简单来说就像是把一个很会画图的人与逻辑超好的人放在一起,然后当请他们完成一项任务,像是拿出一个橘子和一块饼干时,他们两方看到要描述或是推理这两个对象的时候就会出现 “需要沟通” 的不顺畅情况。 可是 Gemini 可以想成本身就是一个已经被训练成很会画画,逻辑又强的人,因此当他看到一个橘子和一块饼干时,他就可以马上依照自己的经验判断做出回应。

Google Gemini 1.0 正式登场:功能强大,教你如何用

因此我们可以理解到 Gemini 1.0 是被设计来流畅理解自然图像、音频和视讯,到数学推理,还能结合包括文字、图像、音频、视频和代码在内的不同类型信息做出回应。

所以如果对你我来说,想要直接体验感受 Gemini 的能力,最快的方式就是透过 Bard 来输入想要问的句子,或是上传图片问他这两个东西有什么关系等来进行,甚至就连在 emoji kitchen 中创造出来的 emoji,也能请 Gemini 猜猜是由哪两个 emoji 组出来? 又建议可以怎么用呢!

Google Gemini 1.0 正式登场:功能强大,教你如何用
Google Gemini 1.0 正式登场:功能强大,教你如何用
(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论