憋了几个礼拜,谷歌开发者大会信息量爆炸了

日期: 2025-05-22 | 来源: 差评 | 有0人参与评论 | 专栏: 谷歌 | 字体: 小中大
Transformer 架构虽然用了这么久，但计算成本高，速度慢，苦于没啥替代手段，大家只好将就用着。

这次谷歌用扩散模型对大模型的底层架构发起挑战，如果未来 Gemini Diffusion 在表现上还有上升的空间，这可能是一次颠覆性的革新。

大模型说完，再看看多模态生成这边，花样就更多了。

Imagen 4、Veo 3、Lyria 2 接连推出，图片、视频、音频生成，谷歌全都要。

从官方的例子可以看出，Imagen 4 遵循提示词的能力满分，能生成高达 2k 分辨率的图片，画面清晰，细节到位。

在 Imagen 3 的基础上，Imagen 4 的整体图像质量更高，对指令遵循的能力更强，速度更快。

视频方面，Veo 3 不仅在 Veo 2 的基础上质量升级，还是首款带音频的视频模型，不仅自带对话，如果需要，也可以来点背景音乐。

结合生成的提示词来看官方的案例，Veo 3 对场景氛围、对话语气和人物动作表情的理解都很出色，生成的视频非常自然。

最后是 Lyria 2 的音频生成，同样很惊艳。

不得不说，Lyria 2 生成的这段秘鲁风格的舞曲，鼓点、电吉他、贝斯相辅相成，节奏明快，旋律流畅，丝毫没有 AI 痕迹。

目前，Imagen 4 和 Lyria 2 已经在谷歌的 Vertex AI 平台上线，Veo 3 可以加入 waitlist，感兴趣的差友可以去体验一下。

如果说咱上面看过的都属于零部件，而下面要说的，是谷歌怎么把这些零件组合起来，融入产品，把 AI产品赋能体现得淋漓尽致。

首当其冲的，就是谷歌在搜索业务上推出的 AI mode。

自 2022 年 ChatGPT 问世，大模型对谷歌的核心搜索业务来了一轮狂风巨浪的冲击。

打不过就加入，谷歌这回直接把 Gemini 嵌进传统搜索，利用大模型的多模态和推理能力，把用户想要的整理好，直接喂到嘴里。

AI mode 底层使用谷歌的查询扇出技术 (query fan-out)，可以把问题分解成子主题，同时进行多个查询，深入互联网寻找答案。

谷歌表示，加入了 AI 概览以后，用户对搜索的内容满意度更高，使用频率上升了 10%，这是十年来搜索领域最成功的探索之一。

看来传统搜索加点 AI，还是能挽回用户的心的。

除了搜索，谷歌还把多模态生成技术揉一揉，用 Veo + Imagen + Gemini 搓出了一个电影制作工具 Flow。
- 新闻来源于其它媒体，内容不代表本站立场！

在此页中阅读全文
更多谷歌的新闻
分类：科技信息

猜您喜欢