-
日期: 2025-05-22 | 来源: 差评 | 有0人参与评论 | 专栏: 谷歌 | 字体: 小 中 大
Transformer 架构虽然用了这么久,但计算成本高,速度慢,苦于没啥替代手段,大家只好将就用着。
这次谷歌用扩散模型对大模型的底层架构发起挑战,如果未来 Gemini Diffusion 在表现上还有上升的空间,这可能是一次颠覆性的革新。
大模型说完,再看看多模态生成这边,花样就更多了。
Imagen 4、Veo 3、Lyria 2 接连推出,图片、视频、音频生成,谷歌全都要。
从官方的例子可以看出,Imagen 4 遵循提示词的能力满分,能生成高达 2k 分辨率的图片,画面清晰,细节到位。
在 Imagen 3 的基础上,Imagen 4 的整体图像质量更高,对指令遵循的能力更强,速度更快。
视频方面,Veo 3 不仅在 Veo 2 的基础上质量升级,还是首款带音频的视频模型,不仅自带对话,如果需要,也可以来点背景音乐。
结合生成的提示词来看官方的案例,Veo 3 对场景氛围、对话语气和人物动作表情的理解都很出色,生成的视频非常自然。
最后是 Lyria 2 的音频生成,同样很惊艳。
不得不说,Lyria 2 生成的这段秘鲁风格的舞曲,鼓点、电吉他、贝斯相辅相成,节奏明快,旋律流畅,丝毫没有 AI 痕迹。
目前,Imagen 4 和 Lyria 2 已经在谷歌的 Vertex AI 平台上线,Veo 3 可以加入 waitlist,感兴趣的差友可以去体验一下。
如果说咱上面看过的都属于零部件,而下面要说的,是谷歌怎么把这些零件组合起来,融入产品,把 AI产品赋能体现得淋漓尽致。
首当其冲的,就是谷歌在搜索业务上推出的 AI mode。
自 2022 年 ChatGPT 问世,大模型对谷歌的核心搜索业务来了一轮狂风巨浪的冲击。
打不过就加入,谷歌这回直接把 Gemini 嵌进传统搜索,利用大模型的多模态和推理能力,把用户想要的整理好,直接喂到嘴里。
AI mode 底层使用谷歌的查询扇出技术 (query fan-out),可以把问题分解成子主题,同时进行多个查询,深入互联网寻找答案。
谷歌表示,加入了 AI 概览以后,用户对搜索的内容满意度更高,使用频率上升了 10%,这是十年来搜索领域最成功的探索之一。
看来传统搜索加点 AI,还是能挽回用户的心的。
除了搜索,谷歌还把多模态生成技术揉一揉,用 Veo + Imagen + Gemini 搓出了一个电影制作工具 Flow。- 新闻来源于其它媒体,内容不代表本站立场!
- 前小米总监冯德兵被妻子怒爆出轨 200 份包养协议
- 才播4集,口碑炸了,终于有让我熬夜狂追的刑侦悬疑黑马剧了
- 来自外星飞船?美军曾请顶尖实验室调查神秘合金
-
- G7峰会尴尬名场面 大佬社交也翻车
- 温哥华会计事务所 收费低 服务好
- 李雪琴事件升级 被曝学历造假只是冰山一角
- 70年历史中国烧鸡品牌将开首家店
- 华人女富豪成功接盘Bay的三处租约
- 加国惨了 10年内要将5% GDP做军费
-
- 大温华裔经纪"暗抢"客户交易遭重罚
- 中东冲突加剧 大温油价会大涨吗?
- 伊朗称伊拉克被美入侵模式正重演.....
- 川普:犯台就炸北京 看伊朗遭遇已知不是打嘴炮
- 梅德韦杰夫:若乌使用"脏弹",俄将以战术核武回击
- 美国国务院发言人称:美国是仅次于以色列的最伟大国家
-
- 当美国介入轰炸伊朗 中国成输家?
- 伊朗总统:现在没有,将来也不会寻求核武器
- 又一个背叛民国的高级间谍 延误蒋介石战机
- 刚刚法庭获准她收购TheBay3份租约
- 俄前总统扬言送核弹头去伊朗 被川普斥责
- 振龙电器 各类热销家电 种类齐全
-
目前还没有人发表评论, 大家都在期待您的高见