谷歌: Google重磅更新,仿佛看到了AGI的影子

2025-03-14 | 來源: 探索AGI | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

Gemini是個水桶型模型，可能在數學，推理，創意上都比不上最好的模型。但是它每一項的能力都不差，甚至多模態理解處於全球領先行列，速度也是嘎嘎快。

剛剛，Google宣布在Google AI Studio和Gemini API上開放Gemini 2.0 Flash的原生圖像生成功能，供開發者測試和實驗。也就是不止輸入可以圖文，現在模型可以無縫的融合圖文同時輸出了！

不僅能理解文字，還能直接根據描述生成令人驚艷的高質量圖片。主要功能包括：文本+圖像生成、對話式圖像編輯、真實感圖片創作以及高質量文本渲染。

它不僅能理解文字，還能直接根據描述生成高質量的圖片。支持文本+圖像生成、對話式圖像編輯、真實感圖片創作、高質量文本渲染。

多模態能力：可以同時理解文字、圖像，並在二者之間建立聯系。

智能推理：能夠結合現實世界的知識，生成准確的視覺內容。

自然語言交互：支持用戶通過對話方式調整修改圖片，類似 AI 畫師助手。

接下來是試玩環節~

輸入一個描述：“以“一只可愛的豬在天上飛”為主題，生成6副連續插畫。”

Gemini 2.0 Flash會根據文本生成一系列插圖，讓角色和場景在不同畫面中保持一致性。從結果可以看到，它能在一次內容輸出中包含多張圖，且角色形象始終如一。

自家裸身遭Google街景拍獲賠1萬多美元

谷歌:AI狼沒來,廣告一哥穩坐釣魚台

傳Google新手表加入兩大救命功能

進一步，還可以要求它修改繪畫風格（如卡通風、寫實風等）。

這樣想象空間就很大了，如之前很多爆款的針對小孩的插畫故事視頻，古詩插畫視頻，門檻制作進一步降低了。

除此之外，我們還可以，用語言完成PS，並且這是有多輪交互支持上下文的！

在舉個例子： “讓AI生成一個藍色的房子”，然後進行交互修改布局，顏色：

相比一般的AI畫圖工具，Gemini 2.0 Flash能理解更多現實世界的細節和文化背景。

因為Gemini本身是經過了大量語言模型訓練的，所以世界知識豐富，利用世界知識和增強推理來創建正確的圖像。這使得它非常適合創建逼真的詳細圖像——比如“我想做一道東北大亂燉，請告訴我要怎麼做，每一步驟請配上圖片”。