加西網 (溫哥華門戶網) - 要學畫畫?隨筆塗鴉秒變生動寫生!

　　猶記得兩年前，英偉達首次推出了旗下全新的交互應用 GauGAN，能夠通過人工智能技術把小學生水平的簡筆畫瞬間轉換成絕美風景圖。

　　比如用幾堆色塊，一條豎杠就能生成疑是銀河落九天的美景。隨手畫個圈，就能實時生成一汪水潭，倒映出綠樹和天空四時不同的顏色。

　　

　　GauGAN1.0 的簡筆畫轉換效果，圖片來自英偉達官網

　　一時間，GauGAN 名聲大噪，大家都對這種神奇的技術嘖嘖稱奇，稱 GauGAN 為當代 " 神筆馬良 " 之筆，感歎著只有小學生繪畫水平的自己終於也可以做藝術家了。

　　就在幾天前，英偉達宣布更新 GauGAN 的 2.0 版本，在此前塗鴉畫的基礎上，增加了文本識別功能。簡單來說，就是現在你連畫都不用畫了，直接把你腦海中想象的畫面用文字輸入，系統就能為你立馬生成圖像，幫把你模糊的設想變成現實。

　　硅星人一聽，立馬就來了興趣。這牛啊，這不意味著人工智能學會了讀心術，讓你腦子裡的奇思妙想一秒變成藝術大作嗎？於是，趁著感恩節假期，硅星人決定親自上手這個 " 神奇畫布 "，看看究竟能跟 AI 合作出什麼作品出來。

　　經過 2 個小時的倒騰之後，此次硅星人體驗的心路歷程可以用 "哇！- 咦？- 呃 ……- 哦" 來形容。那麼，究竟是怎麼回事呢？

　　只需一句話，還你一幅大作

　　GauGAN 是一款比較類似於 Photoshop 的圖片類軟件。它的特點是基於生成對抗網絡 ( GAN ) 技術而開發，能夠根據用戶需求自動生成個性化的高質量圖片。

　　英偉達開發 GauGAN 的目的，是想為未來的設計師、游戲開發者等各類型群體提供創建虛擬世界的強大工具，讓人們能很快地將自己的靈感轉化為原型並能便捷的修改它。此前，GauGAN 1.0 實現了讓簡筆塗鴉秒變大片，而這次 GauGAN 2.0 則能讓文本一秒變大片。

　　那麼，此次的 GauGAN 2.0 的文本轉化功能有多強大呢？舉個例子，當你輸入 " 海浪打在岩石上 " 這句話時，畫布上的圖片會隨著你輸入的文本而實時變動，先出現平靜的海，再出現岩石，最後精准呈現海浪拍岩石的畫面。

　　

　　?

　　? 當你輸入 "Sunshine in a tall tree forest"，系統會根據你逐漸細化的形容來實時更改圖片，最後呈現一幅陽光透過森林的圖片。

　　

　　? 當然，除了通過文本生成之外，GauGAN 2.0 同樣也支持 1.0 版本的使用塗鴉、和導入圖片生成的方式，而且還支持幾種方式的混合使用。

　　在通過文字生成了圖片之後，你可以進一步使用塗鴉功能對細節進行調整。比如你先用文本生成了一張沙漠裡的太陽的圖片，你想將其衍生呈現出《星球大戰》裡沙漠裡升起兩個太陽的場景，那麼，你只需要在已生成圖片的基礎上再畫一個小圓圈，圖片裡就會升起兩個太陽。

　　

　　?

　　再比如，你先導入一張海邊風景的圖片，然後使用快速擦除的功能擦去不想要的部分。接著，你再輸入文本 " 極光 "，AI 就會自動給你加上特效，一張由你創作的極光大片就此產生。

　　

　　英偉達表示，GauGAN 2.0 背後的 AI 模型使用了 NVIDIA Selene 超級計算機對超過 1000 萬張高質量風景圖像進行了訓練，從而讓 AI 理解單詞以及單詞之間的聯系，並進一步將自然語言描述成風景圖像。

　　同時 GauGAN 還是是多模式軟件，也就是說，即便是你和別人輸入了同樣的塗鴉或文本，軟件中內置的隨機數也能確保你們最終的生成的作品是不同的。因此，每個人所產出的圖片都是獨一無二的。

　　GauGAN 2 " 魔法 " 之初體驗

　　雖然英偉達把 GauGAN 2 的能力宣傳得如此神奇，但本著對科學負責任的態度，硅星人還是決定要親自上手 " 驗驗貨 "。

　　此次英偉達免費為大眾開放了一個 GauGAN 2 的體驗平台。整個平台的構成很簡單：左邊是繪畫區，右邊是圖片生成區，上方是文本輸入欄和繪畫工具欄。打開該平台後，會有一個簡單的使用指南，教你如何使用文本和繪畫工具生成和修飾圖片。

　　

　　繪畫區域

　　一開始，硅星人的體驗還是非常順利的，一度為 AI 創作出來的效果而驚歎。

　　硅星人首先嘗試使用了簡筆塗鴉轉換圖片的功能。目前 GauGAN 系統內提供了建築、土地、景觀和植物四大類別的塗鴉選擇，每個大類下設置了一些子類。

　　硅星人以先 " 海山礁石 " 為主題來做了一幅畫，分別選擇了 " 海 "、" 石頭 " 的選項，然後在畫布上塗鴉畫了一通。

　　點擊生成後，左側就立馬出現了一幅跟畫布上格局一樣的風景畫，同時還生成了落日、星空等不同種類的天空背景選項。接著，硅星人在天上畫了一塊雲，在海上畫了一顆樹。左側就立馬生成了令人驚歎的雲彩效果和一顆棕櫚樹。

　　

　　接著，硅星人嘗試在文本區域分別嘗試輸入了 Rainy 的天氣描述，令人驚喜的是，整個畫面也會瞬間變成陰雨天。

　　

　　在體驗了塗鴉功能後，硅星人也單獨嘗試了此次重點更新的文本輸入功能。

　　在輸入 "Endless tall mountains in a sunny day（晴天下連綿的高山）" 之後，左側立刻就生成了符合文本描述的景象。

　　

　　自此，硅星人的整個體驗都處於 " 哇 " 的狀態。但就在硅星人准備將 GauGAN 稱之為魔法之時，隨著更多的嘗試，畫風開始逐漸走偏。

　　AI 也有翻車的時候

　　在按照英偉達給出的范例、測試了最簡單的轉換之後，硅星人嘗試按照自己的想法，輸入比描述性短句更加復雜的文本。而這時，返回的作品就開始凌亂了。

　　當硅星人在文本框輸入 " 一座坐落在寧靜湖邊的房子（A house near the peaceful lake）" 時，系統並沒有返回正常的湖泊或者房子的圖像，而是呈現了一些非常抽象的圖。

　　

　　這是啥？黑暗城堡、長在天上的樹，還是雲端的戰艦？怎麼看都跟湖邊小屋沒啥關系。

　　此外，硅星人還發現，目前 GauGAN 2 的文本識別好像是只局限在建築、土地、景觀和植物這四大類之中。比如，當我們輸入 " 一頓感恩節火雞大餐（A Thanksgiving turkey dinner）" 時，系統返回的圖像仿佛是什麼外星來物，跟火雞、甚至晚餐根本都不沾邊。

　　

　　輸入單詞 " 沙發（Sofa）" 時，返回來的圖是這樣的。如果有人看懂了這跟沙發之間的關系，麻煩留言解釋一下。

　　

　　輸入單詞 " 聖誕樹（Chritmas tree）" 時，返回的圖片是這樣的。感覺不像是聖誕樹，倒有點中國春節燈會的感覺。

　　

　　而除了文本轉換，塗鴉模式也在接下來的體驗中屢屢翻車。比如硅星人想畫一個 " 小河邊一座房子，房旁立著一顆樹 " 的情景，在使用各種類別的畫筆在畫不上畫出布局之後，生成的圖像裡就沒有小河，畫風也非常詭異，完全跟想要呈現的寧靜畫面大相徑庭。

　　

　　想畫 " 兩山之間一座橋 " 的情景，返回的畫風也是十分灰暗。雖然硅星人也承認自己是靈魂畫手，但也沒有必要這麼 " 靈魂 " 吧？

　　

　　而在多次嘗試和摸索後，硅星人終於總結出了一個用 GauGAN 2 返回正常畫作的規律。

　　首先，在文本生成部分，輸入的文本最好都跟自然景觀相關，且形容詞越簡單越好，像大海、湖泊、山、岩石、樹這些關鍵詞都能比較准確返回結果。在塗鴉部分，盡量不要給畫布留白，比如在畫河流或湖泊時，周邊也要畫上土地或者草地，在塗鴉時也要盡量精細，這樣系統會更容易理解你想要的感覺。

　　這背後的原因則是因為目前用於訓練 GauGAN 2 的圖像大部分都是風景類的，導致模型結果存在偏差。此前，英偉達也公開表示，GauGAN 2 模型有超過 1 億的參數，但目前訓練時間還處於初始階段。訓練圖像幾乎都來自專有的風景圖像數據集，因此系統識別目前也只專注於風景。

　　雖然 GauGAN 2 仍然還在 Demo 階段，自己的作品也都大部分翻車了。但硅星人也發現很多大神已經使用 GauGAN 2 創作出了很多有趣的作品。

　　

　　圖片來自 Reddit

　　

　　圖片來自 Instagram

　　感興趣的小伙伴假期無聊的話也可以自己去玩一玩：

　　https://www.nvidia.com/en-us/research/ai-demos/

　　期待看到你們的大作！