| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

新聞資訊

論壇

溫哥華地產

大溫餐館點評

溫哥華汽車

溫哥華教育

黃頁/二手

旅游

Sora的真相 進步驚人但需大量人工

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
2月初,OpenAI發布的Sora驚艷了全世界,它在文生視頻上的革命性突破,一度被視為吹向好萊塢的一場大風暴。


Sora是一種擴散模型,與以往的 AI 視頻生成器相比,Sora 能夠依據提示詞生成長達一分鍾的視頻內容,保持視覺質量和一致性,並且實現鏡頭的切換和構圖調整,它還能使視頻與背景相關的主題細節准確符合,生成的視頻更加逼真,仿佛是現實世界的延伸。

當時,OpenAI還發布了技術說明,表明它未來可以將生成的視頻延長或無縫混合兩個視頻


3月起,Sora對一些藝術家開放了使用權限,月末,OpenAI在官網發布了幾位藝術家使用Sora生成的超現實視頻作品。近日,這些作品之一《氣球人》背後的藝術家團隊Shy Kids全揭秘了使用Sora的制作過程。

整體看下來,真正投入到影視制作中的Sora並沒有當初那麼驚艷,但它已經足夠令人震撼——能讓一個僅有三人的團隊,在大約1.5至2周的時間內便制作出了一部精彩短片。

在該團隊看來,當前形態的Sora在特定的圖像生成方面取得了令人難以置信的進步;但對於相對復雜的項目,可能還需要一段時間的進化才能滿足導演的具體需求。除了Sora的使用,這部《Air Head》依然使用了大量的編輯和人為指導才制作完成。團隊表示,“將Sora融入創作流程是一種很真實的工作方式,但如果不這麼幹,好像也沒什麼關系。”

以下為 fxguide 與 Shy Kids 就 Sora 目前的工作原理進行討論的內容整理:

作為獲得了Sora的有限訪問權限的制作團隊之一,Shy Kids團隊制作了Sora短片《Air Head》。Shy Kids是一家加拿大制作公司,以其多樣化和創新的媒體制作方法而聞名。

Sora目前正在開發中,並通過像Shy Kids這樣的團隊的反饋積極改進。重要的是要認識到:Sora尚處於非常早期的發展時期,幾乎可以稱之為前阿爾法階段。

Shy Kids中負責後期制作的帕特裡克評論道,使用Sora是很有趣的過程,Sora是一個非常強大的工具,“我們已經在夢想著它可以如何融入我們現有的流程。但我認為對於任何生成性AI工具來說;控制力仍然是最令人向往的,也是目前最難捉摸的東西。”

用戶界面和交互:為提升一致性,僅支持文本輸入

Sora的用戶界面設計簡潔,它允許藝術家通過輸入文本提示來啟動視頻片段的生成過程。


藝術家輸入想要的場景描述後,OpenAI的ChatGPT技術會將其轉換成更長的字符串,這一步驟是觸發Sora生成視頻片段的關鍵。

目前,Sora僅支持文本輸入,尚未整合多模態輸入方式,也就是說,除了文本描述外,用戶無法通過其他形式如圖像或聲音來提供輸入。

這種設計的重要性在於,盡管Sora在保持視頻鏡頭內對象的一致性方面做得非常出色,但系統目前還無法確保第一個鏡頭中的內容與隨後的鏡頭完全匹配。

換句話說,即使是使用相同的文本提示,Sora在不同時間生成的視頻片段也可能存在差異。為了盡可能保持一致性,用戶需要在文本提示中盡可能詳細地描述場景,包括角色的服裝和道具的類型等。然而,即便如此,Sora在鏡頭之間的一致性控制方面仍然存在局限,因為它尚未具備完整的功能集來實現完全的控制。


“我們能做的最接近的事情就是在我們的提示中加入更詳細地描述,”帕特裡克解釋道。“解釋角色的服裝,以及氣球的類型,是我們實現一致性的方式,因為因為目前還沒有完整的功能集來完全控制鏡頭到鏡頭的一致性。”

Sora生成的每個獨立片段,就其所代表的技術而言,都是令人驚歎的。然而,如何有效利用這些片段,取決於用戶對Sora隱式或顯式鏡頭生成方式的理解。

例如,如果你要求Sora生成一個在廚房裡長距離跟蹤的鏡頭,並且鏡頭中包含一個放在桌上的香蕉,Sora將依賴於其對“香蕉”這一概念的隱式理解來生成一個顯示香蕉的視頻

通過訓練數據,Sora已經學習了香蕉性的隱式特性:例如“黃色”、“彎曲”、“末端有深色”等。但它沒有香蕉的實際記錄圖像,也沒有“香蕉庫存庫”數據庫;它有一個更小的壓縮隱藏或“潛在空間”來代表香蕉的概念。因此,每次生成的運行都會展示出這個潛在空間的不同解釋,這意味著用戶輸入的提示必須基於對這些隱式特征的理解。

角色Sonny的一致性:

團隊試圖在不同鏡頭中保持黃色氣球頭Sonny的一致性,但Sora無法確保每個鏡頭中的氣球顏色和樣式完全相同。有時氣球的顏色或樣式與提示不符,甚至出現意外的臉部圖案。


覺得新聞不錯,請點個贊吧     還沒人說話啊,我想來說幾句
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0376 秒 and 6 DB Queries in 0.0055 秒