目錄
什麼是Sora
Sora 是由OpenAI提出的一種擴散 (diffusion) 模型,能夠根據使用者輸入的幾段描述文本產生一整個影片。Sora 能夠一次性生成整個影片,或者延長既有的生成影片以使其延長。
除了能夠遵循用戶指令生成影片外,該模型還能夠使用既有圖像來生成影片,準確地將圖像內容進行動畫化並兼顧細節,還可以拓展既有影片或填補其缺失的畫面。
此外,Sora還可以無縫地將影片向前或向後延伸,使其循環播放。利用像SDEdit這樣的擴散模型,Sora可以根據文本提示編輯影片,改變風格和環境。它還可以在兩個輸入影片之間進行內插,建立平滑的影片內容,並通過在空間網格中排列高斯噪音增益集來生成圖像。Sora的大規模訓練使其能夠模擬物理和數字世界的各種方面,包括3D一致性,長距離連貫性,物體永久性,與環境的互動以及模擬像影片遊戲這樣的數位世界。
相較原有的技術,Sora達成的突破
通過預視數幀的影像,OpenAI 解決了一個頗具有挑戰性的問題。即確保在視野暫時離開一小段時間後,影像主題也能保持不變。與 GPT 模型類似,Sora 使用了一種轉換器架構,取得了優越的性能延展。
這些神奇的功能Sora怎麼做到的
一開始時產生一個看起來像靜態噪音的影片,然後透過許多步驟逐步去除噪音,最終生成影片。
Sora 建立在 DALL·E 和 GPT 模型的研究基礎上。它使用了 DALL·E 3 中的重新標註 (recaptioning) 技術,該技術生成高度描述性的標題,及影像訓練數據。因此,模型能夠更忠實地遵循用戶指令來生成影片。
Sora 作為理解和模擬現實世界的模型基礎,我們相信這將是實現通用人工智能的重要里程碑。 — Sora(openai.com)
大型語言模型(LLM)使用 token 來代表各種文字/文本形式,將其通過大量的網路數據來訓練。OpenAI 的工作受到大型語言模型的啟發,將視覺套件轉成 token 來訓練。視覺模型已被證明是有效的增益集(patch),被發現對於在各種影片和圖像上訓練生成模型具有高效能和高可擴展性。
在他們的研究中,OpenAI發現擴散轉換器在影片模型方面有著有效的可擴展性。通過對比具有固定文本和輸入的不同訓練階段的影片樣本,OpenAI展示了隨著訓練計算資源的增加,樣本品質明顯提高的情況。
Sora 通過將影片轉換為增益集,將其降維成增益集。通過訓練影片壓縮網絡來降低視覺數據的維度,使Sora能夠在此壓縮的潛在空間內生成影片。此外,OpenAI開發了一個解碼器模型,將生成的潛在空間對映回像素空間。從壓縮影片中提取的潛在增益集充當轉換器token,使Sora能夠處理具有不同分辨率、持續時間和寬高比的影片和圖像。在推論期間,可以通過將隨機初始化的增益集排列成網格來控制生成影片的大小。
和既有影像的結合
傳統上,影像和影片生成的方法涉及對影片進行調整大小、裁剪或修剪以適應標準大小。然而,OpenAI發現以原始大小訓練數據具有多重優勢。
其中一個關鍵優勢是在取樣方面的靈活性。他們的模型Sora能夠取樣不同寬高比的影片,包括寬螢幕和垂直格式,從而直接生成各種符合設備原生寬高比的影像。這也有助於在使用相同模型以完整分辨率生成內容之前,以較低分辨率進行快速原型設計。
此外,OpenAI的實證研究表明,在其原生比例下進行影片訓練有助於構圖和取景的優化。將Sora與將所有訓練影片裁剪成方形的模型版本進行比較後,OpenAI觀察到由Sora生成的影片呈現出改進過的構圖,避免主題部分不在視野中,這在訓練生成模型時是一種常見做法。
此外,訓練文本生成影片系統需要大量具有相應文本標題的影片。OpenAI採用了DALL·E 330中引入的重新標題技術來處理影片。他們首先訓練了一個高度描述性的標題生成模型,然後利用它為訓練集中的所有影片生成文本標題。OpenAI發現,訓練高度描述性的影片標題有助於提高文本的忠實度和整體影片品質。與DALL·E 3類似,他們還利用GPT將簡短的用戶提示轉換為詳細的標題,使Sora能夠生成符合用戶提示的高品質影片。
Sora具備根據提供的圖像和提示創造影片的能力。OpenAI展示了從DALL·E 231和DALL·E 330圖像生成的範例影片。這些影片描述了各種場景,包括一只戴著帽于和穿黑色高領毛衣的柴犬,一個扁平設計風格的多樣化怪物家族插圖,一個寫有“SORA”的逼真雲,以及衝浪者在一個華麗的歷史大廳中穿越潮汐浪潮。
目前遇上的瓶頸
然而,Sora在準確模擬某些互動方面仍存在限制,因為在某些情況下它並未準確模擬物理現象,例如玻璃破碎。儘管存在這些限制,但OpenAI認為Sora目前的能力表明了開發高度功能的物理和數字世界模擬器以及其中居住實體的有希望的途徑。
有沒有覺得現代AI 的發展真的超乎想像的神奇,更多詳細內容可以參考OpenAI的官方說明。也可以看看原作者的英文敘述會更好理解喔。
AI的時代,比其他人更早一步掌握關鍵技術。除了跟朋友炫技一番,也可以把握時機推出您的專業技能服務,讓AI為你賺錢。快到技能市集上展示您AI生成技術吧!!