北美智權股份有限公司

352期


2024 年 03 月 06 日

北美智權官網

智權報文章分類／搜尋歷期智權報訂閱北美智權報

OpenAI再寫AI生成模型新里程碑：Sora的優勢與風險何在？

吳碧娥╱北美智權報　編輯部

2024年2月15日，OpenAI推出人工智慧影片生成模型Sora，並公開了一系列示範影片，展示Sora極其逼真的動畫製作能力，讓人留下深刻的印象。只要透過提示詞描述一個想法，就能在幾秒鐘內看到它以高真實的影片形式呈現在你眼前，這就是Sora的力量。

OpenAI將Sora技術報告取名為「Video generation models as world simulators」，展現OpenAI打造「世界模擬器」的企圖。Sora是AI發展進程的里程碑，將加速超越人類的「通用人工智慧」（AGI）到來，Sora不僅推動上游AI伺服器、光通訊和晶片產業發展，影視、廣告行銷、IP等內容產業，未來都有可能受益於生成式影片發展。

OPEN AI正在教導AI理解和模擬物理世界的運行方式，Sora建立在過去OpenAI對DALL-E和GPT模型的基礎之上，OpenAI在2023年9月發布了DALL-E 3，它是DALL-E文字到圖像模型系列的第三代產品。Sora利用改良版的DALL-E3技術，並超越了ChatGPT基於文字模型的功能。根據OpenAI公佈的Sora大模型技術報告，Sora的核心技術為Diffusion Transformer架構，透過影片壓縮網路、時空補丁提取和影片生成三個主要步驟，可製作出長達60秒、解析度1080p的影片，還能根據文字提示編輯和擴展內容，代表著人工智慧創建內容領域的重大突破。

要訓練從文字到影片的AI產生系統，需要大量帶有相應文字字幕的影片，OpenAI首先訓練一個高度描述性的字幕產生器模型，並對高度描述性影片字幕進行訓練，以提高文字保真度以及影片的整體品質。OpenAI利用GPT將簡短的使用者提示，轉換為較長的詳細字幕，然後傳送到視訊模型，使Sora能夠根據用戶提示詞產生準確的高品質影片，還能夠在時間上向前或向後，擴展出更長且視覺連貫的影片。

在發佈Sora的同時，OpenAI也承認Sora有其限制，包括不能準確模擬基本相互作用的物理過程（例如玻璃破碎）、長時間樣本中可能出現不連貫性，或是對於理解因果關係仍有挑戰。而為了安全性問題，Sora將限制對性、暴力、仇恨或名人圖像，以及包含智慧財產權內容的文字提示。OpenAI目前先向小型的「紅隊」（red teaming）提供部分的訪問權限，「紅隊」由錯誤訊息、仇恨內容和偏見等領域的專家所組成，他們將以對抗性方式測試Sora模型。OpenAI亦和特定的影片製作者和藝術家共享Sora，以尋求在創意領域中的使用回饋，未來才會進一步將Sora公開給一般公眾，時間仍未定。

還有哪些AI影片生成工具？

事實上，文字生成影片並非新鮮事。在Sora發布前，已有數十種影片生成產品開始投入使用，全球數百萬用戶根據文字或圖像提示創建短片。根據美國投資機構a16z統計，截至2023年底，已有21個經由大型科技企業和新創公司發布的AI視訊模型，其中包括較知名的Runway、Pika、Genmo以及Stable Video Diffusion等[1]（詳見圖一）。

圖一、21個AI影片模型

圖片來源：a16z

Sora並非同類產品中的第一個，只是其他已經發布的AI模型，基本上都只能生成10秒以內的極短影片，Sora可以產生60秒一鏡到底的多鏡頭影片，大幅提高了影片的品質和生成內容長度。而其他大型科技公司也有令人矚目的AI影片生成模型，像是Meta的Emu Video、Google的Lumiere，以及字節跳動的MagicVideo，只是至今仍未宣布他們的模型何時公開，僅處於研究階段。因此，OpenAI推出的Sora，仍為AI影片生成行業向前邁出了一大步。

用AI模型也能拍出電影

另一個值得注意的是，熱門照片和影片編輯應用程式Facetune和Photoleap背後的以色列新創公司Lightricks，即將在今年3月27日推出一款視覺AI視訊工具LTX Studio，強調僅使用文字描述即可產生角色、場景、分鏡，除了能在較長的製作過程中進行編輯和控制，甚至可以製作整部電影。由使用者編寫生成人物和情節的文字描述，再從各種攝影機角度和風格中進行選擇，並添加音樂、音頻和各種自訂元素。Lightricks表示，LTX Studio最初將會是免費的，未來希望透過LTX Studio催生更多類型的電影專案，即使是非常小的團隊，也能夠創造出驚奇之作。

圖二、LTX Studio帶來的故事敘述體驗。

圖片來源：LTX Studio

潛在的資安風險

KPMG安侯企業管理股份有限公司董事總經理謝昀澤表示，過去一段時間，以生成式AI技術創作或偽冒影片的深偽技術（Deepfake）越來越普及，但多數影片都無法達到高畫質、長時間，且多鏡位的品質，且深偽的工具使用門檻也較高。但Sora卻一舉突破了這些障礙，根據簡單的提示詞所生成的4K超高畫質影片，真實感已經達到專業人士難以分辨真偽的程度。

謝昀澤認為，過去大家都擔心會有超越專家能力的「超級人工智慧」（Super AI）出現，但是現在「超級深偽」（Super Deepfake）欺詐技術，已隨著越來越多的網路AI影音服務就在眼前，如果沒有適當的風險控制，恐將形成「深偽即服務」（Deepfake as a Service，簡稱DaaS）的暗黑產業鏈，這項技術可能被用來製造更加精細和難以辨識的假新聞，對公眾意識形態、選舉、乃至國家安全均構成前所未有的挑戰，連過去傳統的資安防護與認證基礎工程，如遠距身分識別等機制，都可能被撼動。儘管Sora的能力令各界感到驚艷，但AI生成影片所衍生的社會影響和道德問題仍成為隱憂，尤其美國將在2024年進行總統大選，AI生成影片可能傳遞錯誤和詐欺宣傳，在選舉期間更成為不可忽視的巨大風險，潛在資安風暴正在生成中。

資料來源：

OpenAI Research: Video generation models as world simulators.
2024/2，Lightricks: Lightricks Introduces First Generative AI Filmmaking Platform: LTX Studio.

備註：

參考資料：2024/1/31，a16z.com: Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024.

作者：	吳碧娥
現任：	北美智權報主編
學歷：	政治大學新聞研究所
經歷：	北美智權報資深編輯驊訊電子總經理室特助經濟日報財經組記者東森購物總經理室經營企劃

Facebook

在北美智權報粉絲團上追踪我們