在 Gemini Omni 來臨之前:一份關於下一代影片 AI 的觀察筆記
一、引子
最近這幾週,只要打開 X(以前的 Twitter)、Reddit、或者隨便一個 AI 工具的 Discord,你都會看到同一個名字:Gemini Omni。
它是 Google 即將在 2026 年 5 月的 I/O 大會上發表的新一代 AI 影片生成模型。據傳能在一次生成中同時處理文字、圖片、影片、聲音——也就是所謂的「統一多模態」。
關於它的技術細節,網路上已經有很多整理文章了。我不打算重複寫一篇。我想寫的,是另一個層面的東西——作為一個用 AI 工具兩三年的創作者,在等待 Gemini Omni 上線的這段日子裡,我在想什麼。
這篇可能不是你期待的那種「快速懶人包」。如果你只想知道功能,推薦去看其他人寫的詳細介紹。但如果你跟我一樣,對「工具的進化會帶來什麼樣的世界」有點好奇——歡迎讀下去。
二、那個讓我意識到「時代要變了」的瞬間
兩週前的一個晚上,我在朋友的 Discord 群組裡看到他丟了一段大約 8 秒鐘的影片。畫面是一個咖啡杯,上方有一行清晰的繁體中文字:「今天也要好好過。」
字體乾淨、位置自然、整個鏡頭從遠拉近的過程中字一點都沒有變形。
我心想,這是哪個設計師朋友幫他做的?
朋友說:「Gemini Omni 跑的。一個 prompt。」
我看著那段影片看了好久。不是因為它有多美,而是因為我意識到一件事——那種需要剪輯師、需要 After Effects、需要懂時間軸、需要繁瑣後製的工作,從那一刻起,可能正在某個轉折點上。
不是說剪輯師會消失。是說,那種「我有想法但沒能力做」的人,可能正在被釋放出來。
三、Gemini Omni 是什麼?(簡短版)
為了照顧到中途才讀這篇的朋友,我簡單交代一下技術背景。
Gemini Omni 是 Google 即將推出的下一代 AI 影片生成模型。它的特點是:
統一多模態 — 一次生成中同時處理文字、圖片、影片、聲音
業界最強的影片內文字渲染 — 中文、英文、日文、韓文都能正確顯示
聊天式編輯 — 用自然語言改影片,不需要剪輯軟體
內建配音 — 音訊和影片一起生成,口型對嘴自然同步
預計 2026 年 5 月在 Google I/O 上正式發表。
如果你想看更多預覽樣片和社群整理,目前資訊整理得比較完整的是這個預覽頁面。
技術介紹到這裡。下面回到我真正想談的事。
四、工具的進化會「壓平」一些什麼
每一次工具的進化,都會壓平某種原本只有少數人才能做到的事。
1990 年代,排版軟體普及之前,要做一本像樣的書、一張像樣的傳單,你必須去印刷廠、找排版師。Photoshop 出現之後,設計變成「會用軟體的人都能做」。
2000 年代,網頁建置工具出現之前,做網站需要會 HTML、CSS、JavaScript。Wix、Squarespace、Wordpress 普及之後,做網站變成「會打字的人都能做」。
2020 年代初期,ChatGPT 出現之前,寫一篇有條理的文章需要訓練。GPT-4 之後,寫文章變成「會描述自己想要什麼的人都能做」。
我想說的是,Gemini Omni 可能是「做影片」這件事被壓平的那一刻。
以前,做一支 10 秒的、帶有清楚文字、配音、背景音樂、流暢轉場的影片,你需要:
一個拍攝者
一個配音員
一個剪輯師
一個動畫師
幾天的時間
一些設備
Gemini Omni 之後,可能變成:
一個會打字描述需求的人
30 秒到 1 分鐘的時間
一個瀏覽器
這對誰最有意義?不是已經會做影片的人——他們會繼續做,只是更快。
是那些一直有想法、卻被「我不會用 PR、我請不起剪輯師」擋在門外的人——這些人會湧進來,做出他們腦中一直想做的東西。
五、那些「不會被壓平」的東西
但我也想誠實地寫下另一面。
不是所有東西都會被工具壓平。
1. 品味
AI 可以幫你做出技術上很完美的影片。但要決定哪個想法值得做、什麼樣的節奏會打動人、什麼樣的故事是真誠的——這個還是人的事。
2. 個人經驗的厚度
AI 可以生成一個「在深夜便利商店吃泡麵」的場景。但它沒有我大學時失戀那個禮拜真的在 7-11 連續吃了三天泡麵的記憶。我寫下的東西裡的那種重量,不是參數。
3. 對自己作品的長期責任
AI 可以幫我做出 100 支影片。但這 100 支影片代表「我」。哪一支該發、哪一支不該發、什麼樣的內容會傷害人——這個判斷,還是只有人能做。
4. 跟讀者、跟其他創作者的關係
沒有 AI 能替我回覆馬特市民的留言、跟另一個寫作者深夜對話、在朋友疲憊的時候給他打氣。這些事情才是創作這件事的真正意義——產出本身只是其中很小的一部分。
六、寫給跟我一樣有點焦慮的人
如果你看到這裡,你可能跟我一樣,對工具的快速進化有點焦慮。
你可能在想:
「我學了那麼久的剪輯,以後是不是就沒用了?」
「我才開始學 AI 工具,結果又有更新的東西出來了,跟得上嗎?」
「以後人人都能做影片,我的內容還有什麼差異化?」
我也常常想這些。我沒有完美的答案,只有兩個觀察可以分享:
觀察一:工具會變,但「會用工具的人」永遠稀缺。
PR 普及之後,還是有真正厲害的剪輯師。Photoshop 普及之後,還是有真正厲害的設計師。會用工具是門檻,但深度使用、把工具用出個性,是天花板。Gemini Omni 之後,做影片變容易了——但「做出有想法、有風格、能讓人想看完的影片」會變難,因為現在所有人都能做。
觀察二:創作者真正的競爭對手,從來不是 AI。
是「不寫東西的自己」。是「沒有耐心慢下來思考的自己」。是「為了趕內容而放棄品味的自己」。
AI 工具讓執行變便宜了。但是思考、感受、選擇——這些事情,只有當你願意停下來、慢下來、誠實面對自己的時候,才會發生。
七、寫在最後
明年五月,Google I/O 2026 之後,我們會看到很多新的影片在網路上流傳。一部分是真的厲害,讓人忍不住點進去看。另一部分是 AI 量產的內容,看完就忘。
對於前者,Gemini Omni 是一個強大的工具。對於後者,Gemini Omni 也是一個強大的工具。工具沒有偏好。決定走向哪一邊的,還是用工具的人。
我希望我自己——還有讀到這裡的你——可以走在前者那一邊。
不是因為我們比較會用工具,而是因為我們還在乎自己做出來的東西。
下一次更新,等正式發表之後我再來寫實測心得。在那之前,如果你也對這些有什麼想法,歡迎在留言區告訴我。
寫於 2026 年初春。一個工具還沒到、世界卻已經開始為它讓位的時刻。
#Matters創作筆記 #AI工具 #Gemini Omni #工具焦慮 #獨立創作者 #繁體中文
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!