當我和AI一起做夢

阿嗅

7 月 1 日

拍電影是有門檻的，技術的，人力的，資金的。還有時間的。但用AI拍電影，不用消耗那麽多。記一個和AI一起做的夢。

TL; DR：和AI一起做夢的過程中難免有幻覺。而幻覺打開了更多的可能。

四月中旬參加了Next New Wave 主辦的9天AI短片創作工作坊，每天學習怎麽和AI一起創作，更多的是和它一起做夢。

從一開始的覺得AI“不聽話”——就算是給了chatGPT照片，讓她轉化成水彩畫。無論照片多清楚，他還是會產生偏誤、產生幻覺——到覺得不聽話也很好。偏誤和幻覺打開了可能性。生成的圖片和影像因爲偏誤和幻覺，反而產生了新的敘事方式。

在影片的中間，本來純粹想zoom in阿嫲的手，可靈(KLING AI)卻錯把三張照片交曡在一起，成了故事的中心——阿嫲的手。

聲音也是如此。這次我用了AI (Minimax) 來克隆 (clone)聲音，再把之前寫的文章放進去轉換，讓它生成廣東話的聲音。因爲廣東話的用詞和華語不太一樣，就一邊生成一邊改。一開始一次生成一整段，但那樣一次就耗損太多credit。後來我就一句一句寫，一句一句改，有時候也反復調整pitch，語速和聲音，讓語速和剪輯自然些。Minimax的界面不難用，也有很多Credit可以玩。

同時，導師們也介紹了Suno, 可以用來生成音樂。我試著讓它譜一首只有樂器，沒有歌聲的音樂，類似Beyond《真的愛你》的編曲，結果變成了這樣：

Beyond Jan Dik Oi Nei Truly Love You(3)

聲效方面用了Elevenlabs, 影片生成用了Vidu，都有課金，算是學費。 Elevenlabs的聲效資料庫很大，只要描述夠精準，它都能提供近乎準確的聲效。

Vidu要升級才能生成8秒的圖像轉影片，平常只能生成4秒的，像素也不高。翠梅姐說，Vidu的負責人是有學過電影的，懂得電影的語言，鏡頭的移動，還有美學。比起Kling,確實Vidu用起來比較直觀和容易。因此，影片中除了zoom in手的部分，其它會動的，都是用Vidu生成的。由於AI的世界都是2D的，因此任務動起來時就會有各種變形，人物面容和服裝也難以統一調和。Consistency是最難的。

對了，影像是做成水彩畫的風格，或是medium。而水彩畫幾乎都是由舊照片生成的。
要怎麽把現實的照片描述給AI知道？我用了Google Studio來幫我描述：

把照片“喂”給Google AI Studio，他就會給你三個選擇，在這裏可以細細研究他的"a", "or" , "and" ， "top"的用法

爲什麽要用Google AI? 因爲我懶。一開始，我就貼了照片，請chatGPT換成水彩畫，就會得到這樣的結果：

教訓就是，我懶，AI會比我更懶。翠梅姐說過，我們要把AI逼出comfort zone, 不能讓他偷懶。換言之，我們自己的思考也要跳出comfort zone, 不能懶。這次的“手作”經驗也讓我理解到，語言要足夠精確，AI才會知道你要什麽。這樣合作才有可能。AI就像是collaborator這樣説很像很cliche，但卻實是如此。

完成後我意識到，AI其實也很耗神的，我上課上到第五天就投降了，體力和精神都沒辦法支撐下去。

又，這次的經驗讓我發現：我~~的聲音很好聼~~對聲音很敏感。還有，原來用sound design來撐起一個作品，是可能的。

以上。寫於阿嫲離去的六年整。