📝📝:新媒體理論家 Lev Manovich: 生成式 AI 擅長「視覺上的超現實」,但抗拒「邏輯上的超現實」

鋼哥
·
·
IPFS
·
AI 讓創作變得非常簡單,同時也讓「精準控制」變得極為困難。
Lev Manovich. via manovich.net

本文參考自 Lev Manovich 著作《A Medium That Thinks》


我們正活在一個奇特的時代。

每天,有數以千萬計的人正在用AI工具創作圖像、音樂、影片、文字。這場創作革命來得如此迅速,以至於我們幾乎忘了停下來問一個根本問題:這個叫做「生成式AI」的東西,究竟是一種什麼樣的媒介?

媒體理論家兼藝術家 Lev Manovich 在他的最新論文《A Medium That Thinks》中,試圖跳脫那些關於 AI 的道德辯論與社會批評,從媒介本質的角度出發,分析了生成式AI 作為創作工具的六個核心特性。


1️⃣幾乎無法精準控制

AI 讓創作變得非常簡單,同時也讓「精準控制」變得極為困難。

對 Manovich 來說,這就是這個媒介(生成式 AI)的本質,而非科技的瑕疵或使用者技術不夠純熟。生成式 AI 的運作方式是從海量資料中提取模式,再透過機率預測來生成新內容。這就代表,AI 每次的輸出都含有不可消除的隨機性

對一般使用者來說,這種「失控感」或許無所謂,甚至充滿樂趣。但對於需要精確控制每一個視覺元素的設計師、廣告攝影師、品牌設計師而言,這個「樂趣」就成了職業道路上的一大阻力。

想像你要為一個商品設計廣告圖,商標的位置、文字的排版、光線的角度 — — 每一個細節都攸關品牌形象,但 AI 卻自顧自地做了無數個你無法預測的決定

Manovich 提出了一個有趣的分類方式:

我們可以把整個創作宇宙分成兩類:那些需要高度精準控制的創作,以及那些允許模糊與隨機的創作。

前者包含大多數的商業設計工作,長度、厚度、高度、色澤、色溫、飽和度,背後都包藏著一組特定數值,而後者則可能更適合探索性的藝術實驗,隨機拼出的圖像即便不完美也能是一幅作品。

生成式 AI,天生就更適合後者。

大多數的商業設計工作,長度、厚度、高度、色澤、色溫、飽和度,背後都包藏著一組特定數值。Photo by Amélie Mourichon on Unsplash

2️⃣史無前例的自由

在 AI 出現之前,藝術家已經用各種方式把「隨機性」引入創作過程。

這種對「不確定性」的追求在 1960 年代的紐約 Judson Dance Theatre 實驗表演中可見一斑,例如 Yvonne Rainer 或 Trisha Brown 的表演,在固定結構中保留即興空間 。爵士樂、哈普寧藝術(happenings)以及 John Cage 在現代音樂中使用的隨機(4 分 33 秒),都是創作自由度特性的歷史先聲 。

但這些方法有個共同限制:創作的「自由度」終究是有限的。傳統藝術家為了引入隨機性,常使用特定工具或方法,但這些系統通常只在極少數維度上運作 。

例如「分子系統」(particle system)雖然能控制分子的透明度、速度等參數,但其生成的視覺效果通常具有明顯的「家族相似性」,只要看多了就能瞥見其中不斷重複的技法與筆觸,其自由度是有限且可預期的 。

直到 AI 打破了這個限制。AI 能生成的內容涵蓋了創作宇宙中極為廣闊的可能性空間 — — 廣闊到讓人難以事先預想。這種「多維度的不可預測性」在人類創作史上是真正前所未有的。

這不只是數量上的差異,而是品質的躍遷。當你輸入一個提示詞,你真的不知道 AI 會把你帶到哪裡。這種驚喜感,既是魅力所在,也是挑戰所在。

3️⃣反前衛的本質

Manovich 認為這裡出現了一個有趣的矛盾。

AI 看起來能做任何事 — — 生成超現實的圖像、混搭不同風格、創造奇異的組合。似乎擁有無限的想像力。但 Manovich 指出,AI 骨子裡其實是保守的

AI 是透過學習「世界通常是什麼樣子」來運作的。從無數的網頁、圖片、文字中學到了我們日常生活的邏輯:事物的外觀、行為的規律、視覺的慣例。這讓 AI 非常擅長生成「正常」的內容。

你想讓 AI 生成一隻貓追著狗跑?

通常 AI 會抗拒,因為這違反了資料庫學到的「動物行為邏輯」。但如果你要求「沙漠中的融化時鐘」,AI 卻能輕鬆做到,因為時鐘和沙漠都是熟悉的元素,只是空間組合不尋常。甚至,西班牙超現實主義達利(Salvador Domingo Dalí ),就曾經繪製過類似的圖像

Manovich 做了一個精闢的區分:

AI 擅長「視覺上的超現實主義」
但抗拒「邏輯上的超現實主義」

達利式的怪誕圖像?可以。顛覆世界運作規則?很難。

AI 是透過學習「世界通常是什麼樣子」來運作的。Photo by Sincerely Media on Unsplash

這讓 AI 從本質上成為了歷史上前衛藝術運動的對立面。前衛藝術的目標,正是要讓熟悉的事物變得陌生,打破既有的邏輯與視覺慣例。而 AI 的傾向,卻是不斷把你拉回熟悉的地方

在視覺美學上,AI 也有強烈的保守傾向。AI 生成的圖像偏好 19 世紀學院派寫實主義的審美:理想化的光線、解剖上正確的人體、清晰的空間透視、精緻的表面質感。這是因為網路上這類型的圖像數量最多,訓練資料的統計分布造就了這種視覺偏好。

結果就是,AI 很少產生真正激進的新視覺形式,反而更擅長在已知的視覺模式中進行重組與變奏。

4️⃣會思考的媒介

加拿大傳播理論家麥克魯漢(Marshall McLuhan)說,媒介塑造人的思維方式。但 Manovich 主張 AI 帶來的是一個更根本的顛覆:

這是一個自己會思考的媒介。
A Medium That Thinks.

過去,電腦藝術也曾模擬人類思維的某些面向 — — if/then的條件邏輯,可以說是在模仿推理。但那些功能都必須由程式設計師明確寫入,而且是針對特定任務的。

AI 的不同之處在於:AI 的認知能力是內建的,而不需要外部程式化。

像是 Google Gmini,同一個模型可以生成圖像、分析圖像、解釋圖像、修改圖像,還能討論任何藝術作品,其分析深度往往超過大多數人類觀者。甚至能審視你自己的作品,指出構圖問題、視覺層次、色彩關係 — — 那些有經驗的藝術家可能直覺感受到但說不清楚的問題。

這是創作媒介史上的真正斷裂點。這倒不是說 AI 多有用,Manovich 認為:我們第一次遇到一個自己具有廣泛認知能力的創作工具。

ChatGPT 生成

5️⃣通曉所有媒介的媒介

AI 擁有對藝術史、視覺文化、創作技法的百科全書式知識。沒有任何媒介在歷史上曾經如此了解所有其他媒介。

Midlibrary 這個資源列出了 400 種「藝術技法」 — — 從刺子繡、法貝熱彩蛋到卡洛版印刷、中國水墨 — — 告訴 AI 圖像工具模擬任何一種,它基本上都能做到。同一個平台還列出了 1546 位藝術家的風格,從 Frans Hals(荷蘭黃金時代肖像畫家)到 Hilma af Klint(瑞典藝術家,被認為是西方藝術史上最早的重要抽像作品之一),從葛飾北齋到達文西,全都可以指定風格生成。

這不只是知識的堆砌。AI 還學會了創作的「實踐性知識」 — — 它知道戶外場景應該配什麼樣的環境音效,知道某種拍攝內容應該用什麼類型的虛擬鏡頭。這種「媒介認知」 — — 無數媒介作品中蘊含的實踐智慧 — — 已經被模型吸收並內化。

6️⃣風格與內容的糾纏

當然,這種百科全書式的知識,卻帶來了一個奇特的困境。

Manovich 舉例,當你在提示詞中指定某位藝術家的名字,AI 往往不「只會」模仿他的風格,還會不自覺地帶入他的內容。Manovich 稱其為 AI 創作過程的滲透效應(Bleed Effect)。

一旦你指定「北齋」,可能會連帶出現海浪或富士山;或是指定「蒙德里安」,幾乎必定出現紅黃藍的格子;指定「芙烈達.卡蘿」(墨西哥女畫家,畫作受到墨西哥自然及文化和個人經歷的影響),自畫像與花草就會入侵你的構圖,無論你的提示詞說的是別的什麼。

如同 Manovich 說的,這不是技術 bug,而是模型學習方式的必然結果。在 AI 的表示空間中,風格與內容是糾纏在一起的(the entanglement of style and content),無法乾淨地分離、純化

日本江戶時代末期藝術家葛氏北齋。來源:維基百科

有一些方法可以部分緩解這個問題。比如 Midjourney 的「風格參考」功能( — sref),讓用戶提供一張參考圖片而非藝術家名字。模型會從圖片本身提取色彩、質感、線條、構圖等視覺特質,而不會觸發名字背後的內容聯想網絡。

這樣,你更可能得到用北齋視覺語言呈現的城市街道,而不是海浪和富士山。但更深的問題仍然存在:「風格」本身就是一個複雜的概念。

大多數藝術家的風格都隨著生涯演進而改變 — — 梵谷的巴黎時期、阿爾勒時期、奧維爾時期,風格各有不同。AI模仿某位藝術家,通常是在取這些不同風格的平均值,或者鎖定在他最著名的那些作品上

還有一個更有趣的問題:前現代的歐洲和東亞繪畫,常常在同一幅畫中包含多種不同的「風格」 。臉部和手部精細描繪,服飾和景色卻採用概略的筆法。這種有意為之的風格層次分布,AI 幾乎無法複製。

目前的 AI 只能捕捉圖像的平均特性,卻無法理解這種刻意的風格層次。這也是為什麼 AI 生成的圖像往往感覺過於均質 — — 整幅畫的筆觸、質感、細節程度都一模一樣。


人與創作過程的關係

Manovich 在結論中提出了一個他認為最重要、也仍然開放的問題:

生成式 AI 作為媒介,究竟讓什麼樣的藝術成為可能,而這些藝術是之前所有媒介都無法實現的?

他沒有給出明確的答案。但 Manovich也提出了一個解構性的反問:電腦從設計之初,就是為了模擬現有的媒介和認知操作(計算、索引、摘要、搜尋)。

那麼,我們為什麼要期待 AI 有所不同?

我們對 AI 創新性的期待,也許本身就是文化慣性的產物 — — 現代主義百年以來「必須創新」的窠臼,已經如此深入我們的思維,以至於我們不由自主地把這個標準投射到每一種新工具上。

但也許,AI 帶來的真正革命,創作中能生成什麼樣的圖像根本不重要,AI 改變的是人與創作過程的關係 — — 那個介於控制與放棄控制之間、介於意圖與驚喜之間、介於人類思維與機器認知之間的奇妙地帶。

那裡,可能才是真正值得探索的疆域。

CC BY-NC-ND 4.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

鋼哥從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
  • 来自作者
  • 相关推荐
物件筆記
40 篇作品

📝📝:物件筆記|冰箱|低溫保存,只是讓人延後承認食物的腐壞

📝📝:善於教學、管理、溝通的人,通常比工程師更快上手 AI|華頓商學院副教授怎麼用 AI 發想點子?