2026 閒聊：當 XR 普及後，我們準備好真正的 4D Content 了嗎？—— 林經堯 Jinyao Lin

5 月 29 日

本篇節錄 Creative Media Gathering #34 由林經堯帶來的分享 ——真實世界能被完整數位複製嗎？隨著高斯潑濺技術的崛起，這個問題的答案正逐漸從想像走向現實。回顧三維重建技術數十年的演進，每一次突破都在重新定義我們捕捉與再現世界的方式。

Creative Media Gathering #34，講座，分別由楊凡力FL YANG與林經堯Jinyao Lin帶來的兩段精彩分享。本篇節錄由林經堯介紹高斯潑濺的技術演進以及應用方式，以及團隊近期在發展的攝影系統。

三維重建技術的發展脈絡

三維空間重建技術經歷了數十年的演進。最早期的方法稱為攝影測量法（Photogrammetry），原理是透過大量不同角度的照片，擷取物件之間的特徵點（feature points），再利用三角匹配的方式還原出立體的 3D 模型。這種方法結合了光學與幾何運算，技術上已相當成熟，但有一個根本性的限制：光影資訊會被直接「烘焙」進貼圖，無法根據觀看角度動態變化，也無法處理缺乏特徵的區域（例如均勻的天空背景）。

2020 年前後，隨著深度學習與神經網路的發展，NeRF（Neural Radiance Field）技術興起。NeRF 的概念是將整個三維空間視為充滿能量的場域，利用神經網路學習並預估這個空間的光輻射分布。它的優點是即使攝影機沒有拍到的區域，也能合理地補全，重建出的模型不容易出現破損或缺洞。然而，NeRF 的缺點也很明顯：運算量極大，無法即時渲染，實際上難以用於互動式應用或 VR、AR 場景。

高斯潑濺的核心優勢

有別於前兩種方法，高斯潑濺（Gaussian Splatting）採用了截然不同的表示方式。它將三維空間以大量橢球形的「高斯體」來描述，每個高斯體帶有漸層特性，就像是用不同大小的筆觸點描出整個世界。由於真實世界中許多區域並非細小的點，而是大塊連續的色面（例如一件白色衣服），因此可以用較少的高斯體有效表示，大幅降低運算量，同時維持高品質的視覺效果。

這使得高斯潑濺兼具了 NeRF 的重建品質，又能達到即時渲染的效能，非常適合用於 VR 互動、遊戲引擎整合（如 Unity），以及網頁端的即時呈現。目前全球各大研究機構投入大量資源研究這項技術，光是每年發表的相關論文就多達三、四十篇，主要集中在中國的浙江與上海的學校，以及部分美國大學。

技術並非相互取代，而是各有所長

值得注意的是，三種技術並不是線性取代關係，而是根據應用情境各有優勢。攝影測量法做出的模型具有完整的幾何網格（Mesh），可以重新計算打光，適合影視級製作；NeRF 則適合用在高品質的影像重建與渲染；高斯潑濺則在即時互動與效能上最具優勢。

三種演算法完全都不一樣，但是都是為了去重建這個世界。

實際製作時，也可以採取混合策略。例如在重建某一場景時，同時以高斯潑濺與攝影測量法分別處理，前者負責大範圍環境，後者負責需要動態光影的核心物件，天空則另以 Skybox （註：天空盒，將整個場景包覆在內的大型立方體，創造 3D 立體環境的視覺錯覺。）補足，最終整合為完整作品。

邁向 4D：動態捕捉的挑戰

3D 重建解決了靜態場景的問題，但 VR 與互動應用中，動態內容不可或缺，這就帶出了 4D 高斯潑濺（4D Gaussian Splatting）的需求。所謂 4D，即是在三維空間的基礎上加入時間維度，捕捉動態的人物或場景。

過去業界多以 4D View 攝影棚進行動態人物拍攝，但這套系統有幾個根本問題：重建品質有限，近距離觀看時臉部細節容易失真；系統採用硬體同步，架設與維護成本極高；此外，拍攝完成後的原始資料往往被鎖在廠商的硬體系統中，使用者無法取得，也就無法在新技術出現後重新運算。

自建攝影系統的技術突破

為了克服上述困境，林經堯的團隊決定自行開發攝影系統。核心挑戰在於：要實現高品質的 4D 重建，必須讓所有攝影機在一毫秒內同步拍攝；若相機數量達到 40 台以上，即時串流的頻寬需求可高達 20Gbps，遠超目前一般網路基礎設施的能力。

我們一定要自己拍攝的攝影棚，至少這些資料我們是自己可以自主擁有。

團隊的解法是結合 IoT 技術，自行設計攝影機模組，以軟體同步取代傳統的硬體線路同步。透過 PTP（精確時間協議），讓所有裝置在一毫秒內完成時鐘同步，再以自行撰寫的軟體控制快門時序，達到與硬體同步相同的精準度。同時，透過即時壓縮與在機端預處理，大幅降低傳輸頻寬需求，使系統具備高擴充性。由於採用自製模組，成本僅為商用工業相機的二十分之一，大幅提升了建置的可行性。

未來方向：從捕捉到生成

目前團隊已架設配備 88 台攝影機的拍攝環境，重建品質相較於過去的 4D View 系統有顯著提升，人物細節更為逼真，且原始資料完全自主掌控。

在後續研究上，團隊也在探索如何將高斯潑濺與傳統幾何網格結合，讓高斯模型能夠與底層 Mesh 綁定，進而支援動態打光與臉部驅動（如透過語音即時驅動 3D 人物的表情與動作）。

從更宏觀的角度來看，4D 內容的大規模採集，也是未來訓練生成式 AI 不可或缺的資料基礎。目前 AI 生成影片在物理合理性上仍有不足，根本原因在於缺乏高品質的 4D 訓練資料。唯有建立完整的動態捕捉資料庫，才能讓 AI 真正學會生成符合現實的四維世界。

結語：隨著高斯潑濺的技術發展快速，越來越多創作作品中，得以看見其應用。期待未來技術的演進，能帶動更多創意實現的方式。

CC BY-NC-ND 4.0 授权