我是怎麼用 GPT Image 2 做日常創作的——從 prompt 到最終輸出的實作筆記

sinpo.wang

4 月 24 日

IPFS

上一篇聊了為什麼這件事對創作者有意義，這篇聊怎麼實際動手。給想跳過「哲學思辨」直接進入操作的朋友。

寫在前面

上一篇《那一刻我忽然明白》發佈之後，收到不少馬特市民的留言和私訊，最常被問到的問題其實不是「AI 取不取代創作者」這種形而上的話題，而是很具體的：

「那你到底怎麼用的？可以教我嗎？」

所以這篇就不聊觀察了，直接寫我這段時間摸索出來的一套流程。從 prompt 的結構、到參數設定、到踩過的坑，全部攤開講。

希望對想實際動手的你有幫助。

我的流程，一句話說完

先把整個流程總結成一句話：

用固定的六欄位結構寫 prompt → 一次生 4 張 → 挑一張 → 圖生圖微調 → 用到真正需要的解析度匯出。

就這樣。下面每一段都是在解釋這句話的某個部分。

一、寫 prompt 的六欄位結構

這是我花最久時間摸出來的。一開始我也是想到什麼寫什麼，一句話就是一個 prompt，結果生出來的東西很不穩定。後來我乾脆把 prompt 結構化，每次都按六個欄位順序填：

01 主體——畫面裡最重要的東西是什麼
02 場景——它在哪裡
03 光線——什麼樣的光
04 風格——寫實攝影、插畫、水彩、漫畫？
05 比例——想要什麼長寬比
06 細節——一個讓畫面有溫度的小元素

舉一個我上週實際用的 prompt，是給一篇講早晨儀式感的部落格文章做配圖：

主體：一個陶瓷馬克杯場景：淺色木質桌面光線：左側窗戶照進來的柔和晨光風格：寫實攝影風格，商品攝影比例：4:5 直式構圖細節：杯口飄著一縷細細的蒸氣

第六欄「細節」這件事——我前幾週一直忽略，後來才發現加上去之後，輸出的品質直接拉高一個檔次。沒有細節描述，你得到的是「一個馬克杯」，很普通。加上「杯口飄著蒸氣」，你得到的是「一個剛泡好的馬克杯」——這中間的差距，就是那種 AI 感和真實感的差距。

一句話：細節讓畫面有了時間感。沒有時間感的畫面就是所謂的「AI 味」。

二、那些我錯了好幾週才改過來的設定

預設值是給「快速試試看」用的，不是給「真的要拿去用」用的。我改了四個設定才開始得到滿意的結果：

1. 長寬比不要用 1:1

預設是 1:1 正方形。但我實際會用的圖幾乎沒有正方形。

IG 貼文用 4:5（直式）
部落格 Header 用 16:9 或 3:1
Pinterest 用 2:3
印刷品常見 3:2

從你最終要用的尺寸倒推，不要從正方形裁切。正方形裁切之後會失去關鍵資訊。

2. 解析度一開始就要夠

預設是 1024x1024，快但不夠用。

我現在的習慣是：只要不是單純在測試 prompt 的方向感，一律 2K 起跳。需要印刷或高清顯示的（Retina 螢幕）直接 4K。

原因很簡單——事後再放大會產生壓縮痕跡，不可逆。一開始就生對的大小，永遠比事後補救省事。

3. 一次生四張，不要一張一張

這是我變化最大的一個習慣。

預設是一次生一張。但我發現：同樣的 prompt，一張裡頭「可用」的機率大概 40%-50%，你會不斷重生；但一次生四張裡有一張可用的機率，接近 90%。

時間上算總帳，一次生四張反而更省。

4. Seed 要鎖定

這個大家都會忽略。

簡單講：同一個 seed + 不同 prompt = 你能看出 prompt 變化帶來的差異
不同 seed + 不同 prompt = 你得到的是雜訊，看不出是什麼造成了差異

當你對一張圖是 80% 滿意、想微調的時候，鎖 seed + 改 prompt，等於是在做乾淨的 A/B 測試。這是專業 prompt 工程師和普通用戶的區別。

三、圖生圖（編輯）模式：我用得比文生圖還多

說出來可能反直覺，但我實際用 GPT Image 2 的時候，圖生圖模式用的次數遠比文生圖多。

為什麼？

因為文生圖很難第一次就完美。但如果 80% 是對的，你不想整個重來——你想保留那 80%，只改剩下的 20%。這就是圖生圖的用途。

我常用的編輯指令有幾類：

背景類
「把背景換成乾淨的白色棚景」
「把雜亂的書桌換成靠窗的咖啡廳」

物件類
「在桌上加一本舊書」
「把背景那盆植物拿掉」

光影類
「把光線從冷白色調成暖黃色」
「加強左側的高光」

文字類
「把標題改成『春日限定』」
「把這行字改大一點」

風格類
「把整張圖轉成水彩風格」
「把這張照片轉成日式浮世繪」

關鍵點：圖生圖會保留原圖的結構和主體，只改你指定的部分。這不是重生成一張，這是「雕琢」同一張。

四、關於文字描寫

這是 GPT Image 2 最強的功能，也是我最多台灣朋友問的問題。

什麼情況下文字會成功：

把要出現的文字用「」框起來，明確指定
例：中央寫著「週末市集」四個字
指定字型風格：「明體」「黑體」「手寫字」「標題字」
字數控制在一行以內（少於 10 個字）
位置明確：「左上角」「正中央」「杯子上」

什麼情況文字會失敗：

不指定內容，只說「放一些文字」→ AI 會自己亂編
一次要求生整段（超過 20 字）→ 錯誤率開始飆升
手寫花體字或藝術字 → 命中率明顯偏低
斜體、鏡射、倒置的文字 → 幾乎不穩定

我的實作建議：需要短標題、短口號、商品名、日期——這些都放給 GPT Image 2 做。需要整段文案、說明文字——用 Canva 或 Figma 事後疊上去。

五、什麼時候我不用 AI

這個部分很多教學文章都會跳過，但我覺得其實更重要。

我不用 AI 的情境：

一、有真實人物的畫面
涉及辨識得出來的具體人——朋友、家人、公眾人物——我一律用攝影。AI 可以畫人，但倫理和法律上的邊界是真的，不值得賭。

二、技術性示意圖
架構圖、流程圖、電路圖、統計圖表——這些該用專門工具（draw.io、Mermaid、Figma）做。AI 會很樂意生一張「看起來像流程圖的畫」，但邏輯上是錯的。

三、品牌核心視覺
你的部落格 Logo、個人品牌的主視覺、重要活動的主 KV。這些還是值得找真正的設計師做，或自己認真畫。AI 是 95% 的解，但最後的 5% 在這類場景下會很扎眼。

四、以「真實感」為核心價值的內容
像是「我的京都旅遊記」這種文章，讀者是在讀你「真正的體驗」。用 AI 生的假旅遊照片會破壞這個信任。

懂得什麼時候不用，才是真正用得好的人。

六、我一天的實際流程（配時間）

為了讓這篇不是紙上談兵，我寫一下昨天早上做部落格配圖的完整流程：

00:00 寫完文章。讀一遍開頭段落，找出文章的核心意象
00:30 打開 GPT Image 2，按六欄位填 prompt
00:45 設定：16:9、2K、一次生 4 張
01:30 四張圖出來，挑一張最接近我要的方向
02:00 圖生圖微調（通常是「背景乾淨一點」或「光再暖一點」）
02:30 下載，丟進 Markdown，發佈

兩分半鐘，從文章寫完到部落格上線。

以前我一篇文章光找圖就要 30-45 分鐘——Unsplash 找、改尺寸、濾鏡、找不到合適的就用「還可以啦」的照片。現在這個環節幾乎消失了。

這才是我所謂「工具變好之後，焦慮反而下降」的真正含義。不是 AI 讓我變強，是 AI 把「執行」的時間還給我，讓我能把那些時間投到「思考內容」這件真正重要的事上。

七、我自己在用的 prompt 範本（可以直接複製）

送給看到這裡的你，五個我自己日常在用、修修改改過很多版的範本。

範本 1：商品拍攝

{商品} 放在 {桌面材質} 上，{光線描述}，寫實商品攝影風格，{比例}，帶有 {一個小細節}。

範本 2：部落格 Header

以 {視覺隱喻} 表現 {抽象概念}，柔和漸層背景，極簡插畫風格，16:9 橫式構圖，留白充分。

範本 3：社群發文圖

{主體} 在 {場景} 中，溫暖自然光，寫實攝影風格，4:5 直式，淺景深，前景 {細節}。

範本 4：有文字的 Banner

{場景描述}，畫面中央寫著「{確切文字}」四個字，{字型風格}，3:2 橫式，雜誌風格攝影。

範本 5：插畫風格

用 {具體風格例如「中世紀現代」或「扁平向量」} 風格表現 {概念}，{配色描述}，1:1 正方，乾淨構圖，{特定元素}。

存起來，照著填空用。我 80% 的工作都是這五個範本的變形。

最後

這篇寫得比較「工具人」一點，但希望對想動手的你有用。

我的心得是：工具本身沒有太大差異，流程才有差異。同一個 AI，有人用出來是 AI slop，有人用出來是可以印在書上的視覺——差別不在工具，在使用者有沒有一套自己的流程。

上面這套流程不是唯一的解，只是我這段時間踩過坑、改過很多次，目前最穩定的版本。你可以照抄，也可以改成你自己的。

如果你試了、然後調整出了不一樣的流程，非常歡迎留言告訴我。這類實作經驗交流，比我一個人閉門造車有用多了。

《系列：創作者的 AI 工具筆記》第二篇。第一篇聊的是「為什麼要用」（觀察/自省），這篇聊「怎麼用」（實作/流程）。下一篇想寫「我用 AI 做過的 10 個實際專案」（案例/復盤），大概這週寫。有其他想看的主題歡迎留言。

#Matters創作日常 #AI工具 #創作工作流 #GPT Image 2 #實作筆記 #繁體中文 #Prompt Engineering

CC BY-NC-ND 4.0 授权

已推荐到频道：创作・小说

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！