我是怎麼用 GPT Image 2 做日常創作的——從 prompt 到最終輸出的實作筆記
寫在前面
上一篇《那一刻我忽然明白》發佈之後,收到不少馬特市民的留言和私訊,最常被問到的問題其實不是「AI 取不取代創作者」這種形而上的話題,而是很具體的:
「那你到底怎麼用的?可以教我嗎?」
所以這篇就不聊觀察了,直接寫我這段時間摸索出來的一套流程。從 prompt 的結構、到參數設定、到踩過的坑,全部攤開講。
希望對想實際動手的你有幫助。
我的流程,一句話說完
先把整個流程總結成一句話:
用固定的六欄位結構寫 prompt → 一次生 4 張 → 挑一張 → 圖生圖微調 → 用到真正需要的解析度匯出。
就這樣。下面每一段都是在解釋這句話的某個部分。
一、寫 prompt 的六欄位結構
這是我花最久時間摸出來的。一開始我也是想到什麼寫什麼,一句話就是一個 prompt,結果生出來的東西很不穩定。後來我乾脆把 prompt 結構化,每次都按六個欄位順序填:
01 主體——畫面裡最重要的東西是什麼
02 場景——它在哪裡
03 光線——什麼樣的光
04 風格——寫實攝影、插畫、水彩、漫畫?
05 比例——想要什麼長寬比
06 細節——一個讓畫面有溫度的小元素
舉一個我上週實際用的 prompt,是給一篇講早晨儀式感的部落格文章做配圖:
主體:一個陶瓷馬克杯場景:淺色木質桌面光線:左側窗戶照進來的柔和晨光風格:寫實攝影風格,商品攝影比例:4:5 直式構圖細節:杯口飄著一縷細細的蒸氣第六欄「細節」這件事——我前幾週一直忽略,後來才發現加上去之後,輸出的品質直接拉高一個檔次。沒有細節描述,你得到的是「一個馬克杯」,很普通。加上「杯口飄著蒸氣」,你得到的是「一個剛泡好的馬克杯」——這中間的差距,就是那種 AI 感和真實感的差距。
一句話:細節讓畫面有了時間感。沒有時間感的畫面就是所謂的「AI 味」。
二、那些我錯了好幾週才改過來的設定
預設值是給「快速試試看」用的,不是給「真的要拿去用」用的。我改了四個設定才開始得到滿意的結果:
1. 長寬比不要用 1:1
預設是 1:1 正方形。但我實際會用的圖幾乎沒有正方形。
IG 貼文用 4:5(直式)
部落格 Header 用 16:9 或 3:1
Pinterest 用 2:3
印刷品常見 3:2
從你最終要用的尺寸倒推,不要從正方形裁切。正方形裁切之後會失去關鍵資訊。
2. 解析度一開始就要夠
預設是 1024x1024,快但不夠用。
我現在的習慣是:只要不是單純在測試 prompt 的方向感,一律 2K 起跳。需要印刷或高清顯示的(Retina 螢幕)直接 4K。
原因很簡單——事後再放大會產生壓縮痕跡,不可逆。一開始就生對的大小,永遠比事後補救省事。
3. 一次生四張,不要一張一張
這是我變化最大的一個習慣。
預設是一次生一張。但我發現:同樣的 prompt,一張裡頭「可用」的機率大概 40%-50%,你會不斷重生;但一次生四張裡有一張可用的機率,接近 90%。
時間上算總帳,一次生四張反而更省。
4. Seed 要鎖定
這個大家都會忽略。
簡單講:同一個 seed + 不同 prompt = 你能看出 prompt 變化帶來的差異
不同 seed + 不同 prompt = 你得到的是雜訊,看不出是什麼造成了差異
當你對一張圖是 80% 滿意、想微調的時候,鎖 seed + 改 prompt,等於是在做乾淨的 A/B 測試。這是專業 prompt 工程師和普通用戶的區別。
三、圖生圖(編輯)模式:我用得比文生圖還多
說出來可能反直覺,但我實際用 GPT Image 2 的時候,圖生圖模式用的次數遠比文生圖多。
為什麼?
因為文生圖很難第一次就完美。但如果 80% 是對的,你不想整個重來——你想保留那 80%,只改剩下的 20%。這就是圖生圖的用途。
我常用的編輯指令有幾類:
背景類
「把背景換成乾淨的白色棚景」
「把雜亂的書桌換成靠窗的咖啡廳」
物件類
「在桌上加一本舊書」
「把背景那盆植物拿掉」
光影類
「把光線從冷白色調成暖黃色」
「加強左側的高光」
文字類
「把標題改成『春日限定』」
「把這行字改大一點」
風格類
「把整張圖轉成水彩風格」
「把這張照片轉成日式浮世繪」
關鍵點:圖生圖會保留原圖的結構和主體,只改你指定的部分。這不是重生成一張,這是「雕琢」同一張。
四、關於文字描寫
這是 GPT Image 2 最強的功能,也是我最多台灣朋友問的問題。
什麼情況下文字會成功:
把要出現的文字用「」框起來,明確指定
例:中央寫著「週末市集」四個字指定字型風格:「明體」「黑體」「手寫字」「標題字」
字數控制在一行以內(少於 10 個字)
位置明確:「左上角」「正中央」「杯子上」
什麼情況文字會失敗:
不指定內容,只說「放一些文字」→ AI 會自己亂編
一次要求生整段(超過 20 字)→ 錯誤率開始飆升
手寫花體字或藝術字 → 命中率明顯偏低
斜體、鏡射、倒置的文字 → 幾乎不穩定
我的實作建議:需要短標題、短口號、商品名、日期——這些都放給 GPT Image 2 做。需要整段文案、說明文字——用 Canva 或 Figma 事後疊上去。
五、什麼時候我不用 AI
這個部分很多教學文章都會跳過,但我覺得其實更重要。
我不用 AI 的情境:
一、有真實人物的畫面
涉及辨識得出來的具體人——朋友、家人、公眾人物——我一律用攝影。AI 可以畫人,但倫理和法律上的邊界是真的,不值得賭。
二、技術性示意圖
架構圖、流程圖、電路圖、統計圖表——這些該用專門工具(draw.io、Mermaid、Figma)做。AI 會很樂意生一張「看起來像流程圖的畫」,但邏輯上是錯的。
三、品牌核心視覺
你的部落格 Logo、個人品牌的主視覺、重要活動的主 KV。這些還是值得找真正的設計師做,或自己認真畫。AI 是 95% 的解,但最後的 5% 在這類場景下會很扎眼。
四、以「真實感」為核心價值的內容
像是「我的京都旅遊記」這種文章,讀者是在讀你「真正的體驗」。用 AI 生的假旅遊照片會破壞這個信任。
懂得什麼時候不用,才是真正用得好的人。
六、我一天的實際流程(配時間)
為了讓這篇不是紙上談兵,我寫一下昨天早上做部落格配圖的完整流程:
00:00 寫完文章。讀一遍開頭段落,找出文章的核心意象
00:30 打開 GPT Image 2,按六欄位填 prompt
00:45 設定:16:9、2K、一次生 4 張
01:30 四張圖出來,挑一張最接近我要的方向
02:00 圖生圖微調(通常是「背景乾淨一點」或「光再暖一點」)
02:30 下載,丟進 Markdown,發佈
兩分半鐘,從文章寫完到部落格上線。
以前我一篇文章光找圖就要 30-45 分鐘——Unsplash 找、改尺寸、濾鏡、找不到合適的就用「還可以啦」的照片。現在這個環節幾乎消失了。
這才是我所謂「工具變好之後,焦慮反而下降」的真正含義。不是 AI 讓我變強,是 AI 把「執行」的時間還給我,讓我能把那些時間投到「思考內容」這件真正重要的事上。
七、我自己在用的 prompt 範本(可以直接複製)
送給看到這裡的你,五個我自己日常在用、修修改改過很多版的範本。
範本 1:商品拍攝
{商品} 放在 {桌面材質} 上,{光線描述},寫實商品攝影風格,{比例},帶有 {一個小細節}。範本 2:部落格 Header
以 {視覺隱喻} 表現 {抽象概念},柔和漸層背景,極簡插畫風格,16:9 橫式構圖,留白充分。範本 3:社群發文圖
{主體} 在 {場景} 中,溫暖自然光,寫實攝影風格,4:5 直式,淺景深,前景 {細節}。範本 4:有文字的 Banner
{場景描述},畫面中央寫著「{確切文字}」四個字,{字型風格},3:2 橫式,雜誌風格攝影。範本 5:插畫風格
用 {具體風格例如「中世紀現代」或「扁平向量」} 風格表現 {概念},{配色描述},1:1 正方,乾淨構圖,{特定元素}。存起來,照著填空用。我 80% 的工作都是這五個範本的變形。
最後
這篇寫得比較「工具人」一點,但希望對想動手的你有用。
我的心得是:工具本身沒有太大差異,流程才有差異。同一個 AI,有人用出來是 AI slop,有人用出來是可以印在書上的視覺——差別不在工具,在使用者有沒有一套自己的流程。
上面這套流程不是唯一的解,只是我這段時間踩過坑、改過很多次,目前最穩定的版本。你可以照抄,也可以改成你自己的。
如果你試了、然後調整出了不一樣的流程,非常歡迎留言告訴我。這類實作經驗交流,比我一個人閉門造車有用多了。
《系列:創作者的 AI 工具筆記》第二篇。第一篇聊的是「為什麼要用」(觀察/自省),這篇聊「怎麼用」(實作/流程)。下一篇想寫「我用 AI 做過的 10 個實際專案」(案例/復盤),大概這週寫。有其他想看的主題歡迎留言。
#Matters創作日常 #AI工具 #創作工作流 #GPT Image 2 #實作筆記 #繁體中文 #Prompt Engineering
喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!