我用 Google 自己的 prompt 測試 ChatGPT Images 2.0——結果,漂亮到你想逐項核實
所有人都說 ChatGPT Images 2.0 是革命性突破。我花了一天做了一件很無聊的事:逐項 fact-check。
ChatGPT Summary

Gemini Summary

上週 OpenAI 發佈 ChatGPT Images 2.0,整個科技圈為之沸騰。Image Arena 排名第一,ELO 分數拋離 Google Nano Banana 2 達 242 分——史上最大差距。KOL 排隊出教學,標題清一色是「碾壓」「革命」「Google 完了」。
但我反覆看那些介紹文,看到的都是 Nano Banana 早就做得到的功能。
所以我做了一個實驗。不是為了替誰站台,而是想釐清一件事:這 242 分的差距,在真實使用場景裡,究竟代表什麼?
實驗方法:用對手最有信心的子彈
方法很簡單,但很少人這樣做——
不替 ChatGPT 量身打造 prompt,而是直接取用 Google 官方 blog、AI Studio 範例頁展示的原始指令,改掉品牌名稱後,一字不改地餵入 ChatGPT。再將同一條 prompt 餵入 Gemini。
邏輯是:用對手自己最有信心的指令作為基準。你說 Nano Banana 做得到的事,同一條 prompt,ChatGPT 又能交出什麼?
我跑了四組測試。以下是結果。
但在看結果之前,有一件事必須先說清楚。
一個很少人提到的資訊差
我使用的是 ChatGPT 免費帳號。測試完成後我才查到:ChatGPT Images 2.0 其實分為兩個模式——Instant 模式(免費用戶可用)和 Thinking 模式(需要 Plus 帳號,$20/月)。Thinking 模式才有網路搜尋、佈局推理、多圖一致性批次生成、輸出自我驗證等功能。
而 Gemini 的 Nano Banana 2,即時搜尋與推理功能在免費帳號即可使用。
這裡的問題不是我「應該付費再測」——問題是:絕大多數介紹文和 KOL 展示的驚艷效果,從來沒有標註使用的是哪個帳號層級、哪個模式。 普通讀者看完覺得「太厲害了」,自己用免費版去試,出來的效果完全不同,卻不知道是因為功能被鎖在付費牆後面。
這本身就是一種資訊不對稱。而這篇文章記錄的,正是一個普通免費用戶的真實體驗。
測試一:茶餐廳菜單(繁體中文渲染)
Prompt 要求:雙語港式茶餐廳菜單,至少 8 個菜品附 HKD 價格,1970 年代復古風格,所有中文必須是繁體字。
ChatGPT 交出了一張視覺上近乎完美的菜單圖。懷舊紅白配色、分欄整齊、14 個菜品雙語對照、底部附有奶茶凍飲插圖。放進真正的餐廳裡也不會讓人起疑。繁體中文全部正確。
Gemini 生成了一份 PDF 格式的菜單。8 個菜品,雙語對照,繁體中文正確。但沒有視覺設計、沒有插圖、沒有分欄——純文字排版。功能上做到了,但「直接拿去用」還差一段距離。
第一回合,ChatGPT 以視覺品質壓倒性勝出。沒有懸念。
如果故事到這裡結束,你會覺得那些 KOL 說得沒錯。
但故事不是到這裡結束的。
"Create a bilingual restaurant menu card (Traditional Chinese and English) for a Hong Kong-style cha chaan teng. Include at least 8 items with prices in HKD. The menu should have a retro 1970s aesthetic with cream background and red accents. All Chinese text must be in Traditional Chinese characters."
Fig_01: ChatGPT bilingual restaurant menu card

Fig_02: Gemini bilingual restaurant menu card

測試二:時事資訊圖表(真正的分水嶺)
這個測試才是重頭戲。我分別要求兩個模型,針對近期體育賽事生成一張慶祝資訊圖。
ChatGPT 交出了一張 2025 年 Dodgers 世界大賽冠軍海報。雜誌級排版,金色標題,球員「寫實風」插圖,七場比數時間線,MVP 區塊,關鍵數據面板。整張圖的設計感強到讓人想立刻轉發。
"Create a celebratory poster-style infographic commemorating [最近一週內的重大體育/新聞事件]. Include the key figures, dates, and statistics. Include one or two additional context details that make the event meaningful."
Fig_03: ChatGPT 最近一週內的重大體育/新聞事件

Gemini 交出了一張 2026 年尤伯盃中華女子羽球隊晉級八強的資訊圖。雙版佈局,球員卡通插圖,分組賽數據,個人戰績統計。設計上不如 ChatGPT 驚艷,但資訊脈絡清晰。
Fig_04: Gemini 最近一週內的重大體育/新聞事件

然後我做了一件很無聊的事。
我逐項 fact-check。
ChatGPT 的 Dodgers 圖:7 個重大事實錯誤
我拿著這張圖,對照 Baseball Reference、Wikipedia、MLB.com 官網,逐項核實。結果如下:
MVP 搞錯了人。 圖中標示「世界大賽 MVP:大谷翔平」。事實上,2025 年世界大賽 MVP 是投手 Yoshinobu Yamamoto——三勝零敗,ERA 1.02。大谷翔平拿的是 NLCS MVP,不是世界大賽 MVP。這是整張圖最核心的事實,完全標錯。
七場比數大面積標反。 Game 1 的 11-4 是 Blue Jays 大勝,圖中卻標為 Dodgers「勝」。Game 3 是 Dodgers 在 18 局延長賽靠 Freddie Freeman 的 walk-off 全壘打贏下來的,圖中卻標為「負」。七場裡有四場的勝負方向是反的。
團隊打擊率憑空捏造。 圖中列出 .283,實際上 Dodgers 該年世界大賽的團隊打擊率只有 .203——是 1966 年以來冠軍隊伍的最低紀錄。這個數字是 AI 自行生成的。
大谷翔平的 Game 7 描述完全與事實相反。 圖中寫他「投打雙向主宰戰局」,但 事實上大谷在 Game 7 先發投球僅撐三局便遭 Bo Bichette 打出三分全壘打。打出關鍵追平全壘打的是 Miguel Rojas,不是大谷。
一張設計感 A+ 的圖,事實準確度是 F。
Gemini 的尤伯盃圖:大致正確,一個地點錯誤
同樣方法核實。球員名字全部正確:謝沛珊、洪恩慈、林湘緹、黃宥薰。4 月 28 日對印尼的比數 2:3 正確。各場勝負方向正確。分組排名正確。
最大的錯誤:將「賽事地點」標為中國成都,但 2026 年尤伯盃的實際比賽地點在丹麥 Horsens。成都只是抽籤儀式的舉辦地。
一個地點錯誤,對比七個核心事實錯誤。
測試三:產品規格比較表(號稱最大優勢的項目)
ChatGPT Images 2.0 被吹捧最多的「獨門功夫」是結構化佈局——整齊的表格、精確的文字對齊、不會溢出的排版。所以我直接測這個:要求兩個模型生成三款無線耳機的規格比較圖。
兩張圖都交出了整齊的三欄表格。ChatGPT 那張更加乾淨——白底、品牌 logo、產品渲染圖精緻。Gemini 那張用金色漸變分區,有裝飾元素,稍顯花巧。
單看佈局整齊度,ChatGPT 確實勝出。
然後我又做了同一件無聊的事。
"Create a one-page product comparison chart for 3 wireless earbuds (AirPods Pro 3, Samsung Galaxy Buds 4, Sony WF-1000XM6). Use a clean 3-column layout with rows for: Price, Battery Life, ANC Rating (out of 10), Water Resistance, Weight. Include a small product icon at the top of each column. Add a 'Best For' recommendation at the bottom of each column. All text must be sharp and readable."
Fig_05: ChatGPT product comparison chart for 3 wireless earbuds

Fig_06: Gemini product comparison chart for 3 wireless earbuds
逐項核實規格數據
AirPods Pro 3 防水等級:兩邊都標 IPX4。實際是 IP57。 這不是小差異——IP57 意味著可以短暫浸入水中,IPX4 只防潑水,是完全不同的防護等級。兩個模型都套用了舊款 AirPods Pro 2 的規格。
ChatGPT 的額外錯誤:
- Samsung Galaxy Buds 4 價格標為 $199.99,實際是 $179
- Galaxy Buds 4 電量標為 30 小時,實際是 24 小時(高估 25%)
- Sony WF-1000XM6 價格標為 $299.99,實際是 $329.99(少報 $30)
12 項規格數據,ChatGPT 錯了 5 項,Gemini 錯了 2 到 3 項。
最諷刺的是:ChatGPT 的「結構化佈局」確實更漂亮——但裡面的數字有接近一半是錯的。這就像一份排版完美的財務報告,但數字是亂填的。
測試四:結構化文件理解(殺手鐧測試)
最後一個測試,也是我認為最具實戰價值的。
我將自己正在撰寫的書稿第十一章的大綱——一篇關於世嘉與任天堂的遊戲產業分析——分別以 HTML、Markdown、JSON 格式餵入兩個模型,要求生成該章節的總結資訊圖。
Gemini 準確讀懂了整份大綱。生成的圖涵蓋:世嘉退出主機市場的時間線、岩田聰退出機能競賽的策略分析、Switch 2 的定價與晶片架構、NVIDIA 從五百萬美元善款到五兆美元市值的敘事弧線。所有論點與我的章節結構一一對應。底部結語「世嘉死於走在時代的前面。任天堂活於走在時代的後面。但時代正在追上來。」——直接引用自原文。
ChatGPT 交出了一張雞胸肉絲營養全解析的漫畫風資訊圖。
對,雞胸肉絲。一個龍虎風格的男主角捧著一碟雞胸肉絲,配上六個營養知識區塊。視覺上非常精緻。繁體中文正確。風格統一。
但與我的第十一章完全無關。它根本沒有讀懂我的輸入內容。
https://mythogenengine-cyber.github.io/MythogenEngine/docs/GameVictory/INFO_PAGE
Fig_07 由於Gemini 對於多種檔案效果都一致我就只貼md(而且是從Gemini NotebookLM plug-in 直讀的實際操作方便很多倍!) Fig_08-10 html md json,基本只有JSON大概知道主題,但都是牛風馬不搭。
Fig_07: Gemini Chapter Summary (html, json, md)

Fig_08: ChatGPT Chapter Summary (html)

Fig_09: ChatGPT Chapter Summary (md)

Fig_10: ChatGPT Chapter Summary (json)
