跳至主要内容

外傳下篇:缺課者——中國的應用狂歡與底層斷裂

凌晨一點,上海。一間手遊工作室的辦公室亮著燈。螢幕上的數字正在跳動——他們的新款抽卡遊戲上線不到二十四小時,首日流水突破一億人民幣。產品經理打開香檳。營運總監已經在計算第二週的付費轉化率。美術團隊開始趕製下一批限定角色的立繪。整間公司像一台精密的印鈔機,每一個齒輪都在飛速旋轉。

同一個時區,深圳。華為的一棟研發大樓裡,幾個工程師盯著終端機上的紅色錯誤訊息,表情凝重。他們正在嘗試讓一台搭載國產昇騰 910B AI 晶片的伺服器,跑起 GitHub 上最新版本的一個開源大型語言模型。模型的程式碼是用 PyTorch 寫的。PyTorch 底下呼叫的是 CUDA。他們的晶片不是 NVIDIA 的。

錯誤訊息一行接一行。

最賺錢的應用,和最無力的底層,在同一個國度並存。這不是偶然。這是三十年來一條完整因果鏈的結算。


I. 報表靈魂的極致

如果說上一篇外傳裡的 Google 是報表靈魂的原型,那麼中國的互聯網巨頭就是報表靈魂的完成式。

騰訊、網易、字節跳動——三家公司加起來,控制了全球行動遊戲市場的相當大一塊版圖。它們不是靠做出最好的遊戲贏的。它們是靠做出最精密的變現機器贏的。

抽卡機制的保底設計、活動倒數計時的心理壓力、社交排名的攀比驅動、首儲禮包的錨定效應——這些東西背後站著的不是遊戲設計師,是行為心理學家和數據科學家。每一個彈窗的出現時機、每一次限時折扣的幅度、每一個「再抽一次」按鈕的顏色和大小,都經過 A/B 測試的精密校準。

結果是驚人的。一款成功的中國手遊,可以在上線首日創造超過一億人民幣的營收——這個數字超過了許多歐美 3A 遊戲工作室幾百人團隊磨了三到五年的產品在首週的全球銷售額。

但這些公司做的事情,跟正文裡每一章描述的科技霸權建造者,有一個根本的差異。

微軟用 DirectX 統一了 PC 遊戲的繪圖介面——這推動了 GPU 硬體的演進。NVIDIA 用 CUDA 在遊戲顯示卡裡塞入通用運算核心——這催生了整個 AI 運算產業。台積電在遊戲 GPU 的大面積晶片上磨練極限良率——這為 AI 晶片的量產鋪了路。每一個正文裡的玩家,不論動機多自私、手段多骯髒,至少在客觀上推動了某種底層技術的進步。

中國的遊戲巨頭沒有推動任何底層技術。

它們的遊戲跑在別人設計的晶片上(Qualcomm 的 Snapdragon、Apple 的 A 系列)、由別人製造的工廠代工(台積電、三星)、使用別人開發的引擎(Unity、Unreal)、在別人建立的作業系統上運行(Android、iOS)。從晶片到引擎到作業系統,整條技術供應鏈沒有一環是中國自己的。

這不是因為中國的工程師不夠聰明。是因為賺錢太容易了。

當你可以用三十個人、花六個月、做一款換皮的抽卡遊戲、首月營收破億——你為什麼要花三百個人、投十年時間、去做一個沒有即時回報的底層框架?當風險投資的錢像水一樣湧入共享單車、社區團購、短影音平台——為什麼要把資本投入回報週期長達十年、成功率極低的半導體研發?

正文第七章講的 NVIDIA 故事裡,黃仁勳從 2006 年開始在 GeForce 裡塞 CUDA 核心,整整等了六年,才等到 AlexNet 替 CUDA 找到用途。六年間,這筆研發投入在報表上看起來像純粹的浪費。

中國的資本市場不允許六年的浪費。中國的互聯網公司不允許十年不見回報的基礎投資。它們的體制——季度考核、KPI 驅動、上市後的投資人壓力——跟 Google 的 OKR 體制一樣,在結構上不相容於長期的底層研發。

所以中國做了一件事:在別人的地基上蓋了一座直入雲霄的大廈。

大廈裡住滿了全世界出手最闊綽的手遊玩家。大廈的每一層都裝了全世界最精密的付費轉化引擎。從外面看,這座大廈金碧輝煌。

但地基不是自己的。


II. 斷裂

2022 年 10 月,美國商務部發佈了一份出口管制新規。簡單說:禁止向中國出售先進的 AI 晶片和半導體製造設備。NVIDIA 的 A100、H100 不能賣了。ASML 的 EUV 極紫外光刻機不能賣了。台積電、三星不能替中國客戶代工最先進製程的 AI 晶片了。

一夜之間,地基裂了。

但裂的程度不是均勻的。有些地方裂得淺,有些地方裂到了根基。

裂得淺的地方:成熟製程。

電動車、家電、工業控制器需要的晶片,大多停留在 28 奈米或更舊的製程。這些製程不需要 EUV 光刻機——用傳統的 DUV(深紫外光)就能做。中芯國際在這個領域瘋狂擴產,用國家補貼壓低價格,向全球市場傾銷。28 奈米的晶片不算先進,但它是現代工業的血液——每一台冷氣機裡面都有、每一台電動車裡面都有、每一個路由器裡面都有。

在這條線上,中國做到了自給自足。不是最好的,但夠用。

裂到根基的地方:先進製程。

2023 年 8 月,華為毫無預警地發佈了 Mate 60 Pro。拆機之後,全世界的半導體分析師倒吸了一口氣:裡面的 Kirin 9000S 晶片,是中芯國際用 7 奈米級別的製程生產的。

在被禁止使用 EUV 光刻機的情況下。

中芯國際用的方法叫做多重曝光——把一層電路拆成好幾次曝光,用精度較低的 DUV 光刻機反覆疊加,最終達到接近 7 奈米的效果。這是一種暴力破解。它能做到。但代價是巨大的。

第八章裡有一個核心概念:台積電的先進製程是「順水推舟」養出來的。Apple 首發驗證、遊戲 GPU 壓力測試、主機 SoC 長期訂單——每一個客戶都帶著不同的技術需求,推著台積電在實戰中把良率一步一步推到極致。台積電的 7 奈米良率之所以能到商業量產的水準,是因為它在幾十個客戶、幾百款晶片上,反覆磨練了無數次。

中芯國際沒有這些客戶。它的先進製程訂單幾乎全部來自華為一家公司。沒有 Apple 的小面積高良率驗證,沒有 NVIDIA 的大面積極限壓力測試,沒有 Sony 和微軟的長期穩定主機訂單。它是在封鎖中、用國家補貼、在客戶極度單一的情況下,硬生生地把良率往上推。

結果是:Kirin 9000S 可以出貨,但良率極低、成本極高。一片晶圓上能切出的合格晶片數量,遠低於台積電同製程的水準。每一顆 Kirin 9000S 的真實成本——包括不良品的損耗——可能是台積電同等級晶片的好幾倍。

這不是市場的勝利。這是一場用國家補貼去填補三十年硬體缺課的生存戰。

而且,即使華為把晶片造出來了,故事也還沒結束。因為還有一道更深的牆。


III. 軟體監獄的中國版

Kirin 9000S 是手機晶片。手機晶片的軟體生態相對簡單——Android 系統、應用程式、驅動程式——華為可以靠自己的鴻蒙系統繞過 Google 的軟體封鎖。困難,但可行。

AI 晶片是另一回事。

華為的昇騰 910B 是一顆 AI 訓練晶片。純硬體數據上,華為自己宣稱它在某些特定的訓練任務上,效能可以逼近甚至超越 NVIDIA 的 A100 約 20%。後續的 910C 和 910D 更是瞄準了 NVIDIA 的 H100。

但「硬體算力逼近」和「可以替代」之間,隔著一道看不見的深淵。

這道深淵的名字叫 CUDA。

第七章講了 CUDA 的四層鎖。現在把中國的情況代入:

第一層——硬體指令集: 昇騰晶片用的是華為自己的達文西(Da Vinci)架構,跟 NVIDIA 的 PTX/SASS 完全不同。這意味著所有為 NVIDIA GPU 編譯的程式碼,在昇騰上都跑不了。必須重新編譯。

第二層——運算函式庫: NVIDIA 有 cuDNN、cuBLAS、NCCL——每一個都是幾百人團隊花十年針對 NVIDIA 硬體做深度優化的成果。華為對應的是 CANN(Compute Architecture for Neural Networks)。CANN 的功能覆蓋率和效能成熟度,跟 CUDA 的函式庫差了不止一個世代。

第三層——框架綁定: 全世界的 AI 研究員用 PyTorch 寫程式碼。PyTorch 的底層預設呼叫 CUDA。華為開發了自己的 AI 框架 MindSpore,也做了讓 PyTorch 在昇騰上運行的適配層。但適配層的相容性問題層出不窮——開篇那幾個深圳工程師面對的紅色錯誤訊息,就是這一層出了問題。每一個開源模型的程式碼裡,都藏著十幾個隱含的 CUDA 依賴。表面上改一行 device = 'npu' 就好,實際上底下的函式庫呼叫、記憶體管理、運算精度處理,處處是陷阱。

第四層——知識綁定: 中國的 AI 工程師在大學裡學的是 CUDA。他們讀的教科書用 CUDA 寫範例。他們查的 Stack Overflow 用 CUDA 回答問題。他們 GitHub 上 fork 的每一個開源專案,預設在 NVIDIA GPU 上跑。要讓他們轉用華為的 CANN 和 MindSpore,等於要求他們忘掉自己會的語言,重新學一門新的。

正文第七章的結論句是:「CUDA 不是一個 API。CUDA 是一座監獄。而你從入學那天起就住在裡面。」

中國的 AI 工程師面對的是同一座監獄。區別在於:NVIDIA 的生態是全球千萬個遊戲玩家和開發者,在二十年裡自然長出來的。中國要建立的替代生態,是在制裁的絕境下,用行政指令硬砌出來的。

這兩種生態的差別,不是量的差別。是質的差別。

自然生長的生態有根——它的每一個節點都是有人主動選擇使用的。有人用 CUDA 發了論文,有人用 CUDA 做了產品,有人在 CUDA 上建了公司。砍掉任何一個節點,其他節點還在。

行政指令砌出來的生態沒有根——它的每一個節點都是被要求使用的。一旦指令鬆動、一旦補貼減少、一旦 NVIDIA 找到繞過制裁的方式(比如推出專門為中國市場閹割的 H20 晶片),開發者會在一夜之間跑回 CUDA 的懷抱。

事實上,這件事已經在發生。2024 年,當 NVIDIA 把 H20 的價格降到跟昇騰 910B 差不多的水準時,許多中國 AI 公司重新開始採購 NVIDIA 的晶片。不是因為它們不支持國產——是因為用 CUDA 寫的程式碼不用改,用 CANN 寫的程式碼要重寫。

工程師是理性的。理性的選擇永遠是阻力最小的那條路。而 CUDA,就是阻力最小的那條路。


IV. 缺課的帳單

現在可以把因果鏈串起來了。

正文的核心論點是:遊戲玩家的錢和需求,無意中供養了整個科技霸權的底層基礎設施。 從 DirectX 到 CUDA 到台積電的先進製程——每一塊磚,都有遊戲的指紋在上面。

中國的反面案例完美地驗證了這條論點。

中國有全世界最會賺錢的遊戲公司。但這些公司賺的錢,沒有任何一分流向底層技術。它們的遊戲跑在進口的晶片上、用進口的引擎做、在進口的作業系統裡賣。它們做的事只有一件:在別人搭好的舞台上,用最精密的心理學工具,從玩家口袋裡掏錢。

當美國說「這個舞台以後你不能用了」的時候,中國突然發現:自己在應用層的摩天大樓底下,沒有地基。

這不是制裁造成的。制裁只是讓缺課的帳單提前到了。

真正的原因藏在三十年前。當黃仁勳在 Denny's 餐廳裡決定創辦 NVIDIA 的時候,中國的資本正在湧入房地產。當張忠謀在新竹建造台積電第一座工廠的時候,中國的製造業正在做代工。當 CUDA 在 2006 年誕生、全世界的大學生開始在 NVIDIA 顯示卡上寫並行計算程式的時候,中國最聰明的畢業生正在去騰訊和阿里巴巴——做社交軟體、做電商、做手遊。

每一步都是理性的。每一步的報表都很好看。

但每一步都在跳過同一件事:底層。

硬體的底層——自主設計高效能晶片的能力。軟體的底層——自主建立開發者生態的能力。製造的底層——在沒有外國設備的情況下生產先進製程晶片的能力。

這三個「底層」,本書的正文用了三章來講述它們是怎麼被建立的:第七章(CUDA 的軟體生態)、第八章(台積電的製造能力)、第四章(NVIDIA 從瀕死到崛起的硬體設計積累)。每一個底層的建立,都花了至少十五年。每一個底層的建立過程裡,遊戲都扮演了關鍵角色——不是作為目的,而是作為壓力測試場和資金池。

中國跳過了這個過程。它直接從應用層開始。它用最短的時間、最高的效率、最精密的變現設計,建起了全世界最賺錢的數位娛樂帝國。

然後發現帝國的地基是別人的。


V. 結算

有一個問題值得問:中國能不能補課?

答案是:技術上可以,但時間上未必來得及。

華為的昇騰晶片在硬體算力上正在逐代接近 NVIDIA。中芯國際在成熟製程上已經實現了自給自足,在 7 奈米級別的先進製程上做到了暴力破解。百度的崑崙晶片、阿里巴巴的含光晶片,都在不同程度上嘗試建立替代方案。

但正文第八章講過一個殘酷的道理:追不上的原因不是技術差距,是信任差距。 台積電的護城河不是某一項技術——是三十年來全球 fabless 生態對它累積的信任。你不能用一張投影片追。你不能用一個季度追。

同樣的道理適用於軟體生態。CUDA 的護城河不是 cuDNN 的效能——是全世界每一間大學、每一個 GitHub 專案、每一本教科書、每一個 AI 工程師腦子裡的肌肉記憶。你不能用行政指令追。你不能用補貼追。你只能用時間追——而在你追的這十年裡,NVIDIA 也沒有站著不動。

中國面對的是一個雙重追趕問題。在硬體端,它要追的是台積電——一家每年投入超過三百億美元資本支出、擁有三十年製程經驗累積的公司。在軟體端,它要追的是 CUDA——一個由全球千萬開發者自然長成的生態系統。

兩個追趕同時進行。兩個目標都在移動。而追趕者被掐住了最關鍵的供應鏈——先進的光刻設備買不到、最新的 NVIDIA 晶片買不到、最先進的製程代工服務用不了。

這就是缺課的代價。

你可以用幾個月的時間複製一款吸金的手遊。你可以用國家資本在三年內暴力推高某個製程節點的晶片產能。但你無法用錢或行政命令,在一夜之間買到一個由千萬個工程師和開發者,用二十年時間共同編織出來的底層生態。

正文的核心 pattern 是:便利吸引用家 → 鎖定開發者 → 壟斷收租。代價二三十年後才顯形。

中國的案例是這個 pattern 的鏡像:你當年跳過了多少底層建設的苦工,歷史就會要你連本帶利地吐出來。 代價同樣是二三十年後才到。

而帳單已經到了。

回到開篇。上海那間手遊工作室的香檳還在冒泡。深圳那棟研發大樓裡的錯誤訊息還在跳。兩幅畫面之間的距離——從應用層的繁華到底層的斷裂——不是地理距離。是三十年來一個國家在「應用」和「基礎」之間做出的無數次選擇的累積。

每一次選擇都是理性的。每一次的報表都很好看。

但所有理性的選擇加起來,等於一筆歷史從未打折的帳單。

這句話聽起來很耳熟。因為正文第五章裡,講 Intel 砍掉 Larrabee GPU 專案的時候,用的是同一句話——

「沒有人做了一個錯誤的決定。每一個人都做了在自己位置上最理性的決定。但所有理性的決定加起來,等於一個自殺式的結果。」

Intel 的版本是一家公司。中國的版本是一整個國家的產業結構。

規模不同。邏輯完全一樣。