OpenAI 的「賣鏟人」：從清華學霸到 GPT-5 核心貢獻者，翁家翌的 AGI 工程與人生哲學

在矽谷，有一種極為罕見的人才，他們不追求成為聚光燈下的「科學布道者」，而是選擇隱身在複雜的系統深處，決定著文明演進的速度。

如果你翻開 OpenAI 近年來幾乎每一項重大模型發布的公告——從驚豔全球的 ChatGPT、GPT-4，到具備推理能力的 o1（內部代號 Strawberry），再到開發中的 GPT-5——你會在貢獻者名單的核心位置看到同一個名字：翁家翌（Jiayi Weng）。

在外界看來，他是典型的「清華學霸」，從清華大學本科、卡內基梅隆大學（CMU）碩士到 OpenAI 核心成員，履歷無懈可擊。但在 AI 工程師與產業分析師的眼中，翁家翌代表的是一種極其冷靜、務實且具有前瞻性的「工程美學」。他不僅是 OpenAI 內部 Post-training RL Infrastructure（後訓練強化學習基礎設施） 的核心搭建者，更是一位試圖通過代碼打破「信息差」、最大化個人「影響力報酬」的投資專家。

這篇文章將帶領讀者走進這位 AGI 幕後推手的世界。這不僅是一個關於如何訓練出全球最強模型的故事，更是一個關於如何在「確定性」的世界觀中，優化人生目標函數的深刻哲學特寫。

1. 系統 1 的直覺與「知識樹」的緩慢構建

翁家翌的技術天賦在童年時期便初露鋒芒，但他對「聰明」的定義有著與眾不同的理解。他在小學一年級開始接觸奧數，迅速發現自己在數字處理上擁有一種近乎本能的反應。

「我發現我做數學題比誰都快。……那種不用過腦子的，可能用現在時髦的話說就是 System 1，直接表層意識過，直接看眼出來答案那種。」

這種「系統 1」（直覺思維）的強大，讓他對數學產生了強烈的正向反饋。然而，隨著學問的加深，他開始意識到，真正的知識獲取往往需要「系統 2」的深度參與。與那些能快速掃視代碼的天才不同，翁家翌坦言自己學新東西的速度其實比別人慢。

「學一個新的東西，我經常要花別人兩到三倍的時間。……我需要更長的時間構建我的知識樹。正常來說知識樹是有個根，然後往上拓展。……我一旦理解之後，我用的就非常快。」

這種對「根」的執著，預示了他日後對基礎設施（Infrastructure）的熱愛。在 AI 的世界裡，演算法是枝葉，而 Infra 才是決定這棵樹能長多高的根基。

2. 打破「信息差」：開源作業比捐一棟樓更有用

進入清華大學後，翁家翌面對的是全中國最激烈的競爭環境。在清華，信息往往被視為一種珍貴的貨幣，學長姐留下的過往作業、考試重點、實驗資料，構成了一道無形的屏障——「信息差」。掌握信息差的人，往往能在學術競爭中佔據優勢。

翁家翌卻做了一個讓所有守舊者震驚的決定：他將自己收集並整理的所有「上古資料」與作業，全部開源到了 GitHub 上。

「信息差是一個如果你在清華生存的話是非常有用的東西，但是我覺得每個人都應該平等地擁有這個信息。……這比捐樓有用。你現在回去抓個計算機的學弟問：你認不認識捐這棟樓的人？他不一定認識。但你問他認不認識家翌？他應該認識，因為大家都是看我的作業活下來的。」

對他而言，這不單純是慈善，而是一種**「信息平權」的嘗試。他不希望後人將寶貴的時間浪費在重複勞動或鑽牛角尖上，而是應該站在前人的肩膀上直接起跳。這種對「效率」的極致追求，後來延伸到了他開發的知名強化學習框架「天授（Tianshou）」，以及解決留學生簽證痛點的「退學（Tuixue）」**系統。

這種「駭客精神」——發現系統中的 Bug 並將其修復（不論是學術界的資料缺失還是領事館的面試預約系統）——成為了他影響力的基石。在 GitHub 上獲得的「Star」，對他來說比 GPA 更有價值，因為那是全世界開發者共同認可的共識。

3. 工程大於研究：為什麼「Idea 其實很廉價」

在當前 AI 產業中，大眾往往將成功歸功於某個「靈光一現」的演算法創新。但在 OpenAI 內部參與了無數次模型訓練的翁家翌看來，這是一個巨大的誤解。

他提出了一個冷酷的現實：在工業界，工程能力才是決定模型好壞的真正門檻。

「教一個 researcher 如何做好 engineering，要遠比教個 engineer 如何做好 research 難得多。……我認知的範圍內是每家的 infra 都有不同程度的 bug，然後誰修 bug 越多，那誰的模型訓得就越好。」

翁家翌解釋道，學術界的科研往往是「煉丹」，對著單一的 Benchmark 瘋狂過擬合（Overfit），這在 AGI 研發中毫無意義。頂尖 AI 實驗室拼的是 Infra 的正確性。AI 的成功並不取決於某個天才想出了一個神奇的公式，而取決於「單位時間內的迭代次數與成功率」。

他深受 OpenAI 內部的 Google 系工程文化影響（如 Barret Zoph 和 Liam Fedus 所帶來的理念）。在這種文化中，如果 Infra 的穩定性不夠，研發人員就會陷入無窮無盡的「Reward Hacking」中——模型學到了一些投機取巧的方法去獲得高分，卻失去了真實的推理能力。

「Idea 非常便宜。你要做的就是在單位時間內驗證有效且正確的結果，快速迭代。」

這種「賣鏟子」的邏輯，讓他選擇了構建通用基礎設施。在 OpenAI，他主導了 Post-training RL Infra，這意味著不論研究人員想嘗試什麼新點子，最終都要跑在他搭建的軌道上。這種策略確保了他的名字會出現在每一篇重大的 Blog 發布中。

4. 職業路徑的優化：87 分就夠了

翁家翌在個人職業規劃上表現出極強的「目標函數優化」傾向。在清華和 CMU 期，他從未隨大流去死磕 GPA，也未執著於取得 PhD 學位。

他對 GPA 的態度極度務實：

「我會投入最低限度的時間來讓它達到我想要的標準。……比如 87 分是必加，然後我就很滿足了，多一分都不想花時間。」

他將剩餘的能量全部投入到 GitHub 上的開源項目。這種「差異化競爭」策略，讓他最終在申請中脫穎而出。儘管他曾因為沒拿到 PhD Offer 而有短暫的失落，但他很快意識到，在 AI 快速變革的時代，PhD 的五年時間成本極高。

「如果你想進工業界，那麼讀 PhD 就是浪費生命。你可以以 Master 為跳板，積累足夠的 Citation 和項目的差異化經驗。」

對於企業而言，需要的是能解決大規模分布式訓練中「死機」與「報錯」問題的戰鬥力。翁家翌證明了，憑藉極致的工程能力，碩士畢業生同樣能站在 AGI 的風暴中心。

5. OpenAI 內部的「一致性」哲學與 Strawberry 震撼

翁家翌在訪談中透露了 OpenAI 成功的關鍵詞：一致性（Consistency）。這不僅體現在代碼架構的簡約，更體現在信息流的無損傳達。

「管理公司跟管理代碼庫其實也很類似，就是 consistency。如果不一致的話，就像一個人身子動了但是腳沒動，這就很奇怪。」

在 OpenAI，從 Sam Altman 到基層工程師，大家對技術細節保持著高度一致的敏感。Sam 本人甚至會參與研究助理的會議，確保他了解公司每一個「毛細血管」的動向。這種高人才密度的小團隊架構，使得 OpenAI 在面對像 DeepSeek 這樣以「迭代速度」著稱的新興對手時，依然能保持警覺。

而提到最近震驚業界的 o1（Strawberry） 模型，翁家翌也分享了內部有趣的反應。當這項具備自我思考能力的技術初次展露頭角時，即使是 OpenAI 的資深工程師也感到了威脅。

「在 Strawberry 出來之前，我們內部已經用了一段時間。在那段時間，大家都覺得我的工作要被取代了，或者說我們寫一堆史山（Legacy Code）吧，反正它會幫我們清理。但現在看來，史山還在那裡。它是一個緩慢的、循序漸進的過程。」

這段描述揭露了一個工程師的真實內心：即使站在技術巔峰，面對超越性的智能，依然會有凡人的焦慮。

6. 物理與心智的極限：通往 ER 的加班路

然而，站在頂峰的代價是沉重的。在 GPT 系列模型的研發衝刺期，翁家翌曾經歷過極度的體能透支。

「我有一段時間做得非常累，甚至進了 ER（急診室）。就是加班加得太厲害，腦子疼，受不了了。但醫生檢查後說沒什麼事。」

這種物理層面的極限體驗，讓他開始反思長期主義。現在的他，養成了每周跑兩次 3000 公尺的習慣，儘管在清華體育課時他曾是及格邊緣的人。這種對健康的自發維護，與他對技術的優化異曲同工——為了讓系統（人體）能夠承載更長時間的運算，必須強化其基礎設施。

7. 宿命論與未來預測：宇宙大爆炸時寫就的劇本

訪談中最具哲學衝擊力的部分，在於這位頂尖工程師對世界的本質看法。翁家翌是一個堅定的「宿命論」者。他認為世界本質上是一個確定的馬爾可夫過程（Deterministic Markov Process）。

「這個世界是個確定論。……我現在腦子裡面在想什麼，我下一個單詞說什麼，全都是一開始宇宙大爆炸那一刻就定好了。這是我已經驗證了無數遍的事實。」

翁家翌甚至提出了一種非線性時間觀，彷彿《星際效應》中的場景：

「時間並不是單向流動的。未來的我會幫助過去的我來完成某些決策。我高中高三時，腦子裡突然蹦出一個念頭，說我要追求影響力，讓更多人記住我的名字。我懷疑那是未來的我在推動那個柱子。」

這種觀點看似消極，實則是對現實的一種高級和解。在他看來，即便劇本已經寫好，我們依然要用最極致的專注去演好它。這也解釋了為什麼他一方面相信宿命，另一方面卻在 OpenAI 的機房裡沒日沒夜地修復 Bug。因為在確定性的路徑中，修復 Bug 也是他「必須完成」的劇本。

8. 結語：在確定性的世界中，優化人生的目標函數

翁家翌的故事，打破了我們對「天才」的傳統想像。他不是一個盲目自信的英雄，而是一個對系統有著極度敬畏、對效率有著病態追求的優化者。

他從清華的作業Repo開始，就一直在實踐一套「人生投資演算法」：透過打破信息差獲取影響力，透過構建基礎設施來槓桿化自己的力量。他坦誠自己的迷茫，承認 AGI 的到來或許已是版上釘釘，這讓他在完成現有工作後，感到了某種「看到頭了」的虛無感。

但在這場看似確定的演進中，他依然給出了最冷靜的啟示：

「去探索到底自己想要什麼。雖然我曾一度想通了，但現在又想不通了。這個問題值得一生去思考。」

如果宇宙大爆炸的那一刻，就決定了我們會在 2025 年見證 AGI 的誕生，那麼我們唯一能擁有的「自由」，或許就是在這場盛大的表演中，選擇那條最能激發自己熱情的軌道。

對翁家翌來說，那條軌道就是寫出最完美、最一致的代碼，在確定性的世界裡，尋找那個尚未被模型完全模擬出的、關於「自我」的最終定義。