OpenAI 的「賣鏟人」:從清華學霸到 GPT-5 核心貢獻者,翁家翌的 AGI 工程與人生哲學

在矽谷,有一種極為罕見的人才,他們不追求成為聚光燈下的「科學布道者」,而是選擇隱身在複雜的系統深處,決定著文明演進的速度。

如果你翻開 OpenAI 近年來幾乎每一項重大模型發布的公告——從驚豔全球的 ChatGPT、GPT-4,到具備推理能力的 o1(內部代號 Strawberry),再到開發中的 GPT-5——你會在貢獻者名單的核心位置看到同一個名字:翁家翌(Jiayi Weng)

在外界看來,他是典型的「清華學霸」,從清華大學本科、卡內基梅隆大學(CMU)碩士到 OpenAI 核心成員,履歷無懈可擊。但在 AI 工程師與產業分析師的眼中,翁家翌代表的是一種極其冷靜、務實且具有前瞻性的「工程美學」。他不僅是 OpenAI 內部 Post-training RL Infrastructure(後訓練強化學習基礎設施) 的核心搭建者,更是一位試圖通過代碼打破「信息差」、最大化個人「影響力報酬」的投資專家。

這篇文章將帶領讀者走進這位 AGI 幕後推手的世界。這不僅是一個關於如何訓練出全球最強模型的故事,更是一個關於如何在「確定性」的世界觀中,優化人生目標函數的深刻哲學特寫。

1. 系統 1 的直覺與「知識樹」的緩慢構建

翁家翌的技術天賦在童年時期便初露鋒芒,但他對「聰明」的定義有著與眾不同的理解。他在小學一年級開始接觸奧數,迅速發現自己在數字處理上擁有一種近乎本能的反應。

「我發現我做數學題比誰都快。……那種不用過腦子的,可能用現在時髦的話說就是 System 1,直接表層意識過,直接看眼出來答案那種。」

這種「系統 1」(直覺思維)的強大,讓他對數學產生了強烈的正向反饋。然而,隨著學問的加深,他開始意識到,真正的知識獲取往往需要「系統 2」的深度參與。與那些能快速掃視代碼的天才不同,翁家翌坦言自己學新東西的速度其實比別人慢。

「學一個新的東西,我經常要花別人兩到三倍的時間。……我需要更長的時間構建我的知識樹。正常來說知識樹是有個根,然後往上拓展。……我一旦理解之後,我用的就非常快。」

這種對「根」的執著,預示了他日後對基礎設施(Infrastructure)的熱愛。在 AI 的世界裡,演算法是枝葉,而 Infra 才是決定這棵樹能長多高的根基。

2. 打破「信息差」:開源作業比捐一棟樓更有用

進入清華大學後,翁家翌面對的是全中國最激烈的競爭環境。在清華,信息往往被視為一種珍貴的貨幣,學長姐留下的過往作業、考試重點、實驗資料,構成了一道無形的屏障——「信息差」。掌握信息差的人,往往能在學術競爭中佔據優勢。

翁家翌卻做了一個讓所有守舊者震驚的決定:他將自己收集並整理的所有「上古資料」與作業,全部開源到了 GitHub 上。

「信息差是一個如果你在清華生存的話是非常有用的東西,但是我覺得每個人都應該平等地擁有這個信息。……這比捐樓有用。你現在回去抓個計算機的學弟問:你認不認識捐這棟樓的人?他不一定認識。但你問他認不認識家翌?他應該認識,因為大家都是看我的作業活下來的。」

對他而言,這不單純是慈善,而是一種**「信息平權」的嘗試。他不希望後人將寶貴的時間浪費在重複勞動或鑽牛角尖上,而是應該站在前人的肩膀上直接起跳。這種對「效率」的極致追求,後來延伸到了他開發的知名強化學習框架「天授(Tianshou)」,以及解決留學生簽證痛點的「退學(Tuixue)」**系統。

這種「駭客精神」——發現系統中的 Bug 並將其修復(不論是學術界的資料缺失還是領事館的面試預約系統)——成為了他影響力的基石。在 GitHub 上獲得的「Star」,對他來說比 GPA 更有價值,因為那是全世界開發者共同認可的共識。

3. 工程大於研究:為什麼「Idea 其實很廉價」

在當前 AI 產業中,大眾往往將成功歸功於某個「靈光一現」的演算法創新。但在 OpenAI 內部參與了無數次模型訓練的翁家翌看來,這是一個巨大的誤解。

他提出了一個冷酷的現實:在工業界,工程能力才是決定模型好壞的真正門檻。

「教一個 researcher 如何做好 engineering,要遠比教個 engineer 如何做好 research 難得多。……我認知的範圍內是每家的 infra 都有不同程度的 bug,然後誰修 bug 越多,那誰的模型訓得就越好。」

翁家翌解釋道,學術界的科研往往是「煉丹」,對著單一的 Benchmark 瘋狂過擬合(Overfit),這在 AGI 研發中毫無意義。頂尖 AI 實驗室拼的是 Infra 的正確性。AI 的成功並不取決於某個天才想出了一個神奇的公式,而取決於「單位時間內的迭代次數與成功率」。

他深受 OpenAI 內部的 Google 系工程文化影響(如 Barret Zoph 和 Liam Fedus 所帶來的理念)。在這種文化中,如果 Infra 的穩定性不夠,研發人員就會陷入無窮無盡的「Reward Hacking」中——模型學到了一些投機取巧的方法去獲得高分,卻失去了真實的推理能力。

「Idea 非常便宜。你要做的就是在單位時間內驗證有效且正確的結果,快速迭代。」

這種「賣鏟子」的邏輯,讓他選擇了構建通用基礎設施。在 OpenAI,他主導了 Post-training RL Infra,這意味著不論研究人員想嘗試什麼新點子,最終都要跑在他搭建的軌道上。這種策略確保了他的名字會出現在每一篇重大的 Blog 發布中。

4. 職業路徑的優化:87 分就夠了

翁家翌在個人職業規劃上表現出極強的「目標函數優化」傾向。在清華和 CMU 期,他從未隨大流去死磕 GPA,也未執著於取得 PhD 學位。

他對 GPA 的態度極度務實:

「我會投入最低限度的時間來讓它達到我想要的標準。……比如 87 分是必加,然後我就很滿足了,多一分都不想花時間。」

他將剩餘的能量全部投入到 GitHub 上的開源項目。這種「差異化競爭」策略,讓他最終在申請中脫穎而出。儘管他曾因為沒拿到 PhD Offer 而有短暫的失落,但他很快意識到,在 AI 快速變革的時代,PhD 的五年時間成本極高。

「如果你想進工業界,那麼讀 PhD 就是浪費生命。你可以以 Master 為跳板,積累足夠的 Citation 和項目的差異化經驗。」

對於企業而言,需要的是能解決大規模分布式訓練中「死機」與「報錯」問題的戰鬥力。翁家翌證明了,憑藉極致的工程能力,碩士畢業生同樣能站在 AGI 的風暴中心。

5. OpenAI 內部的「一致性」哲學與 Strawberry 震撼

翁家翌在訪談中透露了 OpenAI 成功的關鍵詞:一致性(Consistency)。這不僅體現在代碼架構的簡約,更體現在信息流的無損傳達。

「管理公司跟管理代碼庫其實也很類似,就是 consistency。如果不一致的話,就像一個人身子動了但是腳沒動,這就很奇怪。」

在 OpenAI,從 Sam Altman 到基層工程師,大家對技術細節保持著高度一致的敏感。Sam 本人甚至會參與研究助理的會議,確保他了解公司每一個「毛細血管」的動向。這種高人才密度的小團隊架構,使得 OpenAI 在面對像 DeepSeek 這樣以「迭代速度」著稱的新興對手時,依然能保持警覺。

而提到最近震驚業界的 o1(Strawberry) 模型,翁家翌也分享了內部有趣的反應。當這項具備自我思考能力的技術初次展露頭角時,即使是 OpenAI 的資深工程師也感到了威脅。

「在 Strawberry 出來之前,我們內部已經用了一段時間。在那段時間,大家都覺得我的工作要被取代了,或者說我們寫一堆史山(Legacy Code)吧,反正它會幫我們清理。但現在看來,史山還在那裡。它是一個緩慢的、循序漸進的過程。」

這段描述揭露了一個工程師的真實內心:即使站在技術巔峰,面對超越性的智能,依然會有凡人的焦慮。

6. 物理與心智的極限:通往 ER 的加班路

然而,站在頂峰的代價是沉重的。在 GPT 系列模型的研發衝刺期,翁家翌曾經歷過極度的體能透支。

「我有一段時間做得非常累,甚至進了 ER(急診室)。就是加班加得太厲害,腦子疼,受不了了。但醫生檢查後說沒什麼事。」

這種物理層面的極限體驗,讓他開始反思長期主義。現在的他,養成了每周跑兩次 3000 公尺的習慣,儘管在清華體育課時他曾是及格邊緣的人。這種對健康的自發維護,與他對技術的優化異曲同工——為了讓系統(人體)能夠承載更長時間的運算,必須強化其基礎設施。

7. 宿命論與未來預測:宇宙大爆炸時寫就的劇本

訪談中最具哲學衝擊力的部分,在於這位頂尖工程師對世界的本質看法。翁家翌是一個堅定的「宿命論」者。他認為世界本質上是一個確定的馬爾可夫過程(Deterministic Markov Process)

「這個世界是個確定論。……我現在腦子裡面在想什麼,我下一個單詞說什麼,全都是一開始宇宙大爆炸那一刻就定好了。這是我已經驗證了無數遍的事實。」

翁家翌甚至提出了一種非線性時間觀,彷彿《星際效應》中的場景:

「時間並不是單向流動的。未來的我會幫助過去的我來完成某些決策。我高中高三時,腦子裡突然蹦出一個念頭,說我要追求影響力,讓更多人記住我的名字。我懷疑那是未來的我在推動那個柱子。」

這種觀點看似消極,實則是對現實的一種高級和解。在他看來,即便劇本已經寫好,我們依然要用最極致的專注去演好它。這也解釋了為什麼他一方面相信宿命,另一方面卻在 OpenAI 的機房裡沒日沒夜地修復 Bug。因為在確定性的路徑中,修復 Bug 也是他「必須完成」的劇本。

8. 結語:在確定性的世界中,優化人生的目標函數

翁家翌的故事,打破了我們對「天才」的傳統想像。他不是一個盲目自信的英雄,而是一個對系統有著極度敬畏、對效率有著病態追求的優化者。

他從清華的作業Repo開始,就一直在實踐一套「人生投資演算法」:透過打破信息差獲取影響力,透過構建基礎設施來槓桿化自己的力量。他坦誠自己的迷茫,承認 AGI 的到來或許已是版上釘釘,這讓他在完成現有工作後,感到了某種「看到頭了」的虛無感。

但在這場看似確定的演進中,他依然給出了最冷靜的啟示:

「去探索到底自己想要什麼。雖然我曾一度想通了,但現在又想不通了。這個問題值得一生去思考。」

如果宇宙大爆炸的那一刻,就決定了我們會在 2025 年見證 AGI 的誕生,那麼我們唯一能擁有的「自由」,或許就是在這場盛大的表演中,選擇那條最能激發自己熱情的軌道。

對翁家翌來說,那條軌道就是寫出最完美、最一致的代碼,在確定性的世界裡,尋找那個尚未被模型完全模擬出的、關於「自我」的最終定義。