← 所有文章

工程哲學:趙京鉉(Kyunghyun Cho)

Kyunghyun Cho,深度學習研究者

重點摘要

  • 他為循環網路賦予了一個可學習的記憶閘門。 作為2014年論文〈Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation〉的第一作者,Kyunghyun Cho提出了閘控循環單元(GRU) – 一種簡化的閘控單元,讓網路能在每一步學習要保留多少過去、要覆寫多少,而且參數比它所抗衡的LSTM更少。13
  • 他協助將注意力機制引入機器翻譯。 Cho與Dzmitry Bahdanau(第一作者)和Yoshua Bengio共同撰寫了〈Neural Machine Translation by Jointly Learning to Align and Translate〉(2014),該論文讓解碼器能柔性對齊到來源句的任何部分,而不必把整句話擠過一個固定長度的向量。這個機制是Transformer以及每一個現代大型語言模型的直系祖先。24
  • 他是開放、可重現科學的重要倡議者。 Cho一直積極推動開放審稿與嚴謹的實證主義 – 誠實的基準線、對自己結果的懷疑,以及公開發表的研究 – 這在他關於同儕審查的工作,以及他對OpenReview等開放平台的使用中皆有記載。56
  • 從Aalto到NYU再到藥物設計。 他1985年生於南韓,在Aalto University取得博士學位,曾在Yoshua Bengio於蒙特婁大學的實驗室做博士後研究,2015年加入NYU,並共同創辦了如今隸屬Genentech的Prescient Design,將機器學習應用於抗體設計。17

核心原則

「一個RNN把一連串符號編碼成一個固定長度的向量表示,另一個RNN則把該表示解碼成另一串符號。」 – Kyunghyun Cho等人,描述那個他後來的工作將學會超越的RNN Encoder-Decoder1

工程上最古老的直覺,是親手設計控制結構。您決定哪些輸入重要、系統該把一個值記住多久、要在緩衝區的何處查找。您把這些決定編碼進架構,系統便繼承了您的猜測。Cho的整體工作走向相反的方向。他最具代表性的貢獻 – GRU的閘門與注意力的柔性對齊 – 共享同一招:別再把控制結構寫死,讓模型自己去學。 該保留哪個過去狀態、該關注哪個輸入 – 這些都成為網路從資料中調校的參數,而非設計者親手固定的規則。12

GRU是最乾淨的例子。一個普通的循環網路把隱藏狀態向前傳遞,並在每一步以固定的方式將舊狀態與新輸入混合。那個固定的混合方式是設計者的猜測,而它通常是錯的:序列早期的重要訊號,往往在幾步之內就被稀釋成雜訊。Cho的閘控單元以一個可學習的閘門取代了那個猜測 – 一個取值介於0與1之間的小型控制器,逐步、逐維地決定要保留多少舊記憶、又要用新輸入覆寫多少。3 網路學會何時抓住、何時放手。沒有人親手寫死記憶策略;是資料把它寫了出來。

注意力是把同一個想法套用到查看而非記憶上。而Cho的原則還有第二半,讓第一半保持誠實 – 一種科學家的紀律。您要查明一個學習出來的機制是否真的有幫助,靠的不是熱情;靠的是對強基準線的公平較量、對結果保持懷疑直到它站得住腳,以及公開發表方法好讓他人能重現。56 讓模型學習自己的控制結構 – 然後誠實地、公開地驗證它真的奏效了。 第一半是力量的來源。第二半則讓那份力量值得信賴。

背景脈絡

Kyunghyun Cho於1985年生於南韓1 他2009年在KAIST取得電腦科學學士學位,隨後赴芬蘭在Aalto University深造,於2011年取得機器學習與資料探勘碩士學位,並在2014年取得理學博士學位,由Juha Karhunen教授指導(並有Tapani Raiko與Alexander Ilin協助)。17 芬蘭聽來像是深度學習關鍵年代不太可能的搖籃,但時機正是重點所在:他完成博士學位之時,正好趕在這個領域即將轉向的當口。

從Aalto,他前往蒙特婁,在蒙特婁大學的Yoshua Bengio門下進行博士後研究 – 那個實驗室後來成為MILA,當時全世界深度學習人才最密集之處。1 支撐本文的兩篇論文 – GRU與基於注意力的NMT模型 – 都出自2014那一段時間,且各自都有Bengio擔任共同作者。12 值得停下來想想這有多快:一位研究者以博士後身分到任,大約一年之內,便成為引入GRU那篇論文的第一作者,以及把注意力引入翻譯那篇論文的共同作者。如今這兩個想法都坐落在很大一部分運作中AI的底層。

2015年他加入紐約大學,如今是該校Courant Institute與Center for Data Science的電腦科學與資料科學教授、Glen de Vries衛生統計學講座教授,並與Yann LeCun共同擔任NYU全球AI前沿實驗室的共同主任。7 他在2017至2020年間擔任Facebook AI Research的研究科學家,而 – 這一章展現了他的原則延伸到語言之外 – 在2021年初,他共同創辦了Prescient Design,一家「實驗室在迴圈中」的抗體設計新創公司,於同年被Genentech收購,在那裡他領導將生成式機器學習應用於藥物設計的前沿研究。78 自始至終,他都是開放與可重現科學的有力倡議者。56

工作成果

GRU:一個網路學會自行閘控的記憶

要體會閘控為何重要,不妨觀察一個循環網路如何試著把一個重要的值帶過一段漫長而嘈雜的序列。網路一次讀一步,握著單一的隱藏「記憶」並在每一步更新它。早期出現了一個值得保留的值;在它之後的一切都是雜訊。普通的RNN以固定比例混合新舊,於是那個早期的值在幾步之內就流失殆盡 – 到最後,它消失了。整個問題在於那個保留或覆寫的決定是被寫死的。下方的元件讓這一點變得具體:單一閘門在每一步決定多少舊記憶得以存續。把它滑向「保留」,早期的值便完好抵達終點;把它滑向「覆寫」,它幾乎立刻就被沖刷殆盡。

那正是Cho的GRU所加入的那根槓桿,只不過是網路學習那個閘門,而非由您來設定。GRU在他2014年的RNN Encoder-Decoder論文中提出,使用兩個學習而來的閘門:一個更新閘,控制要把多少先前的隱藏狀態向前攜帶、又要用多少新資訊取代;以及一個重置閘,決定過去應該對新的候選狀態產生多少影響。3 兩者都取值於0與1之間 – 平滑的旋鈕 – 這意味著整套東西都是可微分、可藉梯度下降訓練的。網路從資料中發現何時該長久保住一個值、何時又該把它沖掉。3

這個設計刻意地精簡。它與Hochreiter和Schmidhuber較早的LSTM一同問世,後者以更多的機制 – 一個獨立的單元狀態與一個額外的輸出閘 – 解決同樣的梯度消失問題。GRU「缺少脈絡向量或輸出閘,因而參數比LSTM更少」,卻在語音辨識、音樂建模與語言任務上表現相當。3 那正是值得點名的工程品味:較簡單的那個單元,捕捉住了精髓的想法 – 學習而來的閘控 – 卻不帶上那些您無法證明自己需要的部件。多年來,GRU與LSTM一直是每一套序列建模工具箱裡的兩個預設循環單元。

注意力:柔性對齊,以及固定向量瓶頸的終結

RNN Encoder-Decoder有個結構性的缺陷,而Cho自己的論文點了名:編碼器把整個輸入句子壓碎成「一個固定長度的向量表示」,解碼器則必須從那個單一向量重建出整段翻譯。1 對一個短句來說,這沒問題。對一個長句來說,這是場災難 – 您是在強迫一整段文字穿過一個鎖孔,而循環網路往往過度看重靠近句尾的字,句首則逐漸淡去。4 瓶頸正是那個固定長度的向量本身。

修正之道,見於〈Neural Machine Translation by Jointly Learning to Align and Translate〉(2014/2015) – Dzmitry Bahdanau為第一作者,與Cho及Bengio合著 – 就是徹底移除這個瓶頸。2 模型不再把來源句壓縮成一個向量,而是保留每一個來源字的表示,並讓解碼器在每個輸出步驟對它們全體計算一組權重 – 一種學習而來的柔性對齊,說的是「要產生這個字,主要看這裡,稍微看那裡。」4 解碼器得以直接取用輸入的任何部分,而不必只透過單一個被擠壓的狀態去觸及它。4 關鍵在於,這個對齊並非由語言學家親手指定;它是與翻譯一同、端到端地學習出來的。模型自行決定該往何處看 – 這正是與GRU閘門相同的原則,如今套用到注意力而非記憶上。

從那裡到今日的路線又短又承重。柔性對齊推廣為自注意力,而2017年Transformer的〈Attention Is All You Need〉形式化了縮放點積注意力,並徹底拋開了循環結構 – 這個設計成為BERT、T5、GPT以及整個世代大型語言模型的基礎。4 在某種真切的意義上,現代的大型語言模型就是被放大、並被剝去外圍RNN的注意力。Cho在2014年協助引入翻譯的那個機制,正是您的聊天機器人賴以運行的那一個。(歸屬很重要:Cho是GRU論文的第一作者,也是注意力論文中與Bahdanau及Bengio並列的共同作者 – 他並非獨力引入注意力。)12

Kyunghyun Cho

開放且可重現的科學

第二個原則更為安靜,而且在一個易陷炒作的領域裡更為艱難。Cho一貫倡議開放、可重現的科學 – 在公開之中進行並接受審查的研究,帶著誠實的基準線,以及對自己結果切實可行的懷疑。56 他使用並擁護OpenReview等開放平台,也貢獻了關於同儕審查本身的研究,探討諸如作者對自己論文的評估能否為審查流程提供資訊之類的問題。56 貫穿其中的是:一項結果在通過了作者所無法掌控的檢視之前,都還不算是一項結果。

Kyunghyun Cho於NeurIPS 2025

為何這在技術上重要:深度學習裡,自我欺騙異常容易。一個新架構幾乎總能贏過一個孱弱的基準線、一顆幸運的隨機種子,或一個未充分調校的競爭者 – 而文獻裡滿是那些一旦有人給舊方法一場公平較量便煙消雲散的「改進」。Cho所示範的紀律,是假設自己的增益是個假象,直到反證為止;要把基準線調得跟自己的方法一樣賣力;並且公開發表到足以讓人能證明您錯了的程度。這正是那份實證的良知,它防止「讓模型自己學」的直覺,腐化成「模型學會了,因為我希望它學會」。

為科學服務的機器學習:Prescient Design

Cho的原則具有普遍性、而非語言專屬,最清楚的跡象就在他接下來把它帶往何處:藥物設計。在2021年初,他共同創辦了Prescient Design,同年被Genentech收購,旨在打造一個用於設計治療性抗體的「實驗室在迴圈中」平台。78 這個迴圈把生成式ML模型、多任務性質預測器與主動學習選擇,跟真實的濕實驗以迭代循環耦合起來 – 模型提出抗體變體,實驗室加以測試,結果再回過頭重新訓練模型。8 在橫跨臨床相關標靶的應用中,這個系統設計並測試了一千多個變體,並工程出與起始先導分子相比結合力顯著更強的抗體。8 這個結構,與貫穿他所建造的其他一切的,是同一個:別親手設計答案,而要打造一個能從證據中學會答案的系統 – 並以真實的量測閉合迴圈,好讓學習保持誠實。

方法

橫讀GRU、注意力、開放科學的倡議與抗體工作,同樣的承諾一再出現。Cho的方法與其說是一句口號,不如說是一組長存的習慣。

讓控制結構變得可學習。 最具代表性的一招,是把一個您通常會寫死的決定 – 該記多久、該往何處看 – 轉化成模型從資料中調校的參數。GRU的閘門與注意力的對齊,是同一直覺在兩個領域的展現。這個教訓遠遠延伸到序列模型之外:當您發現自己在猜一個閾值、一組權重或一條路由規則時,不妨自問系統能否學得比您猜得更好。12

偏好那個捕捉住精髓想法的較簡單機制。 GRU保留了學習而來的閘控,並捨棄了LSTM的單元狀態與輸出閘,以更少的參數比肩其表現。3 那是在一個神經元層級上的最小可敬產品 – 仍承載著那個承重想法的最小單元,與貫穿Sophie Wilson的ARM的同一份化繁為簡的手段經濟學。

在移除瓶頸之前先把它點名。 Cho自己的編碼器-解碼器論文點名了固定長度向量的限制;注意力論文則移除了它。14 這份紀律是先精確地陳述那個結構性缺陷 – 那段穿過鎖孔的文字 – 因為一個被銳利點名的瓶頸已經解決了一半。這與Fei-Fei Li決定攻打資料而非模型,是同一直覺:找出真正的約束,而非那個方便的約束。

給基準線一場公平的較量。 誠實的實證主義意味著,把您想擊敗的方法調得跟您所提出的方法一樣賣力,並把自己的增益當成可疑的,直到它通過那場考驗為止。這是證據之門化為一種研究實務 – 「它改進了」不算證據;「它對著一個強大、可公開重現的基準線改進了」才算。56

在公開之中工作。 開放審稿、開放平台、可重現的結果。一個方法的價值不在於其作者宣稱什麼,而在於什麼能在獨立的檢視中存續下來 – 這正是為什麼,公開發表到足以被檢驗的程度,是工程的一部分,而非工程之後的一道客套。這是品質是唯一的變數套用到科學本身:唯一算數的,是結果是否為真。56

影響鏈

誰塑造了他

Yoshua Bengio與MILA團隊。 Cho關鍵的那一年,發生在他於Bengio的蒙特婁實驗室擔任博士後期間,而Bengio共同撰寫了GRU與注意力兩篇論文。12 MILA正是那個把2010年代初的循環網路與機器翻譯想法推得最猛的環境,而Cho的工作與它密不可分。(直接影響)

Juha Karhunen與Aalto學派。 他在Aalto於Juha Karhunen門下、與Tapani Raiko及Alexander Ilin一同的博士訓練,在蒙特婁那幾年賦予它一個翻譯標的之前,先把他奠基於非監督學習與神經網路的傳統之中。17(形成性影響)

深度學習的傳承。 GRU所應對的梯度消失問題,以及它所置身其間的循環與卷積架構,皆源自Geoffrey HintonYann LeCun數十年的工作,他們確立了深度網路根本上是可訓練的。如今Cho與LeCun共同主持NYU的一個實驗室。7(形成性影響)

他塑造了誰

現代序列建模。 多年來,GRU是兩個預設循環單元之一 – 是GRU/LSTM抉擇中較簡單的那一半,每一位NLP、語音與時間序列的實務工作者都本能地做出了這個選擇。3

Transformer與LLM時代。 注意力,在Cho共同撰寫的那篇論文中被引入翻譯,推廣為Transformer所構築的自注意力 – 而Transformer正是每一個現代大型語言模型賴以運行的東西。這個機制是這個領域歷史上最具影響力者之一。4

為科學服務的機器學習。 透過Prescient Design與Genentech,Cho協助把生成式ML推進治療性抗體設計,論證了「從證據中學會它,以量測閉合迴圈」這個模式,屬於生物學的程度,不亞於語言。8

貫穿的主線

Cho是本系列深度學習分支的機制樞紐 – 從根基通往LLM時代的橋樑。Geoffrey HintonYann LeCun確立了深度網路能夠學習;Fei-Fei Li則供應了它們賴以學習的資料。Cho的閘控與注意力,是把那些根基轉化為某種能大規模處理語言之物的架構性一步 – 而他的注意力工作,直接匯流進那個Andrej Karpathy後來教會一整個世代去建造、並驅動著現代LLM的Transformer。Hinton說這台學習機器奏效了,Li說這就是供你學習的世界,而Cho說:讓模型學習自己的控制結構 – 該記住什麼、該看向何處 – 然後在公開之中證明它真的做到了。 前一句是通往Transformer的那條線;後一句則是讓它保持誠實的實證良知 – 與Fei-Fei Li帶給基準測試的同一份嚴謹。(系列橋樑)

我從中汲取的

我從Cho身上保留的教訓,是別再把系統本可學習的決定寫死。我的直覺,跟大多數工程師一樣,是把自己的判斷編碼進去 – 這個閾值、那組權重、這條路由規則 – 因為我的判斷感覺起來是那個值得信賴的部分。GRU與注意力都在論證相反的情況往往更經得起時間:模型,只要給對了機制與足夠的資料,學到的記憶策略或對齊,會遠勝於我所能猜出的那個。所以當我抓到自己在調一個魔法常數、或親手寫一個決定什麼要緊的分支時,我如今會自問,我是否正在把一個系統本該去學習的決定給編碼進去。本領不在於做出那個選擇;而在於建造那個能讓選擇被學習出來的結構。

第二個教訓,是那份防止第一個教訓對我說謊的紀律。讓一個系統學習自己的行為令人陶醉,恰恰因為它太容易看起來像是奏效了 – 示範通過了,指標往上跳了,而我想要去相信。Cho的開放科學倫理是解藥:假設您自己的結果是個假象,直到它通過對強基準線的公平較量;並公開發表到足以讓人能證明您錯了的程度。這正是我為何把證據之門視為不可妥協 – 「它改進了」是一種感覺,「它對著一個調校過的基準線、可重現地改進了」才是證據。建造那些學習自己控制結構的系統,然後以一個您無權設定的證明標準去要求它們。那份力量與那份誠實,是同一種實踐的兩半。

FAQ

什麼是GRU(閘控循環單元)?

GRU是一種循環神經網路單元,由Kyunghyun Cho在2014年論文〈Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation〉中作為第一作者提出。1 它使用學習而來的閘門 – 一個更新閘與一個重置閘,兩者取值都介於0與1之間 – 來控制在每一步要保留多少先前的隱藏狀態、又要用新輸入覆寫多少。這讓網路學會在長序列上記住什麼,解決了梯度消失問題。它的表現比肩LSTM,卻使用更少的參數,因為它省去了LSTM獨立的單元狀態與輸出閘。3

Kyunghyun Cho對注意力與神經機器翻譯有何貢獻?

Cho是〈Neural Machine Translation by Jointly Learning to Align and Translate〉(2014)的共同作者 – 與Dzmitry Bahdanau(第一作者)和Yoshua Bengio一同 – 這篇論文把注意力機制引入了神經機器翻譯。2 模型不再把一個來源句壓縮成一個固定長度的向量,而是保留每一個來源字的表示,並讓解碼器在每個輸出步驟對它們全體學習一種柔性對齊。那個機制在2017年推廣為Transformer的自注意力,而後者是現代大型語言模型的基礎。4 另外,Cho是2014年引入GRU那篇論文的第一作者。1

注意力解決了什麼樣的編碼器-解碼器瓶頸?

最初的RNN Encoder-Decoder,描述於Cho 2014年的論文中,把整個輸入句子編碼成「一個固定長度的向量表示」,解碼器必須從中重建出整個輸出。1 對長句子而言,這個單一向量是個瓶頸 – 一整段文字被迫穿過一個鎖孔 – 而循環網路往往會丟失序列開頭的資訊。4 注意力移除了這個瓶頸,做法是保留每一個來源位置的表示,並讓解碼器以學習而來的權重直接關注它們之中的任何一個,而非依賴一個被壓縮的狀態。4

Kyunghyun Cho現在在做什麼?

Cho是NYU的Courant Institute與Center for Data Science的電腦科學與資料科學教授、Glen de Vries衛生統計學講座教授,並與Yann LeCun共同擔任NYU全球AI前沿實驗室的共同主任。7 他在2021年共同創辦了Prescient Design – 同年被Genentech收購 – 在那裡他領導將生成式機器學習應用於「實驗室在迴圈中」治療性抗體設計的前沿研究,把ML模型與濕實驗以一個迭代的最佳化迴圈耦合起來。78 他依然是開放與可重現科學的積極倡議者。56


來源


  1. Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio, “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,” arXiv:1406.1078 (2014),發表於EMNLP 2014。GRU的主要來源。Kyunghyun Cho是第一作者。摘要描述了RNN Encoder-Decoder:「One RNN encodes a sequence of symbols into a fixed-length vector representation, and the other decodes the representation into another sequence of symbols.」該論文引入了一種新穎的閘控隱藏單元(閘控循環單元),並報告該模型改進了一個統計機器翻譯系統。 

  2. Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv:1409.0473 (2014;發表於ICLR 2015)。NMT中注意力的主要來源。Dzmitry Bahdanau是第一作者;Cho與Bengio為共同作者。該論文提出讓模型「automatically (soft-)search for parts of a source sentence that are relevant to predicting a target word」,而非把整個來源編碼成單一個固定長度的向量。 

  3. “Gated recurrent unit,” Wikipedia。GRU於2014年由Kyunghyun Cho及同事在〈Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation〉(EMNLP 2014)中提出。它使用一個更新閘(z_t),控制要保留多少先前的隱藏狀態、又要納入多少新資訊;以及一個重置閘(r_t),決定先前隱藏狀態的哪些部分影響候選激活值;兩者都使用產生介於0與1之間數值的sigmoid激活。GRU「lacks a context vector or output gate, resulting in fewer parameters than LSTM」,並在語音辨識、音樂建模與NLP任務上表現比肩LSTM。 

  4. “Attention (machine learning),” Wikipedia。Dzmitry Bahdanau、Kyunghyun Cho與Yoshua Bengio於2014年在〈Neural Machine Translation by Jointly Learning to Align and Translate〉中把注意力引入神經機器翻譯。注意力應對了編碼器-解碼器模型把整個輸入序列壓縮成固定大小向量、為較長句子造成資訊損失的限制;循環網路會「favor information contained in words at the end of a sentence」並「attenuate the significance」較早的內容。注意力讓「a token equal access to any part of a sentence directly, rather than only through the previous state」。到了2017年,Transformer(〈Attention Is All You Need〉)形式化了縮放點積自注意力,並成為BERT、T5與GPT的基礎。 

  5. “Kyunghyun Cho,” OpenReview個人檔案,並由“Kyunghyun Cho,” DBLP佐證。記載了Cho對開放同儕審查平台的積極使用,以及他關於機器學習同儕審查流程的已發表研究 – 包括探討作者對自己論文的評估能否協助或預測同儕審查結果的工作 – 這是他投入開放且可重現的科學實踐的證據。 

  6. “Kyunghyun Cho,” 個人網站(NYU / Center for Data Science),以及他的“Google Scholar profile.” Cho的網站與發表記錄反映了他對開放、可重現科學的倡議 – 公開發表的研究、嚴謹的實證主義,以及在他整體機器學習工作中對誠實評估與基準線的重視。 

  7. “Kyunghyun Cho,” Wikipedia,並由他的“NYU Courant faculty profile”“personal website.”佐證。1985年生於南韓;KAIST電腦科學學士(2009);Aalto University碩士(2011)與理學博士(2014),芬蘭,由Juha Karhunen教授指導(並有Tapani Raiko與Alexander Ilin);在蒙特婁大學於Yoshua Bengio門下的博士後研究員(2014-2015);2015年加入NYU Courant Institute(2019年獲終身職);Facebook AI Research研究科學家(2017-2020);Courant與Center for Data Science的電腦科學與資料科學教授、Glen de Vries衛生統計學講座教授,並與Yann LeCun共同擔任NYU全球AI前沿實驗室的共同主任。三星年度AI研究者(2020);湖巖工程獎(2021)。 

  8. “Lab-in-the-loop therapeutic antibody design with deep learning,” bioRxiv (2025),Prescient Design / Genentech,以及“Genentech: Prescient Design.” Cho於2021年初共同創辦Prescient Design;同年被Genentech收購。「實驗室在迴圈中」的範式,把生成式機器學習模型、多任務性質預測器、主動學習排序與選擇,以及體外實驗,編排進一個半自主、迭代的最佳化迴圈;在橫跨臨床相關抗原標靶的應用中,團隊設計並測試了超過1,800個抗體變體,並工程出與最初先導分子相比結合力大幅更強(報告約為3至100倍)的抗體。 

相關文章

工程哲學:Geoffrey Hinton,信念勝於潮流

Geoffrey Hinton 在整個領域訕笑類腦神經網路時,挺過了兩次 AI 寒冬而堅持押注——信念勝於潮流,直覺勝於形式化。

4 分鐘閱讀

工程哲學:Yann LeCun

深度學習先驅、圖靈獎得主 Yann LeCun 共同發明了卷積神經網路,如今押注於世界模型——一條通往能像人一樣學習的機器、超越當今大型語言模型的路徑。

3 分鐘閱讀

LLM 如何解讀文字:我的 i18n 系統教會我的 Token 經濟學

將網站翻譯成6種語言後發現:韓語對相同內容消耗的token是英語的2.8倍。互動式視覺化工具展示原因。

3 分鐘閱讀