訂閱
糾錯
加入自媒體

從哲學概念到科技概念,再到經濟概念,Token的前世今生

導語:當主流模型皆以Token計費、企業設立專門Token預算、政府政策文件也寫入“詞元交易”時,Token正成為無需爭論的新經濟單位。

圖片

王劍/作者  礪石商業評論/出品

2026年3月,發生了兩件看似不相關的事。

英偉達CEO黃仁勛在GTC大會上預測,公司到2027年的營收將至少達到1萬億美元。

演講中,他還順手將數據中心重新定義,介紹“那是生產AI智能Token的工廠”。

而同一個月,中國國家數據局局長劉烈宏在中國發展高層論壇上發言時說,“Token不僅是智能時代的價值錨點,更是連接技術供給與商業需求的結算單位”。

并且,他代表官方給“Token”定下了中文譯名:“詞元”。

一位是全球最大芯片公司的掌舵人,一位是中國數據領域的最高主管官員,卻用幾乎一致的口吻,將Token描述為了一個經濟單位。

那么,如今火爆全球,甚至有可能成為新時代的貨幣的Token,究竟是什么?

1

什么是Token?

1906年,美國哲學家Charles Sanders Peirce(查爾斯·桑德斯·皮爾士)正在琢磨一個看似簡單的問題:一頁書上印了20個“the”,這到底算是一個詞,還是20個不同的詞?

這并非是皮爾士心血來潮,故意在咬文嚼字。

作為哲學家,他認為那個作為抽象概念的“the”,其實代表了一種普遍的規則或形式。

對此,他稱其為“類型”(Type);而書中每一個具體可見的“the”,則是這個類型的一次具體呈現,可以叫做“實例”(Token)。

也就是說,20個“the”是同一個“類型”的20個不同“實例”。

他就此指出:“類型(Type)本身并不存在,但它卻決定了哪些具體的東西能夠存在。”

這個看似玄奧的觀念在哲學圈流傳了很久,但當時沒人想到,它未來會和計算機產生什么關聯。

直到1936年,哈佛大學的語言學家喬治·齊普夫在研究詞頻時,再次對Token進行了數學上的解釋。

彼時,齊普夫在對各種語言中詞頻的統計時,發現了一個有趣的現象:一個詞的排位和它詞頻的乘積,幾乎是一個常數。舉個例子,在漢語中,“的”是最常用的字,排第一,它的字頻大約是6%。

這時,排名(1)乘以字頻(6%)約等于6%。

接下來,排第二的字是“是”,它的字頻約3%,2乘以3%也約等于6%;然后是排第三的字“一”,字頻約2%,3乘以2%同樣約等于6%。

可以看到,這里的排序和字頻的乘積近似為一個常數。

因此,排第一的“的”的字頻大約是排第二的“是”的兩倍,更是排第三的“一”的三倍。

這種“頻率與排名成反比”的規律,后來被命名為“齊普夫定律(Zipf's law)”。

誰也沒想到,這個看似枯燥的數學理論,會在三十年后,成為計算機語言處理的一項重要理論基礎。

時間來到1960年代,“Token”的概念終于在計算機世界得到了應用。

比如,當程序員寫下int x = 5;這樣的代碼時,早期的計算機會像一個認真的“語法拆解員”,從頭到尾把這串字符逐個拆開理解。

在此過程中,計算機先認出“int”是一個表示整數類型的關鍵詞,接著把“x”標記為一個變量名稱,之后看到“=”是賦值符號,最后的“5”則被識別為一個具體的數字值。

而每一個這樣被識別出來、并貼上明確含義標簽的獨立單元,就是一個Token。

如此一來,Token終于完成了從人文概念到機器語言的轉身,成為了計算機“讀懂”指令和信息的基本單位。

圖片

從默默支撐數字世界的語法基石,到后來被賦予全新的價值與共識,Token的含義仍在不斷延伸。

2017年,隨著區塊鏈與ICO熱潮的興起,冷門的Token也因披上了“數字代幣”的華麗外衣,被世人逐漸熟知。

盡管那輪熱潮逐漸冷卻,許多項目悄然退場,但Token這個概念卻穩穩地留了下來。

它不再只是一個技術名詞,而是帶著“可流通的數字權益憑證”這層新身份再次被人提及。

可以說,無論身處什么樣的背景,Token的核心始終是:把復雜事物標準化,變成系統可識別、可處理、可流轉的最小單元。

也正是這個貫穿始終的基因,才使得在大規模語言模型崛起的今天,Token成為了人機交互中最基礎、也是最重要的“語言單元”。

那么,當AI面對人類語言時,又是如何運用這把“尺子”來學會“理解”與“思考”的呢?

2

AI學會思考的底層邏輯

我們首先要厘清,AI理解人類的指令,并非只是我們想象中的“閱讀”或“推理”,而是一次精準的“外科手術”——“切割”。

這意味著,你輸入的任何一句話,AI都會做一次精密的“拆解手術”。

在指令發出后,所有文字都會被切割成一系列Token碎片,隨即轉化為計算機數據。

換句話說,AI模型所有的“思考”與“推理”,其實都是在這些數字的復雜運算中完成,再“翻譯”成人們能讀懂的語言。

這聽起來簡單,實際操作卻異常復雜。

比如,最常見的就是AI的歧義困境。

舉個例子,“羽毛球拍賣了多少錢”這句話,AI模型想理解的話,究竟是該在“羽毛球拍”后斷開,還是在“拍賣”后斷開?

前者是體育用品詢價,后者卻變成賽事競拍,語義天差地別,AI僅憑字符根本無法判斷。

所以,指令該“切什么、怎么切”,就成為AI最底層的核心問題。

更麻煩的是,如果某個詞從未在訓練數據中出現,模型便無法識別,只能標記為“未知”跳過,意味著系統出現了一個BUG(漏洞)。

因此,如何讓AI模型既能處理歧義,又能“認出”從未見過的字詞組合,成為困擾計算機語言處理領域多年的難題。

而這個難題被克服,則來自一篇被遺忘多年的技術論文。

1994年,美國程序員Philip Gage(菲利普·蓋奇)在一本C語言技術雜志上發表文章,介紹了一種名為BPE(字節對編碼)的壓縮算法。

蓋奇的思路很簡單,即通過反復掃描文本,把最常相鄰出現的兩個字符(如"th")焊成新符號,一輪輪迭代壓縮。

經過反復迭代后,常用詞組會越壓越小,解壓端只需保存這張“打包對照表”即可,讓整個程序的體積變得極小。

然而,因其壓縮效率并不突出,業內并沒人關心幾KB內存的變化,因此這個算法在當時并未引起太大關注。

這篇論文很快被人遺忘,這一忘就是22年。

直到2016年,愛丁堡大學的研究員里Rico Sennrich(科·森里希)在研究機器翻譯的分詞難題時,偶然檢索出了這篇舊文。

他敏銳地意識到,BPE這種基于頻率的合并策略,恰好是分詞的絕佳方案:無需預先定義詞典,完全讓數據自己“說話”,高頻組合就像滾雪球一樣,逐漸凝結成Token。

如此一來,即使面對“未見過”的生僻詞,計算機語言也能將其拆解為更細致的字節,從而徹底規避了“未知”困境。

圖片

2019年,OpenAI在發布GPT-2時,也是借用了這個概念。

研發團隊將分詞起點直接設定在“字節”——計算機存儲的最小單元,從底層統一了所有語言的表示方式,從而使模型理論上能夠處理任何語言文字。

一篇塵封二十余年的短文,就此成為驅動萬億級AI產業的底層邏輯之一。

這個結果,恐怕連蓋奇本人也未曾料到。

然而,當這種“處理一切文字”的能力與效率至上的算法結合時,一種全新的“算法霸權”悄然出現。

3

算法與編碼霸權

如今AI所用的這套分詞方法,表面上看很“公平”:哪種語言用得多,處理起來就更高效、更完整;用得少的語言,就會被切得比較零碎,處理起來也更“費勁”。

可這種效率至上的“公平”,卻悄悄地把全世界的語言分成了兩種待遇:有的語言是“快速通道”,有的卻像走在碎石路上。

簡單來說,由于BPE算法的核心邏輯是“頻率優先”,哪種語言最常見,那么相關詞匯就會被更高效地合并為Token。

而英語作為互聯網的絕對主流,自然是最優先的表述語言,其他語言則只能依據其“數字能見度”依次排序。

因此,AI模型中實際上形成了一套隱性的“語言稅”體系:表達相同的意思,英文最省Token、成本最低;中文通常需要1.5~2倍;而像祖魯語、藏語等資源較少的語言,開銷可達英文的5~10倍。

這意味著,在按Token計費的規則下,使用英文與AI對話不僅更快,同等預算下能調用的算力也遠多于其他語言。

這也不是什么新鮮事,信息時代一直如此。

從莫爾斯電碼到鍵盤設計,幾乎每一次信息技術的底層變革,都會默認為英文鋪平道路,而讓其他語言的使用者不得不付出額外的“轉碼”代價。

因此,Token的效率差距,只是這條歷史規律在AI時代的重演罷了。

值得警惕的是,這種“起跑線”上的不公一旦寫進AI的初始詞表,就幾乎無法再進行修正。

因為,分詞規則是AI模型認知世界的地基,大樓蓋得越高,地基就無法更換。

可喜的是,隨著中國在大模型領域快速進步,即便是英文語料主導的模型,也開始顯著優化對中文的處理效率。

這一點,在OpenAI的模型迭代中體現得非常明顯。

比如同一句中文,在GPT-3中需要38個Token,到GPT-4降為26個,而GPT-5僅需15個。

說明通過幾代GPT的演進,處理同一中文內容所需的Token數量下降超過60%,中文的識別效率顯著提升。

圖片

而通義千問、DeepSeek等國產大模型,更是從設計之初就將中文的高頻詞組、成語等作為原生Token納入詞表,從而在相同模型規模下,實現了對中文更高效、更“母語”級的處理。

換句話說,在AI時代,誰掌握了“語義切分權”,即定義語言基本單元的權力,誰就在很大程度上掌握了該語言在數字世界的表達效率與成本優勢。

而這種定義Token的權力,實質上已構成一種數字時代的“基礎鑄幣權”。

其戰略意義,甚至不亞于掌握芯片的設計與制造。

這種效率上的差距看似是道坎,實際上更像一張門票:只要你有足夠的算力和數據,完全可以不走別人的老路,自己打下最結實的地基。

而要把這種“定義語言基本單元”的優勢,真正變成產業上的話語權,還需要一整套從能源、芯片到算力的硬支撐。

這條路上,中國恰好都站在了起跑線前。

4

中國鑄造Token硬通貨

如果要為中國在全球Token經濟中的位置畫一條鏈路,起點是能源,終點則是全球AI服務市場。

不妨想象個畫面:西北戈壁的風機將風能轉為電力,電流又沿特高壓線路匯入數據中心;GPU再把電能轉化為算力,源源不斷生產出Token。

而這些數字單元最終通過海底光纜,流向全球各地,再換回以美元計價的API調用收入。

事實上,中國在這條鏈條上的體量,早已大到可以獨立成勢。

公開數據顯示,截至2026年3月,我國日均Token調用量已達140萬億,兩年間增長超千倍。

同期全球監測更顯示,中國大模型每周調用量已連續數周超越美國,領先幅度超過兩倍,穩居全球首位。

那么,中國的Token經濟為何這么強?

這要從成本說起,但最關鍵的變量是電價。

圖片

在貴州、云南等水電豐富的地區,以及甘肅、新疆等風光資源充沛的省份,工業用電價格長期處于低位。專門供給算力中心的綠色電力,部分地方甚至低至每度電0.15元。

反觀歐美大部分地區,工業電價普遍是中國的數倍甚至更高。

舉個例子,生成100萬個Token大約需消耗15到20度電。如果按中國西北的低價綠電計算,成本僅數元人民幣;而同樣的計算任務,在國際市場上對應的電價則通常在60到200美元之間。

這樣一比,中國憑借在能源與算力成本上的優勢,構筑了一條從“電”到“Token”的成本護城河。

更關鍵的是,中國將大量難以被完全消納的綠色電力,與持續爆發的算力需求精準對接,形成了獨特的產業閉環。

2025年,中國全年發電量突破10萬億度,占全球總量近三分之一。

其中,風電、光伏等新能源曾因儲能不足、外送受限而產生明顯的“棄風棄光”現象。

而數據中心作為可調節的負荷大戶,可以在風光發電高峰時段提升運行負荷,高效消納這些原本被浪費的綠色電力。

這樣一來,不僅降低了用能成本,也提升了能源利用效率,構成了其他國家難以復制的系統性優勢。

近年來推行的“東數西算”工程,更是將這一邏輯提升至國家戰略層面,引導數據中心向貴州、內蒙古、寧夏等可再生能源富集地區布局。

這相當于將算力中心直接接入“綠電插座”,將過去可能被棄用的風電、光伏電力,高效轉化為可用的AI計算力,持續產出Token。

因此,這場AI競賽看似是算法與模型的比拼,實則是能源轉型與數字基建深度融合的全新答卷。

而中國,恰好在這條賽道上占據了交匯點。

與此同時,隨著AI從技術探索走向產業深處,傳統制造業的質檢排產、金融業務的風控合規、政務系統的文書處理等場景,正快速成長為Token消耗的新主力。

這類需求體量龐大、持續穩定且對價格高度敏感,恰恰又與中國Token產業的低成本結構高度適配,讓中國在全球Token競爭中,始終占據著難以復制的供給優勢。

正是因為有了從能源、算力到實際應用的完整支撐,Token也逐漸從純粹的技術單元,演變為可在數字世界中承載和交換價值的通用載體。

這就意味著,Token完全有可能在未來成為數字經濟的“基礎貨幣”。

5

當Token成為不可替換的結算單位

回望歷史不難發現,任何一種新計量單位最終占據主導,靠的都不是完美,而是越用越離不開,到最后切換成本高到沒人愿意換。

而Token恰恰具備這種“一旦用上就難以離開”的特性。

首先,是其精準的可度量性。

Token天生就是AI服務的計費單元,每一次調用都有清晰的消耗記錄,比電價更易核算,也比流量更直接對應價值產出,而這一屬性從誕生之初便已根植其中。

其次,是要有可交換性。

而就在近期,國家數據局在征求意見稿中已首次提出“詞元交易”,探索構建以詞元為核心的可量化、可定價數據價值體系。

這意味著,Token在國內終于有了一個“價值標準”,不再只是技術文檔里的計量單位。

與此同時,一個看似矛盾的趨勢正在發生:用戶端感受到的AI服務價格不斷下降,但上游的算力成本卻持續上漲。

比如,2025年10月至2026年3月,H100芯片年租價上漲近40%,且一卡難求;國內外主要云廠商也在2026年初集體提價。

這背后,正是AI從“對話”轉向“自主執行”這一結構性轉變,推動了算力需求的重構,也使得Token作為核心價值載體的地位愈發凸顯。

關鍵是,AI的使用方式已經變了。

圖片

過去與AI助手聊天,一問一答,消耗的資源很少;但現在,企業讓AI去自動完成寫報告、做分析這些任務,消耗的資源一次可能就是聊天的幾百倍。

當原來按使用次數收費的方式,已經覆蓋不了飛速增長的計算成本時,漲價就成了必然,相當于市場在給AI“越來越能自動干活”這個能力,重新標價。

Token如今的處境,其實與當年的美元有幾分相似。

1971年美元脫離金本位之后,本質上靠的已是“共同相信它有價值”。

它能沿用至今,根本原因在于替換它的協調成本高到難以承受——全球的貿易、金融、儲備體系都已圍繞它建立。

今天,同樣的邏輯又在Token身上重演。

當主流模型皆以Token計費、企業設立專門Token預算、政策文件也納入“詞元交易”時,Token也如傳統貨幣那樣,因嵌入過深而難以被取代。

所以,Token是否將成為新的經濟單位,已無需爭論。

真正的問題是:誰來定義Token經濟的規則?誰又在全球算力網絡中掌握定價的主動權?

答案,或許正隨著每一個被生成、被交易、被消耗的Token,寫進奔涌的數據洪流之中。

參考文獻:

1.Peirce, C. S. (1906). Prolegomena to an Apology for Pragmaticism. The Monist, 16(4), 492–546.

2.Zipf, G. K. (1935). The Psycho-Biology of Language: An Introduction to Dynamic Philology. Houghton Mifflin.

3.Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.

4.Gage, P. (1994). A New Algorithm for Data Compression. The C Users Journal, 12(2), 23–38.

5.Sennrich, R., Haddow, B., & Birch, A. (2016). Neural Machine Translation of Rare Words with Subword Units. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL 2016), 1715–1725. https://aclanthology.org/P16-1162

6.Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners [GPT-2 Technical Report]. OpenAI. https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

7.Brown, T., et al. (2020). Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS 2020), 33, 1877–1901. https://arxiv.org/abs/2005.14165

8.NVIDIA. (2026, March). NVIDIA GTC 2026 Keynote: Jensen Huang. NVIDIA Corporation. https://www.nvidia.com/gtc/

9.劉烈宏. (2026年3月). 在中國發展高層論壇2026年年會上的發言. 國家數據局.

10.國家數據局. (2026年4月16日). 關于推進行業高質量數據集建設行動的實施方案(征求意見稿).

11.國家發展和改革委員會. (2022年2月). 關于印發“東數西算”工程實施方案的通知. 國家發展改革委. https://www.ndrc.gov.cn

12.中國電力企業聯合會. (2026年). 2025年全國電力工業統計快報. 中電聯. https://www.cec.org.cn

13.J.P. Morgan. (2025). AI & Big Data: Token Demand Outlook 2025–2030. J.P. Morgan Research.

14.IDC. (2025). China AI Agents and Autonomous Task Forecast, 2026–2031. International Data Corporation.

15.Hoffmann, J., et al. (2022). Training Compute-Optimal Large Language Models. arXiv preprint arXiv:2203.15556. https://arxiv.org/abs/2203.15556

16.Touvron, H., et al. (2023). LLaMA: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971. https://arxiv.org/abs/2302.13971

       原文標題 : 從哲學概念到科技概念,再到經濟概念,Token的前世今生

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號