馬斯克急推“美國編程版DeepSeek”，評論區：還不如免費的……

2026-06-01 15:42

內有DeepSeek和小米瘋狂降價，外有Anthropic和Google推陳出新，馬斯克也坐不住了。

今天早上，馬斯克在xAI平臺上的一條高調轉發，試圖向AI開發者圈子拋出深水炸彈。

事情的起因是，著名的智能體平臺Kilo Code發布了一項極為反直覺的硬核實測：測試者僅僅給出了一個模糊而開放的指令，xAI最新發布的編程模型Grok Build 0.1就在極短的時間內，完整地規劃、編寫并最終上線了一個包含復雜退避重試機制、安全簽名驗證以及數據庫持久化能力的Webhook后端微服務。

更令人眼前一亮的是它的最終賬單，整個流程一氣呵成，總成本只有1.65美元。馬斯克也對此親自點贊轉發，并留下了一句極具煽動性的評價：“Good value for money（物超所值）”。

在GPT-5.5定價依然高高在上、Claude Opus 4.8算力稅沉重的今天，馬斯克旗下Grok Build 0.1這波操作，很難不讓人聯想到，它試圖在硅谷復刻中國大模型的路線：用極致的價格，重新定義AI Coding的性價比。

不過，開發者圈子里有一句話，“老馬的嘴，騙人的鬼”，馬斯克真的搞出了一個“美國編程版DeepSeek”，而不是所謂的“美國大豆包”嗎？先別急著喝彩。脫下實測的經驗外衣，結合全球AI競爭的權力版圖與資深工程師的源碼探究，其實這是一場精妙的自救與豪賭。

01 自救計劃

要看懂Grok Build 0.1的定位，絕對不能只看老馬一天發無數條的推文，而是要看xAI旗下Grok系列模型的生存窘境。

前段時間Google發布Gemini 3.5 Flash后反響極差，被不少人戲稱為“美國大豆包”。但在我看來，這個名號放到Grok頭上才更貼切。畢竟，在目前的全球大模型第一梯隊中，xAI的處境其實非常尷尬。

根據權威評測機構Artificial Analysis最新的排行數據，Grok系列模型雖然在部分參數上仍然堅挺，但在核心的Intelligence Index排行榜上已經被“中美聯軍”所包圍。

拋開OpenAI、Anthropic和Google這全球頂級、遙遙領先的“御三家”不談，阿里的Qwen3.7 Max、月之暗面的Kimi K2.6以及小米剛剛降價的MiMo-V2.5-Pro，都已經在多項基準測試中對Grok形成了全面壓制。

而在Coding和Agentic這兩個更加具體的領域，xAI的表現更是不盡如人意，早已被甩出前十，在開發者圈子中無人問津。Grok現在唯一的舞臺，是在x平臺上憑借多模態能力和寬松的內容限制大放光彩，“美國大豆包”名不虛傳。

在這種“全能拼不過、生態被蠶食”的情況下，前不久在與OpenAI的官司中敗訴的馬斯克如坐針氈，毅然決然地選擇了一套非常聰明的戰術：抄既是xAI合作伙伴、也是OpenAI最大對手的Anthropic的作業，走垂直編程專精的“偏科生”路線。

Grok Build 0.1正是這種思路下的第一個產物。它的定價極具侵略性：輸入1美元/1M tokens，輸出2美元/1M tokens，還不到GPT-5.5和Opus 4.8的十分之一。

馬斯克深知，全球的開發者都有一個共同的特點，那就是對價格和性能極度敏感，他試圖用“試錯自由”來重新奪回原本屬于自己的生態位。即使一次生成的代碼跑不通，花幾美分重跑一遍也不心疼。因此，馬斯克只能用這種“廉價勞動力”的模式，試圖從編程這個垂直切口，強行撬開OpenAI的護城河。

02 物超所值

客觀來看，Kilo Code這波實測確實給老馬和Grok爭了口氣。它展現出來的不僅是代碼生成能力，還有驚人的Agentic工作流邏輯。這種強大邏輯能力的體現，甚至讓一些資深的后端工程師感受到了一絲職業危機。

看完Kilo Code發布的技術報告，Grok Build 0.1的閃光點主要有兩個：

一是架構師級的規劃深度。

這款新模型的思路與人類架構師的想法幾乎完全一致，拒絕盲目動手，而是先問“為什么”。

“用TypeScript、Bun和SQLite建一個微服務”，這已經算是懂技術的產品經理給出的指令了。但光是看到這條指令，無數程序員可能已經開始頭疼：任務十分開放、沒有嚴格的架構規劃、也沒有具體的需求。

然而，Grok這次表現得像是個擁有多年從業經驗的架構師。它沒有直接輸出代碼，而是先執行了聯網搜索，深度調研了Stripe和GitHub上的行業標準，并向測試者拋出了多個關鍵的架構反問：

Kilo Code將之命名為“規劃階段”，而這個階段的總花費恐怕誰也想不到：0.17美元，附帶著一份包含ASCII架構圖、Drizzle Schema定義和明確的風險評估報告。

這種“先想再做”的思路，是人類工程師必備的職業素養，也是Grok避開早期AI編程最容易出現的“答非所問”問題的關鍵技術。

二是極度舒適的自主糾錯能力。

到了編碼階段，Grok能夠以120 tokens/秒的流暢速度輸出代碼。

不僅如此，在配置環境時，它還遇到了Bun的ABI不匹配以及Zod的類型錯誤，這在傳統的Vibe Coding過程中顯然需要人工進行干預。但Grok在沒有任何提示的情況下，自主診斷報錯、重新調整導入路徑、修改配置文件，最終一氣呵成搞定了26個工程文件。

這也是Kilo Code重點夸獎的特性：全程零工具調用失敗，成本僅僅1.48美元。這種絲滑的Agentic體驗，確實對得起“Build”這個名字。

03 致命短板

正當人們準備為幾美元即可兌換的生產力而歡呼時，社交平臺和技術社區的清醒聲音給了老馬一記重錘。

顯然，馬斯克試圖對AI Coding的性價比進行重新定義。

Grok Build 0.1的低價，是建立在對比昂貴的GPT-5.5和Opus 4.8基礎上的。但如果把目光放到全球，這波低價營銷的局限性就凸顯出來了。就在Kilo Code發布技術報告的評論區里，網友直接開炮：

“簡直一派胡言。甚至連免費版的DeepSeek Flash都能處理這種規模的問題。”

技術社區Linux.do同樣反響不佳，該模型被評價為“干活不主動、理解能力差”。

這就揭露了一個尷尬的現實：馬斯克自以為的“白菜價”，在國產大模型早已打到地板的價格體系面前，并不具備絕對的代差優勢。

而我始終堅持的觀點也未曾動搖：當下AI競爭的格局，要么做到性能領先，要么做到極致性價比，位于中間地帶的模型，并不具備多少實際應用價值。

更致命的短板在于上下文窗口，只有256K。

在長上下文模型層出不窮、1M窗口已經成為復雜任務標配的今天，256K顯得捉襟見肘，甚至有些可笑。這就意味著，Grok在“從零構建項目”時表現出色，但一旦進入真實的、已經擁有幾十萬行代碼的項目時，它壓根無法裝入足夠的歷史上下文，最后的結果自然是幻覺頻出、指令遵循能力差和主動性差。

與此同時，馬斯克這次發布模型依然采取了“拒絕跑分、純靠曬單”的營銷策略。然而，一年前的編程模型Grok Code Fast 1就頻繁被詬病，盡管人們現在對第三方評測機構和基準測試的結果的信任與日俱減，但就像此前說的，基準測試是“及格線”而不是“優秀線”，缺乏第三方測試支撐的發布，難免被質疑存在幸存者偏差的過度包裝。

04 源碼探究

同樣是在Kilo Code的評論區下，一條評論呼吁所有人保持警醒：