訂閱
糾錯
加入自媒體

GPT-5王座難坐穩,OpenAI想靠價格贏過一切

2025-08-14 16:47
光錐智能
關注

圖片

文|魏琳華  編|王一粟

從2023年底OpenAI CEO Sam Altman第一次提到GPT-5,到今天模型的正式發布,時間過去了一年半。

如今,人們仍然熬夜圍觀OpenAI的發布會,但徹夜討論的呼聲中少了驚呼,多了質疑。

值得欣慰的是,從模型性能上來說,OpenAI成功扳回了之前下滑的口碑。在發布會上拿出的GPT-5,依然做到了多方面能力SOTA,更是靠GPT-5直言“世界最強編程模型”,狙擊Claude的領先地位。

但繞不開的一些固有印象是,OpenAI拉開同行的差距,遠遠不及GPT-3、GPT-4的斷崖式領先。

OpenAI的同行者也虎視眈眈。不說Anthropic本周官宣要在當月發布大版本更新的模型,馬斯克更是刷屏一晚,強調自家模型Grok-4在部分測試上已經超過了OpenAI的新模型。

OpenAI又能在這個新“王座”上坐多久?Altman不語,只是一味地講起了大模型便宜落地的故事。

盯上最強代碼模型 GPT-5全面升級

刷新的性能分數、極高的性價比、針對性優化的幻覺問題和超長上下文,方方面面的優化,都是為了讓GPT-5成為一個更適合干活的大模型。

首先在架構上,GPT-5是一個統一架構版本的模型,由三個部分組成:一個基礎模型、一個具有深度推理能力的GPT-5 thinking模型,加上一個實時路由器。

這樣設計的好處是,實時路由器能根據對話類型、問題復雜性、工具需求以及用戶意圖快速決定使用哪個模型。比如當用戶的提示詞包括“幫我認真思考一下”這類話術,它就會調用深度推理模型。

在發布會前一天就大肆預熱的Altman,就在X上發圖暗示GPT-5的性能優勢,在發布會上,他也強調了對GPT-5的信心。

圖片

“如果說和GPT-4的聊天像跟高中生對話,和O3像是跟大學生聊天,那么跟GPT-5的交流就相當于對話博士生。”Altman這樣定義GPT-5的體驗感受。

先從性能說起,被Altman當成殺器的GPT-5,確實在多個模型能力上做到了SOTA。聚焦到測評指標上,GPT-5的優勢體現在編程、數學、多模態理解和健康等方面。

先說OpenAI著重放到開頭講的編程能力,這一次,OpenAI如愿以償地搶回了領先地位。用他們的話說,“GPT-5是世界上最強的編程模型。”

在SWE-Bench(測試大模型代碼補全能力)的指標上,GPT-5的推理版本拿到了74.9%,不僅超越了自家模型O3,也超越了Anthropic剛發布的Claude Opus 4.1(74.5%)。在編程能力上,OpenAI搶過了Claude系列的王座。

圖片

發布會現場,OpenAI通過一些案例具體展示了OpenAI的編程能力,比如讓它做一個闡釋伯努利效應的網頁,在兩分鐘內,GPT-5跑出了400行代碼,做了一個支持調整參數的網頁版本。

圖片

除此之外,OpenAI還展示了模型做一些網頁端小游戲的能力,比如蹦跳躲障礙的網頁小游戲、隨心畫畫的畫布小游戲,還有美觀提升一個度的貪吃蛇。這些能力其實交給當下一些開源大模型同樣能完成,只是OpenAI的美觀度和流程完整度上了一個臺階。

圖片

除了這種面向C端用戶體驗的案例,在B端實際使用上,OpenAI也面向開發者演示了GPT-5寫代碼落地的能力,GPT-5不再埋頭寫代碼,而是把“開箱可用”的落地能力夯實了。比如,GPT-5在后臺寫代碼并自行優化迭代之后,按照需求開發了一個財務信息看板,UI做得也足夠漂亮。

圖片

除了編程,在其他多個維度上,GPT-5也有部分指標刷新自家模型的上限,包括數學(AIME 2025,GPT-5無工具版本拿到94.6%)、多模態理解(MMMU 為 84.2%)和健康(HealthBench Hard 為 46.2%)。

GPT-5再次向我們證明了“模型即產品”的觀點可行性——加上工具能力的GPT-5 pro,它甚至能直接把AIME 2025(美國數學競賽)的測試刷滿分。

圖片

不過,OpenAI的翻車變成了第一個出圈的討論。在發布會演示的現場,OpenAI上來就犯了一個非常嚴重和低級的錯誤:在現場展示的圖表中,數字大小和柱狀圖顯示的關系甚至都匹配不上,69.1和30.8的柱圖高度一模一樣,52.8甚至比69.1更大......

圖片

對此,光錐智能也隨便給了一組數據測試,讓GPT-5做柱狀圖。最終跑出來的數據和圖表關系對照沒有錯誤,可見不是模型生成的問題,大概單純是制圖失誤。

圖片

除了上述優化外,GPT-5還在模型的超長上下文理解、幻覺問題等方面做調整,一切的努力都是為了讓這個模型能夠更好地落地。

根據OpenAI給出的數據,GPT-5在上下文理解上的處理效果不僅有所提升,并且在文本更長的階段(比如輸入在128-256k長度),可以從圖示看到,GPT-5理解能力下降的速度顯著低于其他模型。再有,GPT-5還顯著降低了幻覺問題,其事實錯誤率比GPT-4o降低了45%,這對于模型應用在法律、醫療等要求精準的行業算是利好。

圖片

如果從性能上評估,GPT-5雖然能力全面升級,不過顯然不是大眾期待的顛覆式超越。但從性價比上來說,GPT-5給出的價格直接甩了對手一條街。

以標準版的GPT-5來說,和Claude Opus 4.1每百萬Token輸入15美元、輸出75美元的定價相比,前者的輸入價格低于后者的1/10,輸出價格低于后者1/7。

圖片

極低的價格,也是OpenAI愿意限量免費開放給所有用戶使用的底氣。目前,免費用戶也可以體驗到GPT-5,不過區別于付費用戶的不限量開放,前者會在用到一定額度后自動切換為GPT-5-mini模型使用。

此外,針對開發者使用的不同需求,GPT-5還在API 中引入了新功能,通過控制冗余量(verbosity)的方式,分為低中高三檔,幫助開發者控制AI生成內容的長短。

難坐穩的SOTA但價格或許能贏過一切

GPT-5固然在多項能力上刷新了SOTA紀錄,但這種領先優勢,不再是需要長期追趕的鴻溝。

先從本次OpenAI最先喊出的“最強編程模型”來說,領先于Claude Opus 4.1僅0.4%的優勢,很有可能在本月被Anthropic趕超。

從去年挖角OpenAI成員,再到部分能力超過OpenAI旗艦模型。Anthropic正處在像之前OpenAI狙擊Google新模型的階段,緊緊追著OpenAI的步伐。

本月,在OpenAI發布兩個開源模型的當天,Anthropic早其十幾分鐘,發布了小更新版本Claude 4.1。特別是在這家公司還預告了“大幅度更新模型”即將在本月發布的情況下,0.4%的微弱差距,很難讓人對OpenAI保持樂觀。

微弱的優勢同樣造成了評測口碑的兩極分化。即使OpenAI喊出了最佳編程模型的地位,但在用戶使用體驗的階段,OpenAI還沒有形成一邊倒的優勢。

有用戶表示,對比GPT-5和Claude,后者跑出的各個案例都明顯優于前者,在UI和前端效果上更佳;也有用戶認為,用GPT-5跑出來的代碼效果更精細。

圖片

而GPT-5的面面俱到以及微弱優勢,或許還不如前一天Google發布的視覺生成模型Genie更讓人印象深刻。畢竟每秒24幀已經能讓AI跑出來的視頻達到流暢的效果,畫質720p的清晰度也翻越了一倍。

在Anthropic、Google等競爭對手的步步緊逼下,AI領域的“SOTA”寶座,正變得越來越難以坐穩,也難以留下深刻印象。

那么,在性能趨同的背景下,AI大模型的競爭將走向何方?OpenAI給出的答案是價格。當技術領先難以形成絕對壁壘時,“價格戰”才是贏得市場的終極武器。

“GPT-5 是我們迄今為止最聰明的模型,但我們主要追求的是實際應用價值和大規模的普及/負擔能力。”Altman在X上說,“我們完全可以發布更智能的模型,而且我們會這樣做,但這個模型將有數十億人受益。”

通過優化成本的方式,OpenAI的價格雖然不能和國內便宜大碗的開源模型們比較,不過和一個月讓程序員輕松花掉上千美元的Claude相比,OpenAI能在API端把輸入輸出價格分別拉低到1/10和1/7,其成本優勢斷層領先。

這也是為什么發布會后半場,OpenAI開設了一個“開發者專場”,專門面向開發者群體展示模型的實用能力,并拉來Cursor CEO、Manus的首席科學家背書,秀自家模型在Agent、Vibe Coding(氛圍式編程)上的效果。

于C端,免費開放的GPT-5將大幅提升之前無法體驗O3等付費模型用戶的使用體驗;于B端,便宜的API也會成為開發者尋求性價比的考慮。

從GPT-5秘密訓練到發布的一年半之間,OpenAI真正的壁壘已然不再靠越來越短的SOTA紅利支撐,而是變成了價格和模型的落地效果。

當成本急劇降低到更普適大眾的節點,AI應用的爆發,才能指日可待。

       原文標題 : GPT-5王座難坐穩,OpenAI想靠價格贏過一切

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號