新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

訂閱
糾錯
加入自媒體

英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

2026-07-02 16:05
快科技
關注

快科技7月2日消息,英偉達宣布其Blackwell平臺通過全棧推理軟件優化,DeepSeek V4模型的單Token成本在一個月內最多降至五分之一。

隨著企業從AI試點走向生產型AI工廠,基礎設施決策已從芯片規格峰值轉向每元、每瓦特及延遲目標內能交付多少有用Token。

英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

英偉達通過三層架構實現Token成本的大幅下降。生產運營層負責分布式服務編排與自動擴縮容,應用加速層通過計算通信重疊和內核融合進行運行時優化,基礎設施訪問層則直接調用GPU、網絡與系統能力。

多項技術疊加后,Blackwell平臺單GPU的Token吞吐量最高可提升20倍。這些技術包括分離式服務、基于NVLink的大規模專家并行、NVFP4精度以及多Token預測。

英偉達將單Token成本列為AI總擁有成本的核心指標,Blackwell平臺已將其降至行業最低水平。

英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

多家推理服務商已從中獲益。Baseten利用TensorRT-LLM開源庫在Blackwell上服務DeepSeek V4 Pro,每秒Token輸出量提升高達50%。

Cognition借助Dynamo推理框架管理GPU,無需從零構建即可擴展強化學習工作負載。Together AI用TensorRT-LLM幫助Cursor加速從模型優化到生產終端的路徑。

英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

開源生態進一步放大了全棧優勢。PyTorch等主流框架原生基于CUDA構建,使新研究成果能立即在NVIDIA GPU上運行。

DeepSeek V4發布后,vLLM和SGLang等框架隨即為Blackwell提供部署方案,一個月內性能提升高達5倍。

英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

作者:紅茶來源:快科技

       原文標題 : 英偉達殺瘋了!DeepSeek V4推理成本狂砍80%

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號