新在线不卡免费视频|www国产精品久久麻豆|美女午夜福利网站|《福克斯号上空姐们》|关于秘书的电影|美少女的哀羞txt|日产国产一区二区三区

當前位置： OFweek 人工智能網 > 機器學習 > 正文

連夜測了一波DeepSeek-V4，我發現它可能只剩“審美”這個短板了

2026-04-27 10:15

DeepSeek-V4六維實測

大模型的圈子最近真的是大戲連連，Claude和OpenAI你方唱罷我登場，兩位CEO更是化身戲精，在社交媒體上大打輿論戰。

不過，今天所有的風頭都被一家公司搶光了。

沒錯，在反復橫跳小半年時間后，今天中午，DeepSeek總算是把萬眾期待的新模型DeepSeek-V4端了上來，并宣布API服務已同步更新，即日起登錄官網或官方App即可搶先試用。

（圖源：雷科技）

要知道，前段時間網上還有一堆人拿他們開玩笑，說老板沉迷打游戲忘了更新，還有人擔心他們因為海外的芯片限制搞不出新一代的高端模型了。

結果人家今天直接把V4甩在了大家臉上，不僅有主打輕量便宜的Flash版本，還有滿血旗艦的Pro版本。

這次更新最狠的地方在于，它把百萬字的長文本記憶能力變成了標配，而且因為大量使用了華為昇騰芯片，加上自己研發的底層優化技術，把價格打到了一個讓人直呼離譜的地步。滿血版處理百萬字，只要12元/輸入，24元/輸出，連Claude的四分之一都不到。

不過官方也挺實在，在發布的時候承認目前和世界最頂尖的閉源模型還有幾個月的差距。

既然官方這么坦誠，那小雷今天也不去看那些虛無縹緲的跑分榜單，直接給DeepSeek-V4安排一場評測，從推理、編程、文本處理、多輪對話、工具使用和知識準確性六個維度對其進行深度拆解，看看它在真實場景里到底好不好用。

編程與工具使用：邏輯不錯，審美堪憂

既然DeepSeek-V4自己都強調模型的Agentic Coding能力，那么我們先來看看大模型最容易拉開差距的代碼能力。

這里注意一下，為了貼近普通人的日常使用習慣，也因為本人自己完全沒有編程能力，小雷沒有用那些專業的程序員指令，而是全程用大白話提要求，讓DeepSeek-V4-Pro與Trae打配合，執行了兩個較為復雜的任務。

第一輪測試，小雷讓它寫一個可以互動的網頁版星空，要求是可以點擊星星看故事，還能用鼠標拖拽視角。

這個任務的難點在于想象自己在一張紙上畫一個會動的星空，同時還要讓人能用手指轉動它、點擊星座看故事，對大模型的設計、交互和信息搜索能力都提出了一定的要求。

拿到任務后，DeepSeek-V4-Pro先是思考了一會兒，然后輸出了一套共六步的設計方案。

（圖源：雷科技）

之后，我們就完全放手讓DeepSeek-V4-Pro自主執行任務，它會自己調用各種工具，連續編程了接近34分鐘，期間沒有出現中斷或者死循環，也沒有遺漏關鍵步驟，完全按照此前的規劃執行，最后消耗了價值6.19元的Token。

開發結果如下，從交互式內容的角度來看，這個成品在美感層面稍有欠缺，但所有功能都運轉正常，你不僅能夠流暢地拖動球形天體模型，還能通過點擊查看信息注解，流星劃過的特效也很完美。

（圖源：雷科技）

作為對比，這是Hy3-Preview的效果。

（圖源：雷科技）

而這是Codex的效果，實際耗時和Deepseek相差不大，功能也基本一致，但是頁面設計、色彩過渡和交互度上明顯更好看一點。

（圖源：雷科技）

看來V4的核心邏輯沒毛病，就是審美需要找個設計師來補補課。

第二輪我們上點難度，讓它寫一個小型的地牢探險網頁游戲。

這回第一次生成居然還出了點問題，Trae反饋生成被截斷了，需要使用更緊湊的方法進行重試。

（圖源：雷科技）

第二次的表現就非常精細了，它不僅把游戲的基礎框架搭得明明白白，甚至還自己腦補了一套相當完善的經濟系統和升級路線，角色的血量、藍量、攻擊力計算公式寫得非常嚴謹。

（圖源：雷科技）

我選擇了戰士，甚至可以用1、2鍵觸發技能。

（圖源：雷科技）

比較可惜的是，這套組合缺乏直接制作動畫的能力，生成像素圖的效果也是非常粗糙，同樣沒有什么美感可言。

作為對比，元寶雖然生成更快，但是忘了設計敵人，導致內容幾乎沒有可用性。

（圖源：雷科技）

盡管最終耗時42分鐘，還用了我4.71元，至少結果是滿意的。

總體來說，DeepSeek-V4在編程上確實有顯著提升，框架清晰，速度極快，特別適合拿來干苦力活和寫后臺邏輯。但如果你想要一個開箱即用、漂亮美觀的前端成品，還是得人工幫它稍微調整一下。

需要注意的是，和Qwen、Seed不同，Deepseek自身是不帶任何插件的，工具使用能力全靠API接入Agent才得以展示。

考慮到目前DeepSeek-V4表現出的效果，個人還是很期待未來的工具整合表現的。

推理與算數：生成很快，偶爾也會翻車

如果說寫代碼考驗的是手藝，那邏輯推理考驗的就是腦子了。

我們這次特意準備了幾道不按套路出牌的測試題，確保它沒有公式可以套，全靠大模型的推理能力和對真實世界的理解。

先來一道精心設計的陷阱題，“一瓶水和一塊冰，放在同一個保溫箱里密封，24小時后，保溫箱里的水變多了還是變少了？”

劇透一下，答案應該是不變。

結果Flash和Pro這倆一個說多，一個說少，就是沒有說對的，你倆到底是在思考些什么東西了？

新建項目 (1).jpg

（圖源：雷科技）

接著是一份海龜湯，“一個人半夜醒來打了自己一巴掌，然后聞著一股煙味安心睡去了，請問發生了什么？”

屏幕截圖 2026-04-24 222415.png

（圖源：雷科技）

這個問題倒是都答對了，而且Flash的思路更直接，反而是Pro耗了一段時間，反復琢磨著應該給出啥答案來。

（圖源：雷科技）

值得一提的是，不知為何，這類海龜湯問題如果沒有加上海龜湯的前綴，V4的回答準確率會下降一些。

就像這道海龜湯，V4-Pro愣是琢磨兩分鐘，然后得出一個前后矛盾的答案。

（圖源：雷科技）

至于知識準確性這塊，來點2025年第66屆國際數學奧林匹克上的算術題再好不過了。

題目如圖所示：

（圖源：雷科技）

我們這邊選擇斷網，關閉聯網開啟推理，讓模型完全靠自己解決問題，順便可以考察一下DeepSeek網頁服務中OCR的能力。

好消息，識別對了。

（圖源：雷科技）

壞消息，第一步思考就不對了。

接下來自然是無盡的死循環，看著DeepSeek-V4-Pro在那里瘋狂輸出了兩三分鐘后，我選擇直接給它掐斷了。

（圖源：雷科技）

至于Flash，那更是只剩下車轱轆話。

只能說，作為一款開源模型，Deepseek-V4在這件事上比它的前輩們肯定是有所提升的，但要說有什么很顯著的提升...好像也沒有那么大。

文本處理出色，多輪對話顯著提升

既然官方都說邁入百萬上下文普惠時代，不整整活怎么行呢？

我們也簡單試了一下，給《斗破蒼穹》里隨便貼了一段《都市超能高手》的小說內容，然后丟給DeepSeek-V4讓它找。

結果啪的一下，很快啊，DeepSeek就找到了異常。

（圖源：雷科技）

這可是二十四萬字的文本啊...就這么給他拿捏了。

隨便問一段《斗破蒼穹》的問題，它也能很自信地答出來，文本檢索、總結能力都是肉眼可見地提高。

（圖源：雷科技）

這還沒完，為了考驗它多輪對話的能力，我決定和它進行20輪以上的對話，去設計一個涉及5個城市、12個景點、不同預算和交通工具的復雜旅行計劃，并在對話過程中，不斷人為加入變量。

總之，開場白是這樣的。

（圖源：雷科技）

不得不說，我還是第一次和AI進行這么長時間的無意義對話。

差不多這測試進行到第10輪的時候，我已經感覺自己可能都不記得第一輪說過什么了。

好消息是，差不多第14輪的時候，DeepSeek-V4自己也記不得了。

從第14輪開始，它規劃的旅行安排就和之前交互中生成的那份安排沒啥關系了。

甚至出現了第13輪還在規劃箱根之旅，第14輪就在沒有任何提示的情況下給它剔除了的喜劇效果。

雖然對比之前DeepSeek的低專注度，現在的DeepSeek-V4能在高強度交互下保持一定的一致性，已經算是有所進步了，但是和我自己常用于角色扮演體驗的Gemini-2.5-Pro依然存在明顯差距。

總結：便宜好用才是硬道理

這一套連招測試下來，DeepSeek-V4給小雷的真實感受就是，它是一個很務實、干活利索，但稍微缺乏一點藝術細胞的模型。

它的優點非常突出，百萬級別的長文本處理能力，不錯的編程規劃與執行能力，再加上不高的調用成本，這玩意和今年的龍蝦潮非常適配，花一箱飲料的錢就能幫團隊快速干完一星期的活。

而且最讓國人提氣的是，在外部技術環境如此復雜的情況下，他們大量依靠華為昇騰等國產芯片，跑出了比肩世界最強閉源模型的能力，這確實證明了國產算力生態正在迅速崛起。

當然，它的缺點也客觀存在。它現在還沒法像競爭對手那樣直接看圖或者看視頻，在處理復雜的邏輯推理時偶爾會犯迷糊，而且寫出來的視覺界面確實不太符合現代人的審美。

官方說它和頂級的閉源模型還有幾個月的差距，這個評價非常中肯。

綜合來看，DeepSeek這次交出的答卷是完全超出預期的，它不僅穩穩守住了國內開源模型第一梯隊的位置，還有望把高高在上的算力價格給打下來。

對于咱們普通用戶來說，現在的DeepSeek-V4絕對是一個日常工作、寫代碼、查資料的絕佳免費助手。至于多模態那些更高級別的功能，不妨給他們一點時間，讓我們一起期待它下一次的進化。

DeepSeek編程代碼六維

來源：雷科技

本文圖片來自：123RF 正版圖庫

原文標題 : 連夜測了一波DeepSeek-V4，我發現它可能只剩“審美”這個短板了

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務

忘記密碼

其他方式

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新活動更多

6月30日
立即申請試用>> 【免費試用】旭之源工業電源一一機器人的穩定“心臟“
精彩回顧
立即查看>> 【限時免費】物理場仿真助力生物醫學領域技術創新
精彩回顧
立即查看>> 【直播】智測未來·2026海克斯康春季產品創新日
精彩回顧
立即查看>> 【線下論壇】新唐科技×芯唐南京 2026 年度研討會
精彩回顧
立即查看>> OFweek 2026（第十五屆）中國機器人產業大會
精彩回顧
立即查看>> 維科杯· OFweek 2025中國機器人行業年度評選

一周熱點月點擊榜

企業服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市
光器件研發工程師福建省/福州市
銷售總監（光器件）北京市/海淀區
激光器高級銷售經理上海市/虹口區
光器件物理工程師北京市/海淀區
激光研發工程師北京市/昌平區
技術專家廣東省/江門市
封裝工程師北京市/海淀區
結構工程師廣東省/深圳市

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

<source id="synkw"><tr id="synkw"></tr></source>