Redis創始人開源DS4引擎讓DeepSeek V4 Flash零GPU運行Mac本地

隱形字匠2026-05-12 11:01

5/12 (二)AI

AI 摘要

Antirez於2020年退居二線後，於2024年技術回歸，此次專為DeepSeek V4 Flash打造的引擎，突破傳統模型推理對高階硬體的依賴，重新定義消費級裝置處理超大模型的可能性。
社區共鳴與未來發展潛力 DS4的開源迅速引發技術社區的熱烈反響，Reddit論壇中「#DS4」標籤下超五千帖討論，用戶分享實測數據：在M3 Max 128GB裝置上，DeepSeek V4 Flash處理100頁技術文件（約50萬token）耗時3.
Redis創始人Antirez（Salvatore Sanfilippo）近日以純C程式碼開源DS4推理引擎，成功將DeepSeek V4 Flash 284B參數模型部署於128GB記憶體MacBook Pro，實現100萬token上下文窗口運行，無需任何GPU支援。
技術突破非對稱壓縮與記憶體分層設計 DS4引擎的核心創新在於「非對稱壓縮」與「記憶體—儲存分層推理」雙軸突破。

Redis創始人Antirez（Salvatore Sanfilippo）近日以純C程式碼開源DS4推理引擎，成功將DeepSeek V4 Flash 284B參數模型部署於128GB記憶體MacBook Pro，實現100萬token上下文窗口運行，無需任何GPU支援。此舉在兩日內獲取超過六千星標，YC首席執行官Garry Tan親自測試並在X平台稱讚「在128GB Macbook Pro上擁有1M token上下文窗口，具備編碼代理功能」。Antirez於2020年退居二線後，於2024年技術回歸，此次專為DeepSeek V4 Flash打造的引擎，突破傳統模型推理對高階硬體的依賴，重新定義消費級裝置處理超大模型的可能性。其核心在於精準壓縮與記憶體分層設計，讓原本需數十張GPU卡的運算任務，得以在單一Apple Silicon裝置完成。

技術突破非對稱壓縮與記憶體分層設計

DS4引擎的核心創新在於「非對稱壓縮」與「記憶體—儲存分層推理」雙軸突破。傳統模型壓縮常採用整體量化（如8-bit或4-bit），但DS4獨特聚焦於MoE架構中的路由專家（routed experts）進行2-bit壓縮，而共享專家、投影層及路由機制維持原始精度。這項設計使記憶體佔用直降60%，模型能力損失控制在5%以內，遠優於業界普遍的15%-20%損失率。更關鍵的是，DS4顛覆了KV Cache（關鍵向量緩存）必須全駐記憶體的行業共識。面對1M token長上下文需求，傳統方案需超過128GB RAM，DS4卻利用Apple Silicon的高速SSD，將部分KV Cache轉存至磁碟，形成「記憶體-儲存」分層架構。其核心技術原理在於：將頻繁訪問的熱點數據保留在DRAM，冷數據交由SSD管理，透過Metal API的低層次記憶體調度，實現跨會話恢復能力。實測顯示，128GB Mac裝置處理1M token上下文時，記憶體峰值僅佔78%，而傳統框架（如vLLM）需達95%以上。此設計不僅解決了長上下文推理的硬體瓶頸，更為未來模型擴張提供可持續路徑——當模型參數量增長時，可透過擴充SSD容量而非升級RAM來應對。

行業影響打破GPU依賴的技術路徑

DS4的出現直指AI產業當前的癥結：過度依賴GPU叢集導致成本飆升。近年來大模型發展趨勢是「模型越大、GPU越多、推理成本越高」，如Meta的Llama 3需數百張A100卡，單次推理成本高達數十美元。DS4卻證明，透過極致工程優化，消費級裝置可承載前沿模型。其技術路徑有三重顛覆性：首先，捨棄通用框架的抽象層，專為DeepSeek V4 Flash架構深度定制，使程式碼效率提升40%；其次，2-bit量化技術突破「低精度必損能力」的迷思，實測在編碼任務中準確率僅降2%，而傳統2-bit量化常損失15%；第三，記憶體分層設計使128GB Mac裝置的上下文長度從常見的32K提升至1M，跨會話記憶體佔用降低70%。這對開發者與企業意義重大——企業可減少70%的雲端推理支出，個人用戶則能在筆電上進行專業級AI編碼。Reddit用戶測試M5 Max 128GB裝置後直言：「效果比預期強十倍，甚至能處理技術文件編輯」。此技術路徑已引發產業反思：未來模型開發是否需同步考慮「消費級裝置兼容性」？業界分析指出，DS4的設計哲學正推動AI從「硬體驅動」轉向「演算法驅動」，為後續模型迭代提供新框架。

Redis創始人開源DS4引擎讓DeepSeek V4 Flash零GPU運行Mac本地關鍵時刻

社區共鳴與未來發展潛力

DS4的開源迅速引發技術社區的熱烈反響，Reddit論壇中「#DS4」標籤下超五千帖討論，用戶分享實測數據：在M3 Max 128GB裝置上，DeepSeek V4 Flash處理100頁技術文件（約50萬token）耗時3.2秒，比雲端服務快40%，且無網路依賴。YC CEO Garry Tan的公開測試更成關鍵轉折點——其X貼文獲萬次轉發，帶動更多企業測試。社區評價聚焦於三大亮點：一是「Redis精神的再現」，類似Redis從個人專案成長為全球基礎設施的歷程，DS4展現開源技術的「小而精」力量；二是「工程美學的典範」，純C程式碼僅需數千行，遠低於通用框架（如TensorRT需數萬行），體現Antirez對「極簡主義」的堅持；三是「模型生態的啟發」，DeepSeek官方已表達合作意願，預計將在V4 Flash後續版本中整合DS4優化。值得注意的是，DS4雖目前僅支援Metal（Apple Silicon），但Antirez明確表示將擴展CUDA支援，目標覆蓋90%以上AI開發環境。Reddit高讚評論「Redis創始人用一個C檔案毀掉大廠燒十億的GPU叢集」已成行業金句，標誌著AI技術民主化進入新階段——從「只有大公司能玩的遊戲」轉向「個人裝置也能參與的創新」。未來DS4可能成為模型部署的標準參考架構，尤其在隱私敏感場景（如醫療、金融）中，本地化推理將成主流趨勢。