Ollama 0 19 整合 Apple MLX 框架 Mac 本地AI推論速度提升兩倍

羅盤守望者2026-04-02 17:12

4/2 (四)AI

AI 摘要

此舉不僅加速Apple生態內AI應用普及，更為未來模型優化提供新方向——MLX的原生設計理念可延伸至更多框架，例如Ollama未來可能擴展支援LLaMA 3等新模型架構。
Ollama團隊近日正式發布0.
生態影響與技術門檻降低的深遠意義 Ollama 0.
5-35B-A3B時，前饋速度達1851 token/s，解碼速度134 token/s，實現流暢即時互動。

Ollama團隊近日正式發布0.19版本，將Apple MLX框架深度整合至本地AI推論引擎，徹底解決Mac上大型語言模型（LLM）長期面臨的統一記憶體頻寬利用率問題。傳統方案如llama.cpp搭配Metal加速，因需頻繁在CPU與GPU記憶體間複製資料，導致效能嚴重受限。新版直接針對Apple Silicon統一記憶體架構優化，無需跨記憶體資料搬移，大幅縮短推論延遲。根據獨立測試，M4 Max晶片上MLX推論速度達60至70 token/s，較舊版35 token/s提升近兩倍；M5裝置處理350億參數模型Qwen3.5-35B-A3B時，前饋速度達1851 token/s，解碼速度134 token/s，實現流暢即時互動。此更新需配備32GB以上統一記憶體的Mac裝置，但為本地AI生態帶來關鍵突破，使高階模型不再僅存理論可行性。

MLX架構突破記憶體瓶頸核心技術原理

MLX的革命性在於從底層設計就緊扣Apple Silicon硬體特性，徹底消除傳統推論引擎的結構性缺陷。過去llama.cpp方案中，模型權重儲存在CPU記憶體，計算時需複製至GPU，此過程在統一記憶體架構下反而增加額外開銷。MLX則直接在統一記憶體空間完成權重儲存與運算，無需區分CPU/GPU記憶體層次，使資料流全程保持在單一記憶體池中。技術細節上，MLX利用Metal API的高效記憶體存取機制，結合Apple晶片的記憶體管理優化，實現零資料搬移的運算流程。這不僅消除跨記憶體複製的效能損耗，更降低CPU負載，讓系統資源專注於模型計算。例如，處理長文本提示時，MLX直接在統一記憶體內完成權重載入與矩陣運算，避免傳統方案中重複複製的50%以上資源消耗。此設計契合Apple晶片的記憶體一體化特性，而非強行套用其他平台的通用架構，展現硬體原生最佳化的關鍵價值。

Ollama 0 19 整合 Apple MLX 框架 Mac 本地AI推論速度提升兩倍情境示意

性能實測數據與實際應用體驗升級

官方測試數據印證MLX的顯著優勢，尤其在處理大型模型時差異更為懸殊。配備int4量化格式的Qwen3.5-35B-A3B模型，在M5晶片上前饋速度（prefill rate）達1851 token/s，解碼速度（decoding speed）134 token/s，較傳統方案提升逾四倍。以實際對話場景為例，使用者輸入300字提示詞時，MLX版本完成處理需1.2秒，舊版則需6秒；若涉及1000字以上的技術文件分析，新架構耗時可縮短至2.5秒，效率提升五倍。更關鍵的是，MLX的記憶體管理機制大幅改善長對話體驗，透過「智慧檢查點」（smart checkpointing）技術，在提示詞處理關鍵節點減少冗餘計算，避免上下文累積導致的延遲爬升。測試顯示，連續10輪對話後，MLX架構的回應延遲僅增加8%，而舊版達35%，使開發者使用Claude Code等編碼代理時能保持流暢的實時互動，不再因等待時間影響工作效率。

生態影響與技術門檻降低的深遠意義

Ollama 0.19的整合標誌著本地AI推論生態的重要轉折點，有效化解開發者長期困擾的「速度與便利性」兩難。此前在Apple Silicon上運行大模型，非得在傳統便捷方案（速度慢）與手動編譯最佳化方案（門檻高）間取捨，而新版直接降低技術門檻，讓普通使用者無需專業知識即可體驗高效能。此舉不僅加速Apple生態內AI應用普及，更為未來模型優化提供新方向——MLX的原生設計理念可延伸至更多框架，例如Ollama未來可能擴展支援LLaMA 3等新模型架構。然而需強調，MLX雖提升速度，但大模型仍依賴硬體規格：35B模型需32GB以上記憶體，M3系列裝置無法充分發揮效能，這與Google的記憶體壓縮技術邏輯一致，壓縮技術僅改善體驗，無法突破硬體容量限制。未來若Apple推出M6晶片或記憶體擴充方案，MLX架構的效能潛力將進一步釋放，為Mac用戶打造真正的「本地AI終極體驗」。