MLX 推論框架基準測試：Apple Silicon M5 Max 跑 35B LLM 實測比較

LargitData
May 10, 2026, 2:43 p.m.

快速摘要

MLX 推論框架基準測試由 ywchiu/mlx_benchmark_lab 開源專案發布，於 Apple M5 Max（64 GB 統一記憶體）上測試五款 MLX 衍生推論引擎：rapid-mlx、omlx、dflash-mlx、mlx-vlm、MTPLX。前四款以 Qwen3.6-35B-A3B-4bit MoE 模型測試，MTPLX 則以 Qwen3.6-27B-MTPLX-Optimized-Speed（27B dense + MTP depth=3）測試。結果顯示：omlx 在 35B MoE 上為長文脈與企業生產系統首選，從 4K tokens 起全面領先、32K 仍達 82.1 tps；dflash-mlx 短文脈最快（64-token 達 167.3 tps）但長文脈崩潰至 12.6 tps；rapid-mlx 為功能彈性中間選擇；mlx-vlm 為唯一多模態框架。MTPLX 補測顯示 27B + MTP 在 64GB Mac 上可達 32K context、peak memory 僅 22.12 GB，記憶體足跡顯著低於 35B MoE。企業地端 AI 部署應依輸入長度與多模態需求選擇框架，搭配 QubicX 之框架抽象層可自動切換最適合的推論引擎。

原始基準測試資料來源： github.com/ywchiu/mlx_benchmark_lab
完整 JSONL 結果、繪圖腳本與雙語報告皆於此 Repository 開源公開。

MLX 是 Apple 為自家 Silicon 晶片設計的機器學習框架，能在 Mac 上以統一記憶體（Unified Memory）直接執行大型語言模型（LLM）推論，無需 NVIDIA GPU。隨著 rapid-mlx、omlx、dflash-mlx、mlx-vlm、MTPLX 五大推論引擎陸續推出，企業在地端 AI（On-Premise AI）部署上多了 Apple Silicon 這個極具吸引力的選項。本文以 ywchiu/mlx_benchmark_lab 公開基準測試（Apple M5 Max、64 GB 統一記憶體）為依據，深入解析五大框架在不同上下文長度下的效能與穩定度。前四款框架以 35B 參數 MoE 量化模型測試；第五款 MTPLX 為新增補測，採用其官方推薦的 Qwen3.6-27B-MTPLX-Optimized-Speed（27B dense + MTP）模型，並提供企業地端 AI 選型建議。

什麼是 MLX？Apple Silicon 上的 LLM 推論框架

MLX 是 Apple 機器學習研究團隊在 2023 年底開源的數值運算框架，其核心特色是針對 Apple Silicon（M1/M2/M3/M4/M5 系列晶片）的統一記憶體架構深度優化。與必須在 CPU 與 GPU 之間搬移張量資料的傳統 CUDA 流程不同，MLX 的張量可在 CPU、GPU、Neural Engine 之間零拷貝（Zero-Copy）共享，大幅降低記憶體頻寬瓶頸。這項架構優勢讓配備 64 GB 以上統一記憶體的 Mac Studio 與 MacBook Pro，成為地端執行 30B–70B 參數 LLM 的可行平台。

在 MLX 之上，社群陸續發展出多款專注於 LLM 推論的引擎，每款皆針對不同的應用場景做了取捨。本次基準測試涵蓋的五款主流框架包括：rapid-mlx（功能彈性、支援分頁 KV Cache 與多 Token 預測）、omlx（長文脈穩定度與整體效能均衡）、dflash-mlx（採用推測式解碼 Speculative Decoding，短文脈速度最快）、mlx-vlm（唯一支援圖像、影片、語音多模態輸入的框架）、以及 MTPLX（內建 Multi-Token Prediction 與 prefill-ladder 自動化 context-scaling 基準工具，主打 sustained 高吞吐模式）。

基準測試方法與硬體環境

本次測試使用 Apple M5 Max 晶片搭配 64 GB 統一記憶體。前四款框架（rapid-mlx、omlx、dflash-mlx、mlx-vlm）皆以 mlx-community/Qwen3.6-35B-A3B-4bit——35B 總參數、3B 啟動參數的 4-bit 量化混合專家（MoE）模型——進行測試；MTPLX 則以官方推薦的 Youssofal/Qwen3.6-27B-MTPLX-Optimized-Speed（27B dense）測試，啟用 sustained 模式、MTP（depth=3）、disable-thinking、每個 context 生成 128 tokens。所有框架皆透過 OpenAI 相容 API 啟動本地伺服器，並明確關閉 Prefix Cache（前綴快取），以量測真實的冷啟動 Prefill 效能。每個上下文長度執行 5 次重複測試，計算中位數、平均數、標準差。前四款框架測試上下文涵蓋 64、512、2,048、4,096、8,192、16,384、32,768 tokens；MTPLX 為 512、1,024、2,048、4,096、8,192、16,384、32,768 tokens。注意：MTPLX 使用之模型（27B dense + MTP）與前四款（35B MoE-A3B）不同，絕對 decode tok/s 不可直接比較，僅可觀察其 context-length scaling 行為與記憶體足跡。

測試結果：解碼速度與長文脈表現

MLX 推論框架 Decode TPS 比較圖 — 圖一：四大 MLX 推論框架在七個上下文長度下的解碼速度（tokens/sec）比較。

上下文長度	rapid-mlx	omlx	dflash-mlx	mlx-vlm	MTPLX¹
64 tokens	124.9	123.7	167.3	95.5	—
512 tokens	119.5	119.4	122.9	94.8	59.8
1,024 tokens	—	—	—	—	49.6
2,048 tokens	102.5	121.1	160.1	88.5	55.7
4,096 tokens	97.6	120.4	104.5	91.4	43.3
8,192 tokens	90.3	118.0	96.3	87.2	43.1
16,384 tokens	83.2	105.3	84.1	83.1	41.4
32,768 tokens	72.3	82.1	12.6 ⚠️	67.7	31.3

單位：tokens/sec（中位數），數字越高越好。資料來源：ywchiu/mlx_benchmark_lab，2026-05-09（前四款）／2026-05-16（MTPLX 補測）。
¹ MTPLX 使用 Qwen3.6-27B-MTPLX-Optimized-Speed（27B dense + MTP depth=3）模型，與前四款 35B MoE-A3B 模型不同，絕對數字不可直接比較，僅供 context scaling 趨勢參考。

關鍵觀察一：dflash-mlx 在短文脈（≤ 2K）展現約 35% 的解碼速度優勢，這歸功於推測式解碼技術；但在 32K 長文脈下發生災難性衰退至 12.6 tps，比其他框架慢約 6 倍，顯示其架構難以擴展至長上下文。

關鍵觀察二：omlx 是長文脈場景的全能冠軍，從 4K tokens 開始全面領先，在 16K 仍能維持 100 tps 以上，32K 達 82.1 tps，且標準差最小，是穩定度最高的框架。

關鍵觀察三：所有框架在從 64 到 32,768 tokens 的擴展過程中皆出現顯著衰退，但衰退程度從 omlx 的 34% 到 dflash-mlx 的 92% 相差極大。TTFT（首 Token 延遲）方面差異更大，跨越近三個數量級——dflash-mlx 在 32K 上下文下飆升至 31 秒，超過其他框架的兩倍。

關鍵觀察四（MTPLX 補測）：MTPLX 搭配 27B dense + MTP 模型，短 context decode 速度約 50–60 tok/s，到 16K 仍維持 41 tok/s 表現穩定，32K 才下降至 31 tok/s。雖然絕對 tok/s 低於前四款 35B MoE 數字（差異主要來自模型尺寸與架構），但 MTPLX 在記憶體效率上表現亮眼——32K context 下 peak memory 僅 22.12 GB，遠低於 35B MoE 模型常見的 40 GB 量級，為 64GB Mac 保留可觀的多模型併行空間。Prefill 速度從 800 tok/s 平滑下降至 530 tok/s，整體 scaling 較線性。

MTPLX × Qwen3.6-27B-MTPLX-Optimized-Speed Context Length Benchmark — 圖七：MTPLX × Qwen3.6-27B-MTPLX-Optimized-Speed 在不同 context length 下的 Decode、Prefill、TTFT 與 Peak Memory 變化。

Context	Decode tok/s	Prefill tok/s	TTFT	Peak memory
512	59.76	800.21	0.65s	15.58 GB
1k	49.56	879.06	1.17s	16.18 GB
2k	55.69	720.81	2.84s	17.29 GB
4k	43.28	693.90	5.90s	17.73 GB
8k	43.09	664.82	12.32s	18.37 GB
16k	41.40	646.68	25.35s	19.62 GB
32k	31.34	530.79	61.74s	22.12 GB

MTPLX prefill-ladder 測試：sustained 模式、MTP depth=3、disable-thinking、每 context 生成 128 tokens。資料來源：ywchiu/mlx_benchmark_lab，2026-05-16。

MLX 推論框架 Decode 速度分佈盒鬚圖 — 圖二：解碼速度分佈盒鬚圖（box plot），可看出每個框架的中位數、四分位距與離群值。omlx 分佈最緊密，dflash-mlx 在長文脈下出現極端離群值。

MLX 推論框架長文脈衰退曲線 — 圖五：以 64-token 為基準的解碼速度衰退百分比。omlx 衰退僅 34%，dflash-mlx 衰退 92%，差距懸殊。

MLX 推論框架 TTFT 首 Token 延遲比較 — 圖四：TTFT（首 Token 延遲）隨上下文長度變化，跨越近三個數量級。dflash-mlx 在 32K 飆升至 31 秒，為其他框架的兩倍以上。

MLX 推論框架 Decode 標準差比較 — 圖三：解碼速度標準差隨上下文長度變化。omlx 標準差最低，代表延遲最可預測；rapid-mlx 在短文脈下出現 TTFT 抖動。

MLX 推論框架 Prefill TPS 比較 — 圖六：Prefill 速度（tokens/sec）比較。Prefill 為輸入處理階段，影響首字輸出延遲。

如何選擇適合應用場景的 MLX 框架

omlx — 長文脈與企業生產系統首選：從 4K tokens 起全面領先，且具備四大框架中最低的標準差，是企業 RAG、文件摘要、長篇法律或財報分析的最佳選擇。穩定度高代表 SLA 容易達標，可預測的延遲表現也讓容量規劃更為直觀。

dflash-mlx — 短文脈高吞吐專用：在 64-token 上下文達到 167.3 tps 的爆發力，適合輸入長度可預測且明確控制在 2K tokens 以下的應用，例如結構化資料分類、SQL 生成、簡短客服回覆。但須嚴格避免長上下文場景。

rapid-mlx — 功能彈性的中間選擇：在任何上下文長度都不是最快，但表現相對穩定，且具備分頁 KV Cache、Prefix Cache、多 Token 預測等彈性功能。適合需要這些進階特性的研發團隊。

mlx-vlm — 多模態輸入唯一選項：純文字工作負載慢約 25–30%，但是四大框架中唯一支援圖像、影片、語音輸入的框架。如果應用需要 OCR 後影像理解、視訊摘要、或多模態客服機器人，是當前唯一選擇。

MTPLX — Multi-Token Prediction 高吞吐推論：內建 prefill-ladder 自動化基準工具與 MTP 加速機制，搭配其官方 Optimized-Speed 系列模型（如 Qwen3.6-27B-MTPLX-Optimized-Speed）能在 27B 規模實現 32K context、peak memory 僅 22 GB 的低足跡推論。適合需要在單台 Mac 上同時運行多個 27B 級模型、且輸入長度可預測的 sustained 推論服務；不過模型生態目前以官方 Optimized-Speed 變體為主，模型可選性較窄。

對企業地端 AI 部署的啟示

企業地端 AI 部署的關鍵啟示是：硬體與軟體必須整體評估，不能只看 GPU 規格表面上的 TFLOPS 數字。Apple Silicon 在統一記憶體架構下，搭配正確的 MLX 框架，能以更低的硬體成本（單台 Mac Studio 約 USD 4,000）跑得動 35B 參數的量化模型，並達到 80–120 tokens/sec 的解碼速度——這對許多企業內部的 RAG 或智慧客服場景已經足夠。

相較於 NVIDIA H100 動輒 USD 30,000 以上的單卡成本，Apple Silicon 為中小企業與分散式部署提供了極具吸引力的另一條路徑。但企業若要將 Apple Silicon 納入正式生產環境，必須建立框架選型、版本管理、健康檢查、效能監控的完整 MLOps 流程。

LargitData 的 QubicX 地端 AI 平台支援多種硬體後端（NVIDIA GPU、AMD GPU、Apple Silicon），並內建框架抽象層，能依據用戶提交的上下文長度自動選擇最適合的推論引擎，避免企業 IT 團隊需要自行判斷與切換。對於追求資料主權、低延遲、可預測成本的台灣企業，這類自動化的地端 AI 編排能力，是從基準測試走向生產部署的關鍵橋樑。

完整原始 JSONL 結果、繪圖腳本（plot_results.py）、雙語報告皆已開源公開，歡迎在自家 Mac 上重現驗證： github.com/ywchiu/mlx_benchmark_lab