Google LiteRT進階硬體加速功能正式上線支援多平臺GPU及NPU加速

Google 更新了 LiteRT 裝置端推論框架,在 Google I/O 2025 中預告的進階硬體加速功能已正式推出,支援多平台 GPU 及 NPU 加速。此次更新補足了 LiteRT 產品堆疊中的 GPU 與 NPU 加速流程,使其涵蓋 Android、iOS、macOS、Windows、Linux 與 Web 等平臺。這意味著裝置端 AI 推論在行動端、桌面和網頁之間更加一致。LiteRT 從 TensorFlow Lite 的基礎進行拓展,不僅服務傳統機器學習推論,還滿足新一代裝置端 AI 需求,包含更廣泛的硬體加速與跨平台部署。
LiteRT 的 GPU 加速涵蓋 Android、iOS、macOS、Windows、Linux 與 Web 等平臺。透過 ML Drift 這套下一代 GPU 引擎串接 OpenCL、OpenGL、Metal 與 WebGPU 等後端。在 Android 裝置上,LiteRT 優先採用 OpenCL 以取得較高效能,必要時退回至 OpenGL;而在其他平臺,則使用各自的 GPU 後端,例如 macOS 使用 Metal,Windows 和 Linux 使用 WebGPU。根據 Google 測試,在多種模型的平均情境下,LiteRT 的 GPU 效能約比既有的 TensorFlow Lite GPU 委派快 1.4 倍。
LiteRT 提高了推論從輸入到輸出的整體等待時間,減少裝置端推論對 CPU 執行額外等待和資料處理的需求,並降低不同硬體之間搬移數據造成的延遲。面對 NPU 的挑戰,Google 指出生態系碎片化是主因。隨著晶片平臺與供應商工具鏈差異的增加,開發者需使用多套方法才能將同一模型部署到不同裝置,導致維運成本上升。LiteRT 旨在整合這些差異,使開發者能夠以更一致的方式啟用 NPU 加速,在裝置不支援或條件不足時自動改用 GPU 或 CPU 維持可用性。
在 NPU 部署流程上,Google 簡化為三個步驟:可選的 AOT 預先編譯、Android 上的模型與執行階段交付到相容裝置,以及 LiteRT 執行環境啟用 NPU 委派並在條件不足時回退至 GPU 或 CPU。此外, LiteRT 提供 AOT 和裝置端 JIT 兩種編譯策略,供開發者選擇適合的啟動速度與首次執行成本之間的平衡點。LiteRT 保持.tflite 格式作為跨平臺部署的共同基礎,讓不同來源模型都能接上同一套裝置端推論與硬體加速能力,降低因訓練框架不同而造成的部署分歧。









