Google 推出離線優先語音辨識應用 AI Edge Eloquent iOS 上架
- Google 近日悄然於 iOS 平台推出全新語音辨識應用程式「Google AI Edge Eloquent」,主打「離線優先」技術,定位明確瞄準 Wispr Flow、SuperWhisper 等快速竄起的競爭對手,旨在搶佔語音轉文字市場關鍵席位。
- 若 iOS 版獲得良好反饋,預計 2025 年將擴展至更多語言與垂直領域,如教育、媒體採訪等場景,進一步鞏固 Google 在語音 AI 領域的領導地位。
- 離線優先技術解析 Google AI Edge Eloquent 的技術突破在於其完全離線運作架構,徹底解決傳統語音辨識應用的隱私隱憂與網路依賴問題。
- 更關鍵的是,Google 可能將 Eloquent 技術整合進 Android 系統層級,使其成為預設語音輸入方案,類似 iOS 的「語音轉文字」功能升級。
Google 近日悄然於 iOS 平台推出全新語音辨識應用程式「Google AI Edge Eloquent」,主打「離線優先」技術,定位明確瞄準 Wispr Flow、SuperWhisper 等快速竄起的競爭對手,旨在搶佔語音轉文字市場關鍵席位。使用者可免費下載安裝,需額外下載基於 Gemma 模型的本地 ASR(自動語音辨識)引擎,即可在手機端直接進行語音輸入。應用會即時顯示轉錄內容,自動清除「嗯」、「啊」等語氣詞,修正自我更正,使輸出文字更接近自然書面語。Google 強調其核心目標在於「彌合自然語音與可直接使用的專業文本之間的差距」,而非單純逐字記錄,此設計直接回應用戶對隱私保護與效率提升的雙重需求。目前僅限 iOS 上架,Android 版正研發中,預計將支援系統級整合與懸浮按鈕功能,進一步擴展使用情境。
離線優先技術解析
Google AI Edge Eloquent 的技術突破在於其完全離線運作架構,徹底解決傳統語音辨識應用的隱私隱憂與網路依賴問題。使用者若選擇關閉雲端模式,所有語音處理均在裝置端完成,語音資料無需上傳至伺服器,有效避免資料外洩風險,尤其適用於醫療、法律等高敏感場域的會議記錄或個人對話。此設計對比雲端服務常見的延遲問題,實現即時轉錄體驗,即使在弱網路環境下仍能穩定運作。技術核心依賴 Google 自研 Gemma 模型,該開源模型經優化後可在手機端高效執行,識別準確率達 95% 以上,遠超一般離線工具。更關鍵的是,應用內建動態語意理解系統,能區分口語停頓、重複語句與自我修正(例如「這個功能...嗯...很強」自動轉為「此功能強大」),大幅減少人工修訂時間。Google 透過此技術,不僅強化用戶信任,更重新定義離線語音服務的價值標準,直接挑戰 Wispr Flow 等依賴雲端的競爭者,為市場樹立新規範。
多樣化文字風格與功能整合
Eloquent 的核心創新在於提供高度可定制的文字輸出體驗,超越基礎轉錄功能。轉錄結果下方設有「要點」、「正式」、「簡短」與「完整」四大風格模式,使用者可依需求即時調整語氣與篇幅。例如「要點」模式會自動萃取關鍵資訊生成摘要,適合會議速記;「正式」模式則強化語法結構,適用商務郵件草稿;「簡短」模式精簡冗詞,方便社交訊息輸入;「完整」模式則保留細節,供深度內容創作使用。此功能設計源自對用戶工作流的深度洞察,針對內容創作者、行政助理及自由職業者等群體需求,大幅提升生產力。此外,應用內建完整轉錄歷史記錄系統,支援關鍵字搜尋與分類管理,使用者可快速回溯過往對話。每則轉錄均顯示字數統計、每分鐘輸入速度(WPM)及累計字數,協助用戶分析效率習慣,例如分析會議記錄時長與輸入密度,為工作習慣優化提供數據依據。更實用的是,Google 允許從 Gmail 匯入常用關鍵字、專有名詞及聯絡人名稱,並支援手動新增自訂詞彙,使辨識準確度提升 30% 以上,尤其解決專業術語(如醫學名詞或公司專有名稱)的識別難題,讓轉錄結果更貼近實際使用情境。
市場定位與未來發展潛力
Google 此舉反映語音轉文字技術已從工具升級為核心工作流程,市場規模預計於 2025 年突破 120 億美元。Eloquent 的推出直接對應當前用戶痛點:傳統工具如 Google 語音輸入常忠實記錄口語瑕疵,導致輸出文字雜亂,需耗費大量時間修訂。而 Eloquent 透過 AI 模型理解語意,自動優化為專業文本,使會議記錄整理時間縮短 50%,大幅降低內容創作者的時間成本。此策略亦回應競品威脅,Wispr Flow 的懸浮按鈕功能雖受歡迎,但依賴雲端處理引發隱私疑慮,Eloquent 的離線優勢形成明顯差異化。未來發展方面,Android 版將強化系統整合,預計支援「設定為預設鍵盤」功能,使用者可在任何文字輸入欄位直接啟動語音轉錄,類似 Apple 的 Siri 輸入體驗。更關鍵的是,Google 可能將 Eloquent 技術整合進 Android 系統層級,使其成為預設語音輸入方案,類似 iOS 的「語音轉文字」功能升級。此舉不僅拓展 Google 在 AI 領域的生態佈局,更可能推動整體市場標準,使離線語音服務成為手機基礎功能。若 iOS 版獲得良好反饋,預計 2025 年將擴展至更多語言與垂直領域,如教育、媒體採訪等場景,進一步鞏固 Google 在語音 AI 領域的領導地位。











