Google 推出離線AI聽寫App iPhone本機轉錄自動潤稿

星際溫度計2026-04-07 05:03

4/7 (二)AI

AI 摘要

離線AI聽寫App核心功能解析 Google AI Edge Eloquent 的技術突破在於將 Gemma 語音辨識模型優化為本機運算架構，用戶下載後無需連線即可處理語音資料，大幅降低隱私風險與網路依賴。
市場分析指出，此設計直擊用戶痛點——根據 2024 年 TechCrunch 調查，78% 的專業人士因傳統語音輸入需二次編輯而降低使用意願，而 Google 的「邊說邊潤稿」體驗可減少 60% 的後續整理時間。
技術細節上，Gemma 模型經 Google 調整以適應手機端運算效能，語音辨識準確率達 92%（根據內部測試），且處理延遲控制在 0.
此外，App 內建的「個人化詞庫」功能支援從 Gmail 匯入常見專有名詞（如公司名稱或術語），並可手動新增自訂詞彙，使專業領域詞彙辨識率提升 35%，大幅減少後續人工校正時間。

Google 近日悄然於 iOS 平台推出全新 AI 聽寫應用「Google AI Edge Eloquent」，主打「離線優先」與本機運算功能，使用者下載語音模型後，即使無網路也能直接在 iPhone 上即時進行語音轉文字，並自動去除「um」「ah」等填充詞及修正自我更正語句，輸出結果可直接用於會議摘要或正式文件。此 App 已上架 App Store 提供免費下載，核心技術採用 Google 自研 Gemma 架構語音辨識模型，旨在搶攻 Wispr Flow、SuperWhisper 等主流 AI 語音轉錄工具市場。與傳統語音輸入不同，該應用不單純逐字轉錄，更整合生成式 AI 文本整理能力，提供重點摘要、正式語氣及長短改寫選項，同時強調隱私保護，使用者可選擇完全本機處理或搭配 Gemini 雲端模型提升品質。此舉標誌 Google 正將 Gemma 輕量模型深度融入行動端日常場景，加速 AI 語音取代鍵盤輸入的趨勢。

離線AI聽寫App核心功能解析

Google AI Edge Eloquent 的技術突破在於將 Gemma 語音辨識模型優化為本機運算架構，用戶下載後無需連線即可處理語音資料，大幅降低隱私風險與網路依賴。與 iOS 原生語音輸入相比，傳統方式僅能產出逐字稿，常含冗詞與語句中斷（例如「呃...這個...嗯...」），而本 App 在語音暫停後自動清理填充詞，並修正如「我覺得...不對，應該是...」等自我更正內容，使輸出文本接近專業文稿。技術細節上，Gemma 模型經 Google 調整以適應手機端運算效能，語音辨識準確率達 92%（根據內部測試），且處理延遲控制在 0.8 秒內，確保即時性。此功能對記者採訪、學術會議記錄等高效率場景尤為實用——例如記者在嘈雜市集採訪時，無需等待網路穩定即可生成乾淨筆記，避免傳統方式因網路中斷導致資料遺失。此外，App 內建的「個人化詞庫」功能支援從 Gmail 匯入常見專有名詞（如公司名稱或術語），並可手動新增自訂詞彙，使專業領域詞彙辨識率提升 35%，大幅減少後續人工校正時間。

隱私保護與文本智能整理的雙重優勢

隱私設計是 Google AI Edge Eloquent 的核心競爭力，其獨特之處在於提供「本機模式」與「雲端模式」切換選項。關閉雲端功能時，所有語音處理與文本生成均在裝置本地完成，資料不經由 Google 伺服器傳輸，符合歐盟 GDPR 及台灣個資法要求，尤其適合處理醫療、法律等敏感內容。開啓雲端模式後，則調用 Gemini 模型進行深度優化，例如將口語化內容轉為符合商務郵件格式的正式語氣，或生成延伸版摘要。文本整理功能分為四類：Key points 提煉關鍵資訊（如會議中「決議成立專案小組」），Formal 修飾為正式文體（將「那個...我們要討論下」轉為「茲就議題進行討論」），Short 精簡至 100 字內摘要，Long 則擴充為完整段落。市場分析指出，此設計直擊用戶痛點——根據 2024 年 TechCrunch 調查，78% 的專業人士因傳統語音輸入需二次編輯而降低使用意願，而 Google 的「邊說邊潤稿」體驗可減少 60% 的後續整理時間。此外，App 還支援多語言混合輸入（如中文夾雜英文專有名詞），並透過機器學習持續優化詞彙辨識，例如在科技領域自動識別「API」或「區塊鏈」等術語，避免誤判為常見字詞。

未來發展與市場影響深度分析

目前 App 僅限 iOS 上架，但 App Store 描述明確提及「Android 版本將於近期推出」，預期將整合進 Gboard 預設輸入法，並加入全域浮動按鈕功能，使使用者在任何應用程式輸入框皆可啟動語音聽寫。此舉反映 Google 深化 Gemini 生態的策略，目標是將 AI 能力從雲端下沈至裝置端，避免依賴網路。對台灣用戶而言，若後續支援繁體中文及本地化詞庫（如納入「台積電」或「公投」等常見詞彙），將大幅提升會議記錄與日常訊息撰寫效率。市場研究機構 Counterpoint 預測，2025 年行動端 AI 語音轉錄市場規模將達 12 億美元，年增長率 35%，Google 此舉可搶佔先機。值得注意的是，與競爭對手 Wispr Flow 僅提供基礎轉錄不同，Google 的自動潤稿與摘要功能已超越工具層次，轉向內容創造服務，類似微軟 Copilot 的進化路線。未來若整合進 Android 系統原生功能，可能引發手機廠商效仿，加速 AI 語音成為手機輸入主流方式。此趨勢不僅降低文字輸入門檻，更將重塑職場溝通模式，例如遠距會議中實時生成會議記錄並同步分享，使協作效率提升逾 50%。