1

靜默棲息地2026-01-17 12:30

1/17 (六)AI

AI 摘要

本次發布的 TranslateGemma 系列涵蓋了 4B、12B 與 27B 三種參數規模，能滿足從行動裝置到雲端伺服器等不同場景的部署需求，並宣稱能流暢處理包含中文在內的 55 種主要語言。
根據 Google 公佈的 WMT24++ 基準測試結果（使用 MetricX 進行評估），經過特殊訓練的 TranslateGemma 展現了令人印象深刻的「越級打怪」能力。
數據顯示，12B 版本的 TranslateGemma 模型，其翻譯表現竟然超越了參數兩倍以上的 Gemma 3 27B 模型。

Google DeepMind 囪隊昨晚正式發表了名為「TranslateGemma」的全新 AI 翻譯模型系列，這套基於 Gemma 3 架構打造的開放權重模型，以其驚人的參數效率：即 12B（120 億參數）版本性能超越 27B 基線模型重新定義了邊緣運算與高效能翻譯的技術標準。本次發布的 TranslateGemma 系列涵蓋了 4B、12B 與 27B 三種參數規模，能滿足從行動裝置到雲端伺服器等不同場景的部署需求，並宣稱能流暢處理包含中文在內的 55 種主要語言。

Google 發表開源翻譯模型 TranslateGemma，可在手機、筆電直接部屬使用，支援55種語言 - 電腦王阿達

Google 發表開源翻譯模型 TranslateGemma Google 研究團隊指出，TranslateGemma 並非從零開始，而是透過一種特殊的「兩階段微調流程」（Specialized two-stage fine-tuning process），將 Google 最先進的 Gemini 模型的「直覺」與知識，蒸餾進 Gemma 3 的開放架構中。第一階段：監督式微調在初步訓練階段，研究人員使用了極具多樣性的平行語料庫對 Gemma 3 基底模型進行微調。這個資料集並非僅依賴傳統的人工翻譯文本，而是混合了大量由最先進 Gemini 模型生成的「高品質合成翻譯」。這種人機協作的資料策略，確保了模型在處理低資源語言時，仍能維持極高的準確度與覆蓋率。

第二階段：強化學習的精準打磨為了進一步提升譯文的「信達雅」，Google 引入了創新的強化學習階段。與過去單純依賴單一指標不同，此次訓練採用了「獎勵模型集成」（Ensemble of reward models），整合了包括 MetricX-QE 與 AutoMQM 在內的先進評估指標。這些指標如同嚴格的導師，引導模型在生成譯文時，不僅要語意正確，更要符合上下文語境，產出自然流暢的語句。

根據 Google 公佈的 WMT24++ 基準測試結果（使用 MetricX 進行評估），經過特殊訓練的 TranslateGemma 展現了令人印象深刻的「越級打怪」能力。數據顯示，12B 版本的 TranslateGemma 模型，其翻譯表現竟然超越了參數兩倍以上的 Gemma 3 27B 模型。這意味著，過去需要昂貴 GPU 叢集才能達到的高保真翻譯品質，現在只需不到一半的算力資源即可實現。更低的參數需求直接轉化為更高的吞吐量與更低的延遲，且無須犧牲準確度。

TranslateGemma 不僅在性能上取得突破，在效率優勢也延伸至最輕量級的 4B 版本。該模型在測試中展現了足以匹敵 12B 模型的性能，這使其成為行動裝置與邊緣運算的理想選擇。未來的智慧型手機或 IoT 裝置，將能在不連網的情況下，提供媲美伺服器等級的即時翻譯服務。

由於 TranslateGemma 是建立在 Gemma 3 的架構之上，它天生繼承了強大的「多模態」能力。這意味著該模型不僅僅是一個文字轉換器，更具備處理視覺資訊的潛力。根據 Google 的測試顯示，儘管 TranslateGemma 的微調過程主要聚焦於文字翻譯，但其在 Vistra 圖像翻譯基準測試中仍表現優異。結果證實，文字翻譯能力的提升，正向連動了模型「翻譯圖像中文字」的能力。

在語言支援方面，TranslateGemma 展現了極大的野心。該模型經過嚴格訓練與評估，能夠在 55 種主要語言之間進行可靠的高品質翻譯，涵蓋了中文、西班牙文、法文、印地文等全球廣泛使用的語種。

靈活部署：三種規格對應多元場景為了適應多樣化的硬體環境，TranslateGemma 提供了三種不同規模的選擇，精準對應不同的運算能力：

1. 4B 模型（行動端優化）：專為手機、平板等行動裝置及邊緣運算設計，強調低功耗與即時反應。 2. 12B 模型（消費級強者）：這是本次發布的甜蜜點模型，專為能在消費級筆記型電腦上流暢運行而設計。它讓個人開發者與研究人員無需依賴雲端算力，即可在本地環境享有研究級的翻譯效能。 3. 27B 模型（極致效能）：為追求最高翻譯保真度而建，適合在雲端環境中使用，能夠在單張 H100 GPU 或 TPU 上運行，適合企業級的大規模批次處理任務。

TranslateGemma 翻譯模型對於一般人或中小型企業來說也將帶來以下影響：

「真正的」離線翻譯時代來臨（隱私與便利的雙贏）過去，我們在手機上使用的「離線翻譯包」往往是閹割版，翻譯生硬、詞彙量少，遇到複雜句子就當機。想要高品質翻譯，你必須連上網路，把資料傳回雲端。TranslateGemma 的 4B 模型就是為瞭解決這個問題而生。

對一般使用者：未來的旅遊 App 或翻譯軟體，即使在飛航模式或沒有網路的國外街道，也能在你的手機本機端跑出接近「連網等級」的流暢翻譯。隱私紅利：因為運算都在手機上完成，你的對話紀錄、商業文件或私人照片中的文字，不需要上傳到 Google 或其他公司的伺服器，這對注重隱私的使用者來說是巨大的保障。

第三方 App 的翻譯能力將「暴增」以往只有像 Google、Microsoft 或 DeepL 這種科技巨頭，才養得起高品質的翻譯團隊和伺服器。小型開發者製作的 App（例如特定的小說閱讀器、漫畫瀏覽器、旅遊導覽），往往只能串接昂貴的 API，或是使用品質低劣的免費翻譯。

對一般使用者：由於 TranslateGemma 是「開源」且「免費」的，這意味著獨立開發者可以輕易地將這個強大的翻譯大腦植入他們的 App 中。你將會發現，未來你使用的冷門閱讀軟體、遊戲輔助工具，其翻譯品質可能會突然變得跟 Google 翻譯一樣好，而且通常是免費的。

「所見即所得」的視覺翻譯普及化 TranslateGemma 繼承了多模態能力，特別擅長處理「圖片中的文字」。對一般使用者：這項技術將不僅限於 Google 智慧鏡頭（Google Lens）。未來你可能會看到更多專精於特定領域的 App 出現。

漫畫/同人誌翻譯器：直接把日文漫畫對話框替換成繁體中文，且語氣自然。購物輔助：拍一下國外的藥妝店成分表，App 能精準翻譯並解釋專有名詞，且速度極快。

對「小語種」使用者的友善（打破語言霸權）目前的翻譯工具多半獨厚英文、中文、日文等大語言。TranslateGemma 特別強調了對低資源語言的支援，並允許開發者進行微調。

對一般使用者：如果你需要與使用較冷門語言（例如某些東南亞方言、非洲語言）的人士溝通，或者你想學習這些語言，未來市面上將會出現更多針對這些特定語言優化的工具，其準確度將遠超目前的通用翻譯軟體。TranslateGemma 的問世，標誌著開源翻譯模型在「性能」與「效率」之間取得了新的平衡。透過將 Gemini 的先進技術下放，Google 不僅降低了高品質翻譯技術的門檻，更通過支援多模態與廣泛的語言覆蓋，為全球開發者提供了強大的工具。

目前，TranslateGemma 系列模型已全數上架至 Kaggle 與 Hugging Face 平台供免費下載，開發者亦可透過 Vertex AI 進行雲端部署。隨著社群開始探索這套模型的潛力，我們可以預期未來將湧現更多基於此架構的創新翻譯應用，進一步消弭人類溝通的障礙。