趨勢排行
掌握趨勢,領先排序。

NVIDIA 推出 30B 全模態開源模型 Nemotr

墨語森林2026-04-29 16:05
4/29 (三)AI
AI 摘要
  • NVIDIA 於 2026 年 4 月 29 日全球正式發布 Nemotron 3 Nano Omni 全模態開源模型,該模型僅需 300 億參數便達成開源界頂尖性能,支援文字、圖片、音訊與影片等多模態輸入,並在 6 大基準測試中奪冠。
  • 部署方面,NVIDIA 提供詳細最佳化建議:在 NVIDIA B200 GPU 環境下,影片處理延遲僅 0.
  • 技術架構與多模態能力革新 Nemotron 3 Nano Omni 採用 30B-A3B 混合 MoE(Mixture of Experts)架構,總參數 300 億但每次推論僅啟動 30 億,結合 Conv3D 與 EVS 技術,支援高達 256K 上下文長度。
  • 相較於 Meta 的 Llama 系列或 Google 的 Gemini,Nemotron 3 Nano Omni 的多模態整合度更高,尤其適合處理混合媒體工作流,如醫療影像報告分析需同時解讀 X 光圖、醫師註解文字與音訊記錄。

NVIDIA 於 2026 年 4 月 29 日全球正式發布 Nemotron 3 Nano Omni 全模態開源模型,該模型僅需 300 億參數便達成開源界頂尖性能,支援文字、圖片、音訊與影片等多模態輸入,並在 6 大基準測試中奪冠。此模型針對 AI 代理應用優化,處理效率比同類開源 Omni 模型快 9 倍,用戶可透過 Hugging Face、Ollama 等平台免費下載部署。NVIDIA 強調其混合 MoE 架構大幅降低運算成本,使企業與開發者能在本地環境高效執行文件分析、自動化操作等任務,無需依賴雲端服務。該模型的推出標誌著開源 AI 代理工具邁向實用化新階段,為數位轉型提供低成本解決方案。

發光的核心處理器展現文本、影像與音訊的多模態數據流。

技術架構與多模態能力革新

Nemotron 3 Nano Omni 採用 30B-A3B 混合 MoE(Mixture of Experts)架構,總參數 300 億但每次推論僅啟動 30 億,結合 Conv3D 與 EVS 技術,支援高達 256K 上下文長度。此設計突破傳統密集模型的算力瓶頸,運算成本降低近 70%,使中階硬體如 RTX 4090 能順暢運行。多模態能力方面,模型能同時解析文字、圖片、聲音、影片、文件、圖表及 GUI 界面截圖,輸出統一為文字,大幅拓展應用場景。例如,企業可直接上傳合規審查文件(含圖表與文字),模型自動標記潛在風險;開發者亦能讓 AI 代理「觀看」螢幕操作電腦,透過判讀 GUI 元素狀態變化(如按鈕顏色、對話框內容)執行點擊或輸入動作,無需複雜程式碼。此能力源自 NVIDIA 專利的視覺-語言對齊技術,將螢幕介面轉換為結構化數據,解決傳統代理工具需依賴 API 的限制。相較於 Meta 的 Llama 系列或 Google 的 Gemini,Nemotron 3 Nano Omni 的多模態整合度更高,尤其適合處理混合媒體工作流,如醫療影像報告分析需同時解讀 X 光圖、醫師註解文字與音訊記錄。

性能測試與產業應用實證

NVIDIA 官方測試顯示,Nemotron 3 Nano Omni 在 6 大基準測試中全數奪冠,明確列舉的 5 項包括文件理解的 MMlongbench-Doc 與 OCRBenchV2、影片理解的 WorldSense 與 DailyOmni、語音理解的 VoiceBench。在影片摘要任務中,其處理速度達 9.2 倍於同類模型(如 OpenAI 的 o3-mini),多文件分析效率更達 7.4 倍。關鍵在於模型針對代理情境優化:當 AI 代理需同時處理影片剪輯與對應字幕時,Nemotron 3 Nano Omni 透過 EVS 技術同步分析音畫內容,避免傳統模型需分步處理的延遲。產業實測案例中,金融機構使用該模型審查合約文件,將合規檢核時間從 3 小時縮短至 20 分鐘,準確率提升至 96%。德國製造商則整合至自動化檢測系統,讓 AI 代理分析生產線影片,即時標記設備異常(如機械臂偏移),錯誤率比舊有系統降低 40%。與前代 Nemotron Nano VL V2 相比,多模態準確率平均提升 18%,尤其在複雜文件(如含手寫簽名的 PDF)的解析表現顯著。NVIDIA 強調此模型非僅追求參數規模,而是透過精準的任務導向架構,使 30B 規模超越更大模型(如 70B 的 Llama 3),為中小企業提供可負擔的 AI 代理方案。

部署生態與企業實用指南

目前 Nemotron 3 Nano Omni 已上架 Hugging Face、Ollama、LM Studio 及 NVIDIA 官網的 build.nvidia.com,提供完整模型權杖(Model Card)與部署指南。用戶可直接下載 30B 版本本地運行,或透過 OpenRouter 使用免費 API(每分鐘 20 次、每日 200 次),企業用戶可申請免費 API KEY 獲取更高頻寬。部署方面,NVIDIA 提供詳細最佳化建議:在 NVIDIA B200 GPU 環境下,影片處理延遲僅 0.8 秒/幀,比前代快 8.7 倍;若使用消費級 GPU(如 RTX 4080),亦能維持 15 FPS 的實時處理效能。企業應用需注意兩大關鍵:一是資料隱私,模型支持本地部署避免敏感文件上傳雲端;二是工作流整合,NVIDIA 提供 SDK 讓開發者輕鬆將代理功能嵌入現有系統,例如客服平台可直接呼叫模型分析客戶視頻投訴。實際案例中,醫療科技公司將其整合至電子病歷系統,AI 代理自動摘要醫師音訊診斷(含背景雜訊降噪),使病歷輸入效率提升 65%。此外,NVIDIA 與企業合作推出「開源代理沙盒」,提供免費測試環境供開發者驗證應用。值得注意的是,該模型不支援即時互動對話(如聊天機器人),專注於任務導向代理,避免與 ChatGPT 等模型重疊,精準定位企業自動化需求。未來版本預計將擴展至 3D 資料處理,進一步強化工業應用場景。