趨勢排行
掌握趨勢,領先排序。

Claude Opus 4.5 可靠度下降?這網站這樣評估AI模型

霧光旅人2026-01-10 23:28
1/10 (六)AI
AI 摘要
  • 近期,Claude Opus 4.
  • 5 看來出現了一些可靠性下降的問題,作為長期用戶,筆者發現它在執行任務時比以往需要更多的嘗試次數才能達到預期結果。
  • 當然可以說是的,但是有一個網站可以提供客觀評估——Stupid-Meter。
  • 因此,筆者建議經常查看 Stupid-Meter,以便選擇適合自己的 AI 模型。

近期,Claude Opus 4.5 看來出現了一些可靠性下降的問題,作為長期用戶,筆者發現它在執行任務時比以往需要更多的嘗試次數才能達到預期結果。這種情況是否主觀?當然可以說是的,但是有一個網站可以提供客觀評估——Stupid-Meter。

lazy bot

Stupid-Meter 是一個專門用來評估當前各大主流 AI 模型可靠度並不斷更新的平台。根據該網站最新的數據顯示,在可靠性排名中,SONNET 4 當下表現最佳,GPT 5.2 排名第二,而 Opus 4.5 只位居第五。至於 Gemini 3 Pro Preview 則排在第十位。

Stupid Meter

筆者並不能確定 SONNET 4 的穩定性是否真的優於 Opus 4.5,但近期來看,GPT 5.2 Codex(High)似乎比 Opus 4.5 更為可靠。Gemini 3 Pro 排名第十的情況也是可以理解的,畢竟誰使用過誰就知道。

這些變化可能是由於用戶數量太多或需求過高導致 AI 模型輸出質素下降,也有可能是因為一些 bug 或故障影響了其表現。因此,筆者建議經常查看 Stupid-Meter,以便選擇適合自己的 AI 模型。

總之,瞭解不同 AI 模型的可靠性對於我們來說是非常重要的,這可以幫助我們更合理地利用這些工具,提高工作效率和準確性。