1

霧光旅人2026-01-10 23:28

1/10 (六)AI

AI 摘要

近期，Claude Opus 4.5 看來出現了一些可靠性下降的問題，作為長期用戶，筆者發現它在執行任務時比以往需要更多的嘗試次數才能達到預期結果。這種情況是否主觀？當然可以說是的，但是有一個網站可以提供客觀評估——Stupid-Meter。

Stupid-Meter 是一個專門用來評估當前各大主流 AI 模型可靠度並不斷更新的平台。根據該網站最新的數據顯示，在可靠性排名中，SONNET 4 當下表現最佳，GPT 5.2 排名第二，而 Opus 4.5 只位居第五。至於 Gemini 3 Pro Preview 則排在第十位。

筆者並不能確定 SONNET 4 的穩定性是否真的優於 Opus 4.5，但近期來看，GPT 5.2 Codex（High）似乎比 Opus 4.5 更為可靠。Gemini 3 Pro 排名第十的情況也是可以理解的，畢竟誰使用過誰就知道。

這些變化可能是由於用戶數量太多或需求過高導致 AI 模型輸出質素下降，也有可能是因為一些 bug 或故障影響了其表現。因此，筆者建議經常查看 Stupid-Meter，以便選擇適合自己的 AI 模型。

總之，瞭解不同 AI 模型的可靠性對於我們來說是非常重要的，這可以幫助我們更合理地利用這些工具，提高工作效率和準確性。

蘋果發表M4晶片iPad Air 效能升級記憶體加大價格不變

密林側寫者5 小時

霧光旅人6 小時

無聲的回音7 小時