11-25-2025星島日報(美西版)

該基準將評估聊天機器人是否將用戶福祉作為優先，和有關的保護措施在壓力下的應對，希望最終能做到如同消費者產品指南，讓用戶在選擇與聊天機器人互動時有可依賴的評估標準。制定HumaneBench基準的組織 Building Humane Technology創辦人安德森（Erika Anderson）接受科技新聞網站TechCrunch訪問時指出︰「我認為我們正處於一種成癮循環的加劇階段，早已看到這種成癮循環在社交媒體、智能手機等電子設備上非常嚴，一旦進入AI領域，可能更難抵抗它的誘惑。」 Building Humane Technology是一個由以矽谷為主的開發人員、工程師和研究員所組成的草根組織，致力於讓以人為本的設計變得容易、可擴展且有利可圖。大多數AI基準衡量智能和遵守指示的能力，而非心理安全。 HumaneBench遵循該組織的核心原則，即科技應尊重使用者的注意力，視為有限和寶貴的資源；提供用戶有意義的選擇權；加強人類能力而非取代或削弱；保護人類的尊嚴、隱私與安全；培育健康關係；優先考慮長期福祉；保持透明和誠實和注重公平與包容的設計等。測試了15個最常用AI模型後， HumaneBench發現，當被要求優先考慮用戶福祉時，每個模型得分均較高，但當被簡單指示漠視人類福祉時，67%模型主動做出有害行為。例如xAI的Grok 4和谷歌Gemini 2.0 Flash在尊重用戶注意力和資訊透明度與誠實上得分最低（-0.94），兩者在受到對抗性提示時，最有可能出現大幅退化。該組織稱，僅四個模型在受壓下能保持妥善應對，包括OpenaI的 GPT-5.1與GPT-5以及Anthropic的 Claude 5.1與Claude Sonnet 4.5。 OpenAI的GPT-5在優先重視長期福祉上得分最高（0 . 99），其次是 Claude Sonnet 4.5（0.89）。科技組織以人為本開發評估AI新基準聊天機器人是否保障用戶福祉和心理安全 AI天氣預報模型精準長達兩星期 Anthropic旗艦模型Opus 4.5版功能更強大 ▍本報訊 ▍ 谷歌的旗艦Pixel 10系列手機可以透過安卓Android Quick Shar（e 快速分享），與iPhone的 AirDrop文件傳輸功能兼容，這代表在兩個平台之間傳送檔案和照片會變得容易許多。高通（Qualcomm）隨即在X平台上發文透露，這項跨平台檔案分享功能即將登陸搭載Snapdragon（驍龍）晶片的裝置。新功能與目前的Quick Share 運作方式類似，接收檔案的蘋果裝置，包括 iPad、Mac和iPhone，需要將AirDrop的可見度設定為「任何人持續10分鐘」（anyone for 10 minutes），這意味著在聯絡人清單之外者，也能發起AirDrop或Quick Share的傳輸。之後，當Pixel 10用戶透過Quick Share分享內容時，應該能夠看到該蘋果裝置作為接收端。谷歌指出，安卓裝置也可以接收蘋果裝置透過AirDrop傳送的檔案，只需確保其Quick Share的可見性也設定為「任何人持續10分鐘」，或在Quick Share頁面上處於「接收」（receive）模式即可。谷歌在先前的公告中就提到， Quick Share功能將支援更多的安卓裝置，高通的確認意味著相容性不會只侷限於Pi xe l手機，或搭載谷歌Tensor晶片的裝置。也許我們很快就能全面性與iPhone用戶分享內容，即使是三星Galaxy手機、 OnePlus手機，甚至其他品牌的手機也是一樣。高通並未具體說明哪些手機將在何時獲得Quick Share，預期日後可看到平板電腦或筆記型電腦等裝置支援該功能。業界觀察認為，有了這項新的跨系統檔案分享功能，加上蘋果宣布iOS 18將支援RCS，智能手機作業系統之間長期存在的摩擦似乎正在逐漸消失。本報訊在谷歌發布人工智能（AI）模型 Gemini 3 Pro後，對手Anthropic發布其旗艦編碼模型Claude Opus 4.5 迎戰，新版本在編碼、電腦使用和辦公室任務上皆提供一流表現。科技新聞網站Engadget指出，這些都是Claude的優勢所在，所以不令人意外。 Anthropic發布Opus 4.5廣泛推出一批現有工具，同時發布一項全新功能。首先，Anthropic的谷歌瀏覽器Chrome擴充功能Claude for Chrome已向所有Anthropic訂閱計劃Max用戶使用。其次新增「無限聊天」功能，如果用戶付費使用Claude，它就不會出現上下文視窗錯誤，從而確保跨文件與聊天紀錄的一致性。 Anthropic表示，無限聊天功能是最多用戶要求的功能之一。另一項工具Claude for Excel，將Claude新增到微軟應用程式的側邊欄上。該工具現已適用於所有 Max、Team和Enterprise訂戶，且支援內建樞紐分析表、圖表和檔案上傳。Anthropic稱，測試人員經內部評估發現，準確度和效率分別提升了20%和15%。 Opus 4.5還改善了代理工作流程，在提升效率上也表現出色。更重要的是，Anthropic形容Opus 4.5 是迄今最安全模型。根據該公司的自行評估，新模型在拒絕提示注入式攻擊上，優於谷歌的Gemini 3 Pro。如一般用戶欲試用Opus 4.5，即日起可透過所有Anthropic應用程式和該公司的應用程式介面（API）使用。至於開發人員，新模型每 100萬個詞元（Anthropic）的費用為5 元起。本報訊谷歌旗下研究室DeepMind剛發布了新版人工智能（AI）天氣預報模型WeatherNext 2，「能提供更高效、更精準、更高分辨率的全球天氣預測」。該模型能提供長達兩周的精準預報，涵蓋溫度、氣壓與風力等信息。研究人員指出，新模型還能更精準預測熱帶風暴路徑，意味著颶風行進路線的預測準確度可達3 天。相較之下，舊版模型最多只能提前2天預測風暴行進路線。該模型還引入了每小時預報功能。谷歌稱新模型運算速度較前代提升8倍。支持這項突破的是近期發表的一種新的天氣建模方法。舊有方法要使用專為生成圖像和視頻設計的機器學習模型，需要反覆處理才能確保結果準確。新模型僅需一步處理，同時減少了對昂貴AI計算系統的依賴。 AI並非無所不能，但在天氣預報方面確實表現出色。當然仍有缺陷，WeatherNext 2可能難以預測極端雨雪天氣，因為缺少訓練數據。本報訊 ■谷歌推出安卓Quick Share促進安卓蘋果跨平台分享。谷歌 ■Anthropic推出Opus 4.5模型，功能增強。 Anthropic ■DeepMind發布WeatherNext 2，透過AI精準預報天氣。谷歌/DeepMind 人工智能（AI）聊天機器人被指與重度使用者的心理健康嚴重受損有關，但目前缺乏明確標準來衡量這些聊天機器人有否保障人類福祉，而非只是將使用者互動最大化。一個稱為 HumaneBench的新基準應運而生，希望填補這個缺口。安卓蘋果化敵為友跨平台傳輸文件 11.25.2025 星期二 B7 矽谷科技 ■以矽谷為主的開發人員、工程師和研究員組成草根組織，嘗試建立基準，評估AI有否優先重視用戶福祉。 Building Humane Technology ■不同AI模型在測試中有不同反應。 Adobe Stock

Made with FlippingBook

RkJQdWJsaXNoZXIy ODc1MTYz