11-25-2025星島日報(美西版)

該基準將評估聊天機器人是否將 用戶福祉作為優先,和有關的 保護措施在壓力下的應對,希望最 終能做到如同消費者產品指南,讓 用戶在選擇與聊天機器人互動時有 可依賴的評估標準。 制定HumaneBench基準的組織 Building Humane Technology創辦 人安德森(Erika Anderson)接受科技 新聞網站TechCrunch訪問時指出︰ 「我認為我們正處於一種成癮循環的 加劇階段,早已看到這種成癮循環 在社交媒體、智能手機等電子設備 上非常嚴,一旦進入AI領域,可能 更難抵抗它的誘惑。」 Building Humane Technology是 一個由以矽谷為主的開發人員、工 程師和研究員所組成的草根組織, 致力於讓以人為本的設計變得容 易、可擴展且有利可圖。 大多數AI基準衡量智能和遵守 指示的能力,而非心理安全。 HumaneBench遵循該組織的 核心原則,即科技應尊重使用者的 注意力,視為有限和寶貴的資源; 提供用戶有意義的選擇權;加強人 類能力而非取代或削弱;保護人類 的尊嚴、隱私與安全;培育健康關 係;優先考慮長期福祉;保持透明 和誠實和注重公平與包容的設計 等。 測試了15個最常用AI模型後, HumaneBench發現,當被要求優 先考慮用戶福祉時,每個模型得分 均較高,但當被簡單指示漠視人類 福祉時,67%模型主動做出有害行 為。 例如xAI的Grok 4和谷歌Gemini 2.0 Flash在尊重用戶注意力和資訊 透明度與誠實上得分最低(-0.94), 兩者在受到對抗性提示時,最有可 能出現大幅退化。 該組織稱,僅四個模型在受壓 下能保持妥善應對,包括OpenaI的 GPT-5.1與GPT-5以及Anthropic的 Claude 5.1與Claude Sonnet 4.5。 OpenAI的GPT-5在優先重視長期 福祉上得分最高(0 . 99),其次是 Claude Sonnet 4.5(0.89)。 科技組織以人為本 開發評估AI新基準 聊天機器人是否保障用戶福祉和心理安全 AI天氣預報模型 精準長達兩星期 Anthropic旗艦模型Opus 4.5版 功能更強大 ▍本報訊 ▍ 谷歌的旗艦Pixel 10系列手機可 以透過安卓Android Quick Shar(e 快 速分享),與iPhone的 AirDrop文件 傳輸功能兼容,這代表在兩個平台 之間傳送檔案和照片會變得容易許 多。 高通(Qualcomm)隨即在X平台 上發文透露,這項跨平台檔案分享 功能即將登陸搭載Snapdragon(驍 龍)晶片的裝置。 新功能與目前的Quick Share 運作方式類似,接收檔案的蘋果 裝置,包括 iPad、Mac和iPhone, 需要將AirDrop的可見度設定為「任 何人持續10分鐘」(anyone for 10 minutes),這意味著在聯絡人清單 之外者,也能發起AirDrop或Quick Share的傳輸。之後,當Pixel 10用 戶透過Quick Share分享內容時,應 該能夠看到該蘋果裝置作為接收端。 谷歌指出,安卓裝置也可以接 收蘋果裝置透過AirDrop傳送的檔 案,只需確保其Quick Share的可見 性也設定為「任何人持續10分鐘」, 或在Quick Share頁面上處於「接收」 (receive)模式即可。 谷歌在先前的公告中就提到, Quick Share功能將支援更多的安 卓裝置,高通的確認意味著相容 性不會只侷限於Pi xe l手機,或搭 載谷歌Tensor晶片的裝置。也許我 們很快就能全面性與iPhone用戶分 享內容,即使是三星Galaxy手機、 OnePlus手機,甚至其他品牌的手機 也是一樣。 高通並未具體說明哪些手機將 在何時獲得Quick Share,預期日後 可看到平板電腦或筆記型電腦等裝 置支援該功能。業界觀察認為,有 了這項新的跨系統檔案分享功能, 加上蘋果宣布iOS 18將支援RCS, 智能手機作業系統之間長期存在的 摩擦似乎正在逐漸消失。 本報訊 在谷歌發布人工智能(AI)模型 Gemini 3 Pro後,對手Anthropic發 布其旗艦編碼模型Claude Opus 4.5 迎戰,新版本在編碼、電腦使用和 辦公室任務上皆提供一流表現。 科技新聞網站Engadget指出, 這些都是Claude的優勢所在,所以 不令人意外。 Anthropic發布Opus 4.5廣泛推 出一批現有工具,同時發布一項全 新功能。首先,Anthropic的谷歌 瀏覽器Chrome擴充功能Claude for Chrome已向所有Anthropic訂閱計 劃Max用戶使用。 其次新增「無限聊天」功能, 如果用戶付費使用Claude,它就不 會出現上下文視窗錯誤,從而確 保跨文件與聊天紀錄的一致性。 Anthropic表示,無限聊天功能是最 多用戶要求的功能之一。 另一項工具Claude for Excel, 將Claude新增到微軟應用程式的側 邊欄上。該工具現已適用於所有 Max、Team和Enterprise訂戶,且 支援內建樞紐分析表、圖表和檔案 上傳。Anthropic稱,測試人員經內 部評估發現,準確度和效率分別提 升了20%和15%。 Opus 4.5還改善了代理工作流 程,在提升效率上也表現出色。更 重要的是,Anthropic形容Opus 4.5 是迄今最安全模型。根據該公司的 自行評估,新模型在拒絕提示注 入式攻擊上,優於谷歌的Gemini 3 Pro。 如一般用戶欲試用Opus 4.5, 即日起可透過所有Anthropic應用程 式和該公司的應用程式介面(API) 使用。至於開發人員,新模型每 100萬個詞元(Anthropic)的費用為5 元起。 本報訊 谷歌旗下研究室DeepMind剛 發布了新版人工智能(AI)天氣預報 模型WeatherNext 2,「能提供更高 效、更精準、更高分辨率的全球天 氣預測」。該模型能提供長達兩周 的精準預報,涵蓋溫度、氣壓與風 力等信息。 研究人員指出,新模型還能更 精準預測熱帶風暴路徑,意味著 颶風行進路線的預測準確度可達3 天。相較之下,舊版模型最多只能 提前2天預測風暴行進路線。 該模型還引入了每小時預報功 能。谷歌稱新模型運算速度較前代 提升8倍。支持這項突破的是近期 發表的一種新的天氣建模方法。舊 有方法要使用專為生成圖像和視頻 設計的機器學習模型,需要反覆處 理才能確保結果準確。新模型僅需 一步處理,同時減少了對昂貴AI計 算系統的依賴。 AI並非無所不能,但在天氣 預報方面確實表現出色。當然仍有 缺陷,WeatherNext 2可能難以預 測極端雨雪天氣,因為缺少訓練數 據。 本報訊 ■谷歌推出安卓Quick Share促進安 卓蘋果跨平台分享。 谷歌 ■Anthropic推出Opus 4.5模型,功 能增強。 Anthropic ■DeepMind發布WeatherNext 2, 透過AI精準預報天氣。 谷歌/DeepMind 人工智能(AI)聊天機器人被 指與重度使用者的心理健康嚴 重受損有關,但目前缺乏明確 標準來衡量這些聊天機器人有 否保障人類福祉,而非只是將 使用者互動最大化。一個稱為 HumaneBench的新基準應運而 生,希望填補這個缺口。 安卓蘋果化敵為友 跨平台傳輸文件 11.25.2025 星期二 B7 矽谷科技 ■以矽谷為主的開發人員、工程師和研究員組成草根組織,嘗試建立基準, 評估AI有否優先重視用戶福祉。 Building Humane Technology ■不同AI模型在測試中有不同反應。 Adobe Stock

RkJQdWJsaXNoZXIy ODc1MTYz