現聖誕、新年特價 ! 03.26.2025 星期三 B7 矽谷科技 為了啟動這款新模型系列,谷 歌推出多重模式(multimodal) 推理A I 模型G e m i n i 2 . 5 P r o Experimental,號稱是迄今最具智 慧的模型。新模式25日起在谷歌開 發人員平台Google AI Studio上推 出,每月繳費20元的AI計劃Gemini Advanced用戶可透過Gemini應用程 式使用。谷歌表示,所有新AI模型 未來將具備推理能力。 從OpenAI 2024年9月推出首 個AI推理模型以來,科技業就展 開AI模型競賽,力求達到或超越 OpenAI模型的能力。目前為止, Anthropic、谷歌、xAI和中國「深度 求索」(DeepSeek)皆有AI推理模型, 利用更多運算能力和時間對問題進 行事實查核和推理才回答問題。 推理技術一直幫助AI模型在數 學和編碼上達到新高度。不少科技 界人員相信,推理模型將成為AI代 理人的重要組成,能在幾乎毋須人 類介入下執行任務,但成本卻越來 越高昂。 谷歌一直試驗AI推理模型,去 年12月推出Gemini的「思考」版本, Gemi n i 2 . 5代表其迄今為止超越 OpenA「I o」系列模型的最認真嘗試。 谷歌聲稱,Gemini 2.5 Pro在某 些基準上的表現超越它過去的AI前 沿模型,以及一些領先的競爭同類 模型。 谷 歌 特 別 提 到 , 它 設 計 的 Gemini 2.5在建立具視覺吸引力的 網頁應用程式和具代理能力的編碼 應用程式上都表現出色。 谷歌表示,在衡量程式碼編輯 的Aider Polyglot評估上,Gemini 2.5 Pro得分為68.6%,優於OpenAI、 Anthropic和「深度求索」的AI模型。 Gemi n i 2 . 5在衡量軟件開發能力 的測試SWE-bench Verified的得分 為63.8%,比OpenAI的o3-mini和 「深度求索」R1較為出色,但遜於 得分70.3%的Anthropic Claude 3.7 Sonnet。 至於數學、人文和自然科學 上,谷歌稱Gemini 2.5 Pro得分為 18.8%,優於大多數重要旗艦模型。 谷歌表示,Gemini 2.5 Pro配備 100萬個詞元(token)上下文視窗, 意味該模型單次可處理約75萬個字 元,未來不久支援的詞元將增加一 倍至200萬個。 谷歌尚未公布Gemini 2.5 Pro的 應用程式開發介面(API)收費,未 來數周內將透露更多資訊。 谷歌AI新模型Gemini 2.5 迄今最聰明 回答問題前先「思考」基準測試成績領先對手 蘋果WWDC定6月初舉行 ▍本報訊 ▍ OpenAI最新發布「進階語音模 式」(Advanced Voice Mode)的更 新,將使人工智能(AI)助理更具親 和力,減少打斷使用者的頻率。 進階語音模式是OpenAI的AI語 音功能,讓人在ChatGPT中進行即 時對話。 OpenAI後期訓練研究員哥德曼 特(Olivier Godement)與多位同僚在 直播視頻時宣布這些變化,稱更新 旨在解決AI語音助理的一個經常發 生的問題,即當用戶停下來思考或 深呼吸時,語音助理會打斷對話。 Cha tGPT的免費用戶現在可 以使用最新版本的進階語音模式, 該模式讓用戶在與AI助理交談時可 以暫停,而不會被打斷。ChatGPT 的付費用戶,包括OpenAI的Plus、 Teams、Edu、Business和Pro等級 的訂閱者,現在使用進階語音模式 時,也將受到更少的打斷,獲得個 性較為完善的語音助理。 OpenAI的一位發言人向科技媒 體TechCrunch表示,新版AI語音助 理在回應付費用戶時,「將更加直 接、引人入勝、簡潔、具體且富有 創意」。 此際,AI語音助理領域競爭激 烈。Sesame是一家獲得風投家安德 里森(Andreessen Horowitz)支持的 新創公司,由Oculus聯合創始人艾 瑞比(Brendan Iribe)創設,最近因 推出聽起來自然的AI語音助理Maya 和Miles而暴紅。 此外,許多大型企業也正積極 進軍AI語音助理市場,例如亞馬遜 正準備發布由大型語言模型(LLM) 驅動的新版Alexa。 本報訊 蘋果宣布今年全球開發者大會 (WWDC)將於6月9日至13日於南 灣古柏蒂奴(Cupertino)蘋果園區 (Apple Park)舉行,以實體舉行主 題演說打頭陣。 去年WWDC的重點是推出「蘋 果智能」(Apple Intelligence),展現 語音助理Siri尚未推出的先進功能, 讓Siri看見用戶的畫面和依據畫面內 容採取行動,進一步與應用程式的 整合,以及理解個人上下文來完成 任務。 今 年 活 動 將 著 重 i O S 、 iPadOS、macOS、watchOS和 tvOS 各項系統,據報蘋果今年為其軟件 平台帶來重大的視覺設計改變。 WWDC可能發布新硬件,以及延宕 多時的Siri AI功能。 外界還預期蘋果可能在WWDC 上透露更先進的AI策略和具體發布 時間表,包括傳聞中受Siri發展受阻 的智能顯示器。彭博社科技記者古 爾曼(Mark Gurman)曾報道,Siri 更先進的對話功能可能最快要等到 iOS 20才會推出,但據說蘋果已重 組負責這方面的團隊。 iOS 19、iPadOS 19和macOS 下一個「加州風格」(Californication) 版本的細節可能在今年WWDC內公 布。根據古爾曼報道,新作業系統 可能包括重 新設計的外 觀、圖案、 選 單 和 按 鈕,使蘋果 各裝置的設 計更統一。 蘋 果 偶 爾在其年度 開發者大會 上公布新硬 件,最近一 次是2023年的蘋果Vision Pro混合實 境(MR)眼罩、M2晶片和多款Mac 裝置。今年迄今已推出新版i Pad Air、MacBook Air、Mac Studio以 及新iPhone 16e。古爾曼透露今年 WWDC可能包含規劃今年中推出的 Mac Pro更新版和第二代AirTags物 品追蹤器。 本報訊 新測試顯示,當前市面上八款 具備即時搜尋功能的人工智能(AI) 搜尋工具,對60%新聞來源相關查 詢回答得不正確,由電動車特斯 拉創辦人馬斯克創立的xAI開發的 Grok 3錯誤率更幾乎100%。 《哥倫比亞新聞評論》(Columbia Journal i sm Revi ew)托爾數碼新 聞中心(Tow Center for Digi tal Journalism)發布研究報告稱,目前 有四分之一美國民眾利用AI模型作 為傳統搜尋引擎的替代品,錯誤率 高的情況令其可靠度成疑。 該研究發現,八個接受測試 的平台錯誤率差異甚大。在200條 測試查詢中,Perplexity對37%測試 查詢提供非正確資訊,OpenAI的 ChatGPT錯誤率則為67%。Grok 3 錯誤率更高達94%,是眾平台中最 高。 透過測試,研究員將實際新聞 文章的直接摘錄輸入到AI模型, 然後要求每個模型辨別新聞文章的 標題、原有出版商、出版日期和連 結。他們在8種不同生成式AI搜尋 工具中運行1,600個查詢。 新研究揭露這些AI模型的共同 趨勢:當缺乏可靠資訊時不會拒絕 回應,而是經常產生虛構內容,即 聽起來合理但實際上不正確或靠推 測出來的答案。研究員強調,這種 行為並非侷限於一種工具,而是持 續出現在所有受測試模型中。 令人驚訝的是,這些AI搜尋工 具的高級付費版本在某些方面的表 現更糟。月費20元的Perplexity Pro 和40元的Grok 3高級服務比它們的 免費版本更經常提供不準確答案。 儘管這些高級模型正確回答提示的 數量較多,但它們不願拒絕不確定 回答,藉此拉高整體錯誤率。 本報訊 ■Gemini 2.5在推理、科學和數學基準測試取得佳績。 谷歌 ■谷歌發布最新AI推理模型Gemini 2.5。 谷歌 ■OpenAI最新發布「進階語音模 式」。 OpenAI ■OpenAI研究員(右起)哥德曼特、 Jeff Harris、Iaroslav Tverdokhlib 和Yi Shen直播視頻介紹語音助理更 新。 OpenAI 回應新聞查詢 AI搜尋錯誤率極高 ■蘋果全球開發者大會將於6月初舉行。 蘋果 谷歌進一步提升其人工智 能(AI)推理技術,25日發布最 新AI推理模型Gemini 2.5,它在 回答問題前會暫停一下進行「思 考」。 OpenAI更新模式 AI助理不輕易打斷提問
RkJQdWJsaXNoZXIy MTIyMjc2OQ==