03-26-2025星島日報(美西版)

現聖誕、新年特價 ! 03.26.2025 星期三 B7 矽谷科技為了啟動這款新模型系列，谷歌推出多重模式（multimodal）推理A I 模型G e m i n i 2 . 5 P r o Experimental，號稱是迄今最具智慧的模型。新模式25日起在谷歌開發人員平台Google AI Studio上推出，每月繳費20元的AI計劃Gemini Advanced用戶可透過Gemini應用程式使用。谷歌表示，所有新AI模型未來將具備推理能力。從OpenAI 2024年9月推出首個AI推理模型以來，科技業就展開AI模型競賽，力求達到或超越 OpenAI模型的能力。目前為止， Anthropic、谷歌、xAI和中國「深度求索」（DeepSeek）皆有AI推理模型，利用更多運算能力和時間對問題進行事實查核和推理才回答問題。推理技術一直幫助AI模型在數學和編碼上達到新高度。不少科技界人員相信，推理模型將成為AI代理人的重要組成，能在幾乎毋須人類介入下執行任務，但成本卻越來越高昂。谷歌一直試驗AI推理模型，去年12月推出Gemini的「思考」版本， Gemi n i 2 . 5代表其迄今為止超越 OpenA「I o」系列模型的最認真嘗試。谷歌聲稱，Gemini 2.5 Pro在某些基準上的表現超越它過去的AI前沿模型，以及一些領先的競爭同類模型。谷歌特別提到，它設計的 Gemini 2.5在建立具視覺吸引力的網頁應用程式和具代理能力的編碼應用程式上都表現出色。谷歌表示，在衡量程式碼編輯的Aider Polyglot評估上，Gemini 2.5 Pro得分為68.6%，優於OpenAI、 Anthropic和「深度求索」的AI模型。 Gemi n i 2 . 5在衡量軟件開發能力的測試SWE-bench Verified的得分為63.8%，比OpenAI的o3-mini和「深度求索」R1較為出色，但遜於得分70.3%的Anthropic Claude 3.7 Sonnet。至於數學、人文和自然科學上，谷歌稱Gemini 2.5 Pro得分為 18.8%，優於大多數重要旗艦模型。谷歌表示，Gemini 2.5 Pro配備 100萬個詞元（token）上下文視窗，意味該模型單次可處理約75萬個字元，未來不久支援的詞元將增加一倍至200萬個。谷歌尚未公布Gemini 2.5 Pro的應用程式開發介面（API）收費，未來數周內將透露更多資訊。谷歌AI新模型Gemini 2.5 迄今最聰明回答問題前先「思考」基準測試成績領先對手蘋果WWDC定6月初舉行 ▍本報訊 ▍ OpenAI最新發布「進階語音模式」（Advanced Voice Mode）的更新，將使人工智能（AI）助理更具親和力，減少打斷使用者的頻率。進階語音模式是OpenAI的AI語音功能，讓人在ChatGPT中進行即時對話。 OpenAI後期訓練研究員哥德曼特（Olivier Godement）與多位同僚在直播視頻時宣布這些變化，稱更新旨在解決AI語音助理的一個經常發生的問題，即當用戶停下來思考或深呼吸時，語音助理會打斷對話。 Cha tGPT的免費用戶現在可以使用最新版本的進階語音模式，該模式讓用戶在與AI助理交談時可以暫停，而不會被打斷。ChatGPT 的付費用戶，包括OpenAI的Plus、 Teams、Edu、Business和Pro等級的訂閱者，現在使用進階語音模式時，也將受到更少的打斷，獲得個性較為完善的語音助理。 OpenAI的一位發言人向科技媒體TechCrunch表示，新版AI語音助理在回應付費用戶時，「將更加直接、引人入勝、簡潔、具體且富有創意」。此際，AI語音助理領域競爭激烈。Sesame是一家獲得風投家安德里森（Andreessen Horowitz）支持的新創公司，由Oculus聯合創始人艾瑞比（Brendan Iribe）創設，最近因推出聽起來自然的AI語音助理Maya 和Miles而暴紅。此外，許多大型企業也正積極進軍AI語音助理市場，例如亞馬遜正準備發布由大型語言模型（LLM）驅動的新版Alexa。本報訊蘋果宣布今年全球開發者大會（WWDC）將於6月9日至13日於南灣古柏蒂奴（Cupertino）蘋果園區（Apple Park）舉行，以實體舉行主題演說打頭陣。去年WWDC的重點是推出「蘋果智能」（Apple Intelligence），展現語音助理Siri尚未推出的先進功能，讓Siri看見用戶的畫面和依據畫面內容採取行動，進一步與應用程式的整合，以及理解個人上下文來完成任務。今年活動將著重 i O S 、 iPadOS、macOS、watchOS和 tvOS 各項系統，據報蘋果今年為其軟件平台帶來重大的視覺設計改變。 WWDC可能發布新硬件，以及延宕多時的Siri AI功能。外界還預期蘋果可能在WWDC 上透露更先進的AI策略和具體發布時間表，包括傳聞中受Siri發展受阻的智能顯示器。彭博社科技記者古爾曼（Mark Gurman）曾報道，Siri 更先進的對話功能可能最快要等到 iOS 20才會推出，但據說蘋果已重組負責這方面的團隊。 iOS 19、iPadOS 19和macOS 下一個「加州風格」（Californication）版本的細節可能在今年WWDC內公布。根據古爾曼報道，新作業系統可能包括重新設計的外觀、圖案、選單和按鈕，使蘋果各裝置的設計更統一。蘋果偶爾在其年度開發者大會上公布新硬件，最近一次是2023年的蘋果Vision Pro混合實境（MR）眼罩、M2晶片和多款Mac 裝置。今年迄今已推出新版i Pad Air、MacBook Air、Mac Studio以及新iPhone 16e。古爾曼透露今年 WWDC可能包含規劃今年中推出的 Mac Pro更新版和第二代AirTags物品追蹤器。本報訊新測試顯示，當前市面上八款具備即時搜尋功能的人工智能（AI）搜尋工具，對60%新聞來源相關查詢回答得不正確，由電動車特斯拉創辦人馬斯克創立的xAI開發的 Grok 3錯誤率更幾乎100%。《哥倫比亞新聞評論》（Columbia Journal i sm Revi ew）托爾數碼新聞中心（Tow Center for Digi tal Journalism）發布研究報告稱，目前有四分之一美國民眾利用AI模型作為傳統搜尋引擎的替代品，錯誤率高的情況令其可靠度成疑。該研究發現，八個接受測試的平台錯誤率差異甚大。在200條測試查詢中，Perplexity對37%測試查詢提供非正確資訊，OpenAI的 ChatGPT錯誤率則為67%。Grok 3 錯誤率更高達94%，是眾平台中最高。透過測試，研究員將實際新聞文章的直接摘錄輸入到AI模型，然後要求每個模型辨別新聞文章的標題、原有出版商、出版日期和連結。他們在8種不同生成式AI搜尋工具中運行1,600個查詢。新研究揭露這些AI模型的共同趨勢：當缺乏可靠資訊時不會拒絕回應，而是經常產生虛構內容，即聽起來合理但實際上不正確或靠推測出來的答案。研究員強調，這種行為並非侷限於一種工具，而是持續出現在所有受測試模型中。令人驚訝的是，這些AI搜尋工具的高級付費版本在某些方面的表現更糟。月費20元的Perplexity Pro 和40元的Grok 3高級服務比它們的免費版本更經常提供不準確答案。儘管這些高級模型正確回答提示的數量較多，但它們不願拒絕不確定回答，藉此拉高整體錯誤率。本報訊 ■Gemini 2.5在推理、科學和數學基準測試取得佳績。谷歌 ■谷歌發布最新AI推理模型Gemini 2.5。谷歌 ■OpenAI最新發布「進階語音模式」。 OpenAI ■OpenAI研究員（右起）哥德曼特、 Jeff Harris、Iaroslav Tverdokhlib 和Yi Shen直播視頻介紹語音助理更新。 OpenAI 回應新聞查詢 AI搜尋錯誤率極高 ■蘋果全球開發者大會將於6月初舉行。蘋果谷歌進一步提升其人工智能（AI）推理技術，25日發布最新AI推理模型Gemini 2.5，它在回答問題前會暫停一下進行「思考」。 OpenAI更新模式 AI助理不輕易打斷提問

Made with FlippingBook

RkJQdWJsaXNoZXIy MTIyMjc2OQ==