C6 03.16.2025 星期日 矽谷科技 科技新聞網站E n g a d g e t報道,第一款 Gemini Robotics模型是DeepMind設計來 直接控制機械人的。 根據DeepMind說法,機械人的AI系統需 要具備三個特質,包括通用性、互動性和熟 練度。 通用性涉及機械人適應新情況的靈活 性,包括訓練範圍外的情況。互動性則體現 了機械人對人們和環境作出回應的情況,熟 練度則是很多人類能毫不費力完成的任務都 涉及機械人難以掌握的精細動作技能。 DeepMind說︰「雖然我們過去工作證明了 在這些領域取得進展,但Gemini Robotics在 這三個特質的性能上代表邁出了實質性的一 步,使我們更接近真正一般目的的機械人。」 例如,透過Gemini Robotics的驅動支援, DeepMind的ALOHA 2機械人可以摺紙和封 上Ziploc密封袋。這個雙臂機械人也能理解以 自然的日常語言給它的指示。正如從谷歌分 享的影片可見,即使遇上阻礙,它還是可以 完成任務,例如研究員叫它把水果放在容器 裡,卻同時又把容器移來移去,但機械人還 是能夠辦到。 谷歌正與雙足機械人「阿波羅」(Apollo) 製造商Apptronik合作,建造下一代類人型機 械人。 與此同時,DeepMind新推出的第二個 AI模型是Gemini Robotics-ER(即具有推理能 力)。公司表示,該模型使機械人專家可以利 用Gemini高階推理能力來運行他們自己的程 式。DeepMind提供「可信任測試人員」使用這 套系統,包括昔日曾為谷歌母公司Alphabet子 公司、現隸屬韓國現代汽車的「波士頓動力公 司」(Boston Dynamics)。 DeepMind新AI模型提升機械人能力 Gemini Robotics 為新一代實用機械人奠基礎 Meta自研晶片訓練AI系統 ▍本報訊 ▍ OpenAI近期發布新工具,可助力企業和 開發人員使用其AI模型和框架構建自主功能 的AI代理(AI Agent)。 據TechCrunch報道,OpenAI全新的 Responses API,可讓企業開發自主AI代理, 獨立完成複雜任務,包括網路搜尋、公司 檔案搜索和瀏覽網站等,就像Op e nA I的 Operator產品一樣。OpenAI計劃在2026年上 半年終止使用Assistants API,Responses API將 取而代之。 OpenAI的API產品主管格德蒙(Ol ivier Godement)說,演示AI代理容易,但要擴展 AI代理相當困難,要讓人經常使用則非常困 難。 年初,Op e nAI在Cha tGPT中推出了 兩個AI代理:Operator可瀏覽網站,Deep Research則可編寫研究報告,但這兩種工具在 「自主性」方面仍有許多不足。 現在有了Re s pon s e s AP I,企業能以 OpenAI的內置工具創造自主應用程式。 開發人員可利用ChatGPT Search網頁搜 尋工具下的AI模型(預覽版):GPT-4o搜尋和 GPT-4o mini搜索模型,來生成答案,並引用 資料來源。OpenAI稱,這兩個模型的事實精 確度很高。在SimpleQA基準測試中,GPT-4o 搜尋得分90%,GPT-4o mini得分88%。相較 之下,OpenAI最近發表的大模型GPT-4.5只 有63%。 Responses API還包含一個檔案搜尋工 具,可快速從公司數據庫檔案擷取資訊。此 外,開發人員可使用OpenAI的Operator背後 的CUA模型,產生滑鼠和鍵盤的動作,從而 自動執行資料輸入和應用程式工作流程等電 腦任務。 OpenAI表示,企業可選擇在本身系統上 運行CUA模型(研究預覽版),而在Operator 中提供的CUA消費者版只能在網路上執行動 作。 雖然A I 搜尋工具比傳統的A I 模型更 精準,但網頁搜尋仍會造成AI幻覺問題。 OpenAI表示,CUA模型「在操作系統上自動 執行任務的可靠性還不高」,而且容易犯「無 意」的錯誤。 除了Responses API之外,OpenAI還發布 了名為Agents SDK的開放原始碼工具包,提 供免費的工具,讓開發人員可以將模型與內 部系統整合、設置保障措施,以及監控AI代 理的活動。 本報訊 路透社引述兩個消息來源報道,臉書母公 司Meta正測試首款內部自主研發的晶片,將用 於訓練人工智能(AI)系統。 Meta正致力於設計更多自己的客製化晶 片,減少對輝達等外部供應商的依賴。消息人 士還稱,Meta已經開始小規模部署該晶片,並 計劃在測試順利的情況下擴大生產,從而實現 大規模使用。 研發內部晶片是Meta長遠計劃的一部分, 目標是降低龐大的基礎設施成本,因為該公司 正將巨資押注在AI工具上,希望藉以推動成 長。Meta還擁有Instagram和WhatsApp,預測 2025年總支出將達到1140億元至1190億元,其 中高達650億元的資本支出主要來自AI基礎設 施。其中一位消息人士稱,Meta的新晶片是 一款專用加速器,意味著它只用於處理AI相關 工作,比起通常用於AI工作負載的整合式顯卡 (GPU),在效能上更具優勢。 這位知情人士表示,Meta正在與台灣晶片 製造商台積電合作生產該晶片。 另一位消息人士稱,Meta在完成該晶片的 首次「流片」(tape-out)後啟動了測試部署。流 片是半導體開發過程是否成功的一個重要里程 碑,指的是將初步設計送往晶片工廠進行生產 驗證。 一般而言,流片成本高達數千萬元,並需 耗時約三到六個月才能完成,而且不能保證測 試一定會成功。如果失敗,Meta將需診斷問題 並重新進行流片流程。 這款晶片屬於Me t a訓練與推理加速器 (MTIA)系列的最新產品。該計劃多年來一直 起步不順,一度在類似的開發階段放棄一款晶 片。然而,Meta去年開始使用MTIA晶片進行 推理,即在用戶與 AI 系統互動時處理相關運 算,例如決定臉書和Instagram動態消息顯示哪 些內容。 Meta高層表示,希望在2026年開始使用自 己的晶片進行訓練。如同推理晶片,訓練晶片 的目標將從推薦系統開始,然後再擴展至聊天 機器人Meta AI等生成式AI產品。 本報訊 據彭博社報道,蘋果正在為iPhone、 iPad和Mac的作業系統進行重大改版。 據報,iOS 19、iPadOS 19和macOS 16 將於6月在蘋果年度全球開發者大會(WDC) 上發布,預料會有截然不同的外觀,從圖 標、選單和應用程式到視窗和系統按鈕等 方面都有變化。 報道稱,此次更新是「該公司史上最 重大的軟體大改版之一」,旨在簡化用戶 體驗,特別是裝置的控制和操作方式。該 更新還力求在各平台之間創造一致性的設 計,因為目前某些應用程式和圖標會在不 同的裝置上會有所差異。 彭博社引述匿名消息人士稱,這次的 設計「大致上」是以蘋果的混合實境頭罩 Vision Pro的軟體介面作為基礎。蘋果於 2023年推出Vision Pro,獲得褒貶不一的反 應。比起iOS和macOS,VisionOS具有更圓 潤的圖標、更時尚的視窗系統,並且更注 重深度和陰影。 這次的大改版正值蘋果尋找重振產品 方法之際。該公司最近報稱,聖誕節季度 的iPhone銷量下降1%,少於預期。同時, 由於競爭對手加快AI研發步伐,先進的AI 驅動Siri推出的延遲可能進一步影響銷售。 報道稱,這將是自2013年iOS 7推出以 來的iOS最大規模改版,也是自2020年Big Sur作業系統發布以來的macOS最重大更 新。 市場研究公司IDC的分析師烏布拉尼 (Jitesh Ubrani)指出,儘管iPadOS多年來變 得越來越先進,但許多新功能對於日常用 戶來說仍然隱晦不明,並且其他介面元素 也讓用戶體驗變得更複雜。 烏布拉尼也認為,macOS和iOS仍需要 進行改進,以實現更現代化的作業系統外 觀和感覺。 但他不確定這些改變就能推動銷售。 他表示,真正的重點應該是提供跨平台的 無縫且一致性使用體驗。 本報訊 ■谷歌DeepMind推出新AI模型Gemini Robotics,可以讓機械人懂得摺紙。 DeepMind ■OpenAIf發布新工具,可以幫助企業打造AI Agent。 OpenAI 蘋果作業系統 擬全面大改版 自從去年年底首次亮相以來,谷歌DeepMind的人工智能(AI)模型Gemini 2.0, 已支援了多款谷歌產品,包括「AI模式」(AI Mode)聊天機器人(chatbot)。DeepMind 如今進一步擴大有關技術,日前宣布推出兩款基於Gemini的新模型,號稱「為新一代 實用機械人(robot)奠定基礎」。 OpenAI新工具助力企業構建AI Agent 電玩業界競相開發 AI驅動角色技術 索尼正在開發至少一個由人工 智能(AI)驅動的PlayStation遊戲角 色原型。 科技網站The Verge引述一位消 息人士提供的索尼PlayStation團隊 的內部視頻,顯示有一個由 AI 驅 動的《地平線:西域禁地》(Horizon Forbidden West)遊戲主角亞蘿伊 (Al oy)。不過該消息發布 後,視頻因版權問題被 Muso從YouTube上撤下。 Mu s o 是一家版權執行公 司,宣稱索尼互動娛樂(即 PlayStation)是其客戶。 該 視 頻 由 索 尼 互 動 娛樂公司軟體工程總監 拉格霍巴達賈爾(Sharwin Raghoebardajal)擔任旁白講 解,他負責索尼PlayStation Studios先進科技事業部門的 電玩技術、AI、電腦視覺 和臉部技術的開發。拉格 霍巴達賈爾演示的AI角色亞蘿伊能 在遊戲過程中透過語音提示與玩家 進行對話。他明確指出,這只是與 Guerrilla Games共同開發的原型, 用於在索尼內部展示該技術。 這項技術演示使用OpenAI的 whi sper進行語音轉文字,並結合 GPT-4和Llama 3語言模型來處理 對話和決定。根據拉格霍巴達賈爾 的介紹,索尼自行開發情感語音合 成系統(EVS),用於語音生成,而 語音到臉部動畫也採用索尼研發的 Mockingbird技術。 索尼於一年前首次在內部展示 這項技術,去年11月在東京舉行的 索尼技術交易博覽會(STEF)上閉 門展示更先進的版本。 其他科企也在研發類似 技術。輝達(Nvidia)將其技 術命名為Ace,讓遊戲中的 非玩家角色(NPC)具備自 然對話能力,已於2024年演 示過多次,並與軟件公司 Inworld AI合作,開發一款 可遊玩技術展示。微軟也與 Inworld AI密切合作,希望 最終將AI角色引入Xbox, 讓遊戲開發者能夠使用生成 式AI角色和故事情節。 本報訊 微軟將於4月4日在位於華盛頓 州雷德蒙(Redmond)總部舉行成立 50周年及其人工智能(AI)聊天機器 人Copilot的活動,據傳可能示範一 些自家AI模型的成果。 4月4 日是比爾蓋茨(Bill Gates) 和保羅艾倫(Paul Allen)50年前創 立微軟的日子。科技新聞網站The Verge報道,這場活動將包括一場 僅限雇員參加的50周年紀念儀式, 另有活動交代微軟Copilo消費者端 的最新發展。 據悉微軟執行長納德拉(Satya Nadella)、微軟AI部門執行長蘇萊 曼(Mustafa Suleyman)和其他歷代 高層都會出席50周年紀念活動。 外界盛傳微軟正在開發自家AI 推動模型與對手OpenAI競爭。網 站The Information日前報道,蘇萊 曼一直領導微軟自家AI模型「MAI」 的開發,這些模型可能與OpenAI 進行競賽,甚至取代Copilot目前使 用的OpenAI模型。 外界預期,微軟無疑將把AI定 位為下一個50年業務計劃的核心。 本報訊 微軟慶金禧 下月辦活動 ■索尼一段內部視頻顯示AI驅動的遊戲角色亞蘿伊。 視頻截圖 ■微軟將慶 祝創立50周 年。 微軟
RkJQdWJsaXNoZXIy ODc1MTYz