02_22_2024星島日報（紐約大都會版）

B9 02.22.2024 星期四矽谷科技該公司在網站上表示：「Sora能夠生成包含多個角色、特定動作類型以及主體和背景細節準確的複雜場景。該模型不僅能理解用戶在提示中提出的要求，還能理解這些東西在現實世界中是如何存在的。」網站分享了由Sora生成的多條視頻。其中一段顯示一對情侶雪中漫步東京城，櫻花、雪花在他們周圍飄揚。另一段視頻顯示，在雪山背景下，造型逼真的長毛象穿過白雪覆蓋的草地。 OpenAI表示，該模型「對語言的深刻理解」讓它能夠準確解釋文本提示。不過，與迄今所有AI圖像和視頻生成器一樣，Sora也並非完美無缺。在一個例子中，提示要求輸入一段視頻，內容是一只達爾馬提亞犬透過窗戶看著「沿著運河街道行走和騎單車的人們」，但生成的視頻中卻完全忽略了人和街道。 OpenAI警告說，該模型在理解因果關係方面可能會有困難——例如，它可以生成一個人吃餅乾的視頻，但餅乾上可能沒有咬痕。 Sora並不是第一個文生視頻模型。Meta、Google和Runway等公司都曾預告或者發布過文字轉視頻的工具。不過，目前還沒有其他工具能生成長達60秒的視頻。 So r a還能一次性生成整個視頻，而不是像其他模型那樣一幀一幀地拼接在一起，這就確保了視頻中的主體即使暫時離開視線也不會改變。文生視頻工具的興起引發了人們的擔憂，因為它們可能更容易製作出逼真的假視頻。 OpenAI表示，正在與錯誤信息、仇恨內容和偏見等領域的專家合作，在向公眾提供該工具之前對其進行測試。該公司也在開發能夠檢測出Sora生成的視頻的工具，並在生成的視頻中加入元數據，以方便識別。公司拒絕透露So r a是如何訓練的，只是說它既使用了「公開視頻」，也使用了版權持有者授權的視頻。 OpenAI新模型Sora 文字生成逼真短片視頻可長達一分鐘暫未向公眾提供 ▍本報訊 ▍ ■OpenAI發布新模型Sora，展示多條由Sora生成的高清視頻，包括這條長達一分鐘的視頻。 OpenAI ■Sora生成視頻中，一對情侶雪中漫步。 OpenAI Op e nA I發布了全新模型 Sora，能根據文字提示生成長達一分鐘的高清視頻。Sora在日語中是「天空」的意思，它不會很快向公眾開放。據Engadget報道，OpenAI將把它提供給一小群學者和研究人員，由他們評估其危害性及被濫用的可能性。開發編程軟件AI功能蘋果正擴大內部測試谷歌剛發布了G e m i n i 1 . 5 Pro，宣稱性能比上一代模型「大幅提升」。事實上，谷歌才發布了 Gemini 1.0 Ultra，並將Bard聊天機器人更名為Gemini，以適應更強大、更多功能的新模型。據Engadge t報道，谷歌執行長皮查伊和谷歌DeepMind執行長哈薩比斯（Demi s Has sabi s）在公告博文中，一方面試圖向受眾保證AI的道德安全，另一方面宣傳新模型的快速進階功能。皮查伊總結說：「我們的團隊以安全為核心，不斷推動最新模型的發展。」谷歌需要向對AI抱有懷疑的批評者和政府監管機構強調安全性，也需要向開發者、潛在客戶和投資人強調其模型正在加速的性能，因為他們擔心谷歌對 OpenAI在ChatGPT上取得的突破性成功反應太慢。皮查伊和哈薩比斯說， Gemini 1.5 Pro的結果與Gemini 1.0 Ultra相當，但執行效率更高，計算要求更低。多模態功能包括處理文本、圖像、視頻、音頻或代碼。隨著AI模型的發展，它們將在一個提示框中繼續提供更多功能。 Gemini 1.5 Pro可以處理多達 100萬個t oken。谷歌表示，該模型可以處理超過70萬個單詞、1小時的視頻、11小時的音頻和超過 3萬行代碼的代碼庫，並透露已經「成功測試」了一個支持多達1000 萬個token的版本。谷歌稱，該模型在「大海撈針」實驗評估中表現出色。谷歌表示，在測試中，Gemini 1.5 Pro 能在99%的情況下在長達100萬個 token的數據塊中找到測試者嵌入的文本。谷歌稱，Gemini 1.5 Pro可以推理402頁長的阿波羅11號登月任務紀錄中的各種細節，能分析上傳的的44分鐘無聲電影中的情節點和事件。哈薩比斯寫道：「由於 1.5 Pro的長上下文窗口在大規模模型中尚屬首次，我們正在不斷開發新的評估和基準，以測試其新穎的功能。」谷歌現在發布的Gemi n i 1 . 5 P r o可處理1 2 . 8萬個 t o k e n，與 OpenAI公開宣布的GPT-4模型的最大值相同。哈薩比斯說，谷歌最終將推出新的定價層級，支持多達100萬個token的查詢。 Gemini 1.5 Pro還善於從長提示信息中學習新技能，無需額外的「上下文學習」微調。在一項名為「從一本書開始的機器翻譯」的基準測試中，該模型從零開始學會了卡拉芒語(Ka l amang )的語法手冊。谷歌稱，Gemini 1.5 Pro在將英語翻譯成卡拉芒語時的學習表現與人類表現相近。谷歌正在面向開發者和企業客戶推出Gemini 1.5早期體驗版。 Gemini 1.0目前面向消費者推出，同時還有月費20元的Pro版。本報訊蘋果公司據報已擴大對編程軟件Xcode新增生成式AI功能的內部測試，並計劃今年向第三方開發者發布這些功能。據彭博新聞報道，蘋果還研究了生成式AI在消費者產品中的潛在用途，如Apple Music中的創建自動播放列表、Keynote中的幻燈片和 Spotlight搜索中類似AI聊天機器人的搜索功能。 The Ve r g e報道，搜索升級讓 i O S和m a c O S用戶可像使用 ChatGPT一樣用自然語言提出請求，來獲取天氣預報或操作應用中的深層功能。雖然其他科技巨頭在AI研發方面表現更突出，但過去幾個月，蘋果發布了名為MLX的開源機器學習框架，便於在蘋果矽晶片上訓練 AI模型；還發布了文生圖編輯AI模型MGIE，以及名為Keyframer的AI 動畫製作工具。與微軟的 Gi tHub Cop i l ot 和亞馬遜的 CodeWhisperer類似，蘋果正在開發的編程工具，使用大型語言模型來預測和完成代碼串，並有可能編寫代碼來測試應用程式。微軟執行長納德拉（Satya Nadel la）告訴分析師，截至2023年11月，GitHub Copilot的付費用戶已達100萬。自推出以來，Copi lot增加了更多功能，包括可聊天實時指導編程人員和指出潛在代碼錯誤。微軟表示，將在5月舉行的 Build 2024大會上為開發者提供更多有關Copi lot和AI的消息，而蘋果可能會在今年晚些時候的年度 WWDC大會上宣布更多有關其AI 計劃的消息。與谷歌和微軟的同行相比，蘋果執行長庫克（Tim Cook）對AI的表態一直比較保守，但他在本月的投資者電話會議上證實，今年將推出更多的生成式AI功能。知情人士告訴彭博社，高管們在去年年底向蘋果董事會展示了 Xcode的許多AI功能。本報訊 ■谷歌發布Gemini 1.5 Pro。谷歌 ■據報蘋果準備為編程軟件Xcode增添生成式AI功能，正擴大進行內部測試。蘋果谷歌聊天機器人Gemini換代性能大提升

Made with FlippingBook

RkJQdWJsaXNoZXIy MTIyMjc2OQ==