02_22_2024星島日報(紐約大都會版)

B9 02.22.2024 星期四 矽谷科技 該公司在網站上表示:「Sora能 夠生成包含多個角色、特定 動作類型以及主體和背景細節準確 的複雜場景。該模型不僅能理解用 戶在提示中提出的要求,還能理解 這些東西在現實世界中是如何存在 的。」 網站分享了由Sora生成的多條 視頻。其中一段顯示一對情侶雪中 漫步東京城,櫻花、雪花在他們周 圍飄揚。另一段視頻顯示,在雪山 背景下,造型逼真的長毛象穿過白 雪覆蓋的草地。 OpenAI表示,該模型「對語言 的深刻理解」讓它能夠準確解釋文 本提示。不過,與迄今所有AI圖像 和視頻生成器一樣,Sora也並非完 美無缺。 在一個例子中,提示要求輸入 一段視頻,內容是一只達爾馬提 亞犬透過窗戶看著「沿著運河街道 行走和騎單車的人們」,但生成的 視頻中卻完全忽略了人和街道。 OpenAI警告說,該模型在理解因果 關係方面可能會有困難——例如, 它可以生成一個人吃餅乾的視頻, 但餅乾上可能沒有咬痕。 Sora並不是第一個文生視頻模 型。Meta、Google和Runway等公司 都曾預告或者發布過文字轉視頻的 工具。不過,目前還沒有其他工具 能生成長達60秒的視頻。 So r a還能一次性生成整個視 頻,而不是像其他模型那樣一幀一 幀地拼接在一起,這就確保了視頻 中的主體即使暫時離開視線也不會 改變。 文生視頻工具的興起引發了人 們的擔憂,因為它們可能更容易製 作出逼真的假視頻。 OpenAI表示,正在與錯誤信 息、仇恨內容和偏見等領域的專家 合作,在向公眾提供該工具之前對 其進行測試。該公司也在開發能夠 檢測出Sora生成的視頻的工具,並 在生成的視頻中加入元數據,以方 便識別。 公司拒絕透露So r a是如何訓 練的,只是說它既使用了「公開視 頻」,也使用了版權持有者授權的 視頻。 OpenAI新模型Sora 文字生成逼真短片 視頻可長達一分鐘 暫未向公眾提供 ▍本報訊 ▍ ■OpenAI發布新模型Sora,展示多條由Sora生成的高清視頻,包括這條長 達一分鐘的視頻。 OpenAI ■Sora生成視頻中,一對情侶雪中漫步。 OpenAI Op e nA I發布了全新模型 Sora,能根據文字提示生成長達 一分鐘的高清視頻。Sora在日 語中是「天空」的意思,它不會很 快向公眾開放。據Engadget報 道,OpenAI將把它提供給一小 群學者和研究人員,由他們評估 其危害性及被濫用的可能性。 開發編程軟件AI功能 蘋果正擴大內部測試 谷歌剛發布了G e m i n i 1 . 5 Pro,宣稱性能比上一代模型「大 幅提升」。 事 實 上 , 谷 歌 才 發 布 了 Gemini 1.0 Ultra,並將Bard聊天 機器人更名為Gemini,以適應更 強大、更多功能的新模型。 據Engadge t報道,谷歌執行 長皮查伊和谷歌DeepMind執行長 哈薩比斯(Demi s Has sabi s)在公 告博文中,一方面試圖向受眾保 證AI的道德安全,另一方面宣傳 新模型的快速進階功能。皮查伊 總結說:「我們的團隊以安全為核 心,不斷推動最新模型的發展。」 谷歌需要向對AI抱有懷疑的 批評者和政府監管機構強調安全 性,也需要向開發者、潛在客 戶和投資人強調其模型正在加 速的性能,因為他們擔心谷歌對 OpenAI在ChatGPT上取得的突破 性成功反應太慢。 皮 查 伊 和 哈 薩 比 斯 說 , Gemini 1.5 Pro的結果與Gemini 1.0 Ultra相當,但執行效率更高, 計算要求更低。多模態功能包括 處理文本、圖像、視頻、音頻或 代碼。隨著AI模型的發展,它們 將在一個提示框中繼續提供更多 功能。 Gemini 1.5 Pro可以處理多達 100萬個t oken。谷歌表示,該模 型可以處理超過70萬個單詞、1小 時的視頻、11小時的音頻和超過 3萬行代碼的代碼庫,並透露已經 「成功測試」了一個支持多達1000 萬個token的版本。 谷歌稱,該模型在「大海撈 針」實驗評估中表現出色。谷歌表 示,在測試中,Gemini 1.5 Pro 能在99%的情況下在長達100萬個 token的數據塊中找到測試者嵌入 的文本。 谷歌稱,Gemini 1.5 Pro可以 推理402頁長的阿波羅11號登月任 務紀錄中的各種細節,能分析上 傳的的44分鐘無聲電影中的情節 點和事件。哈薩比斯寫道:「由於 1.5 Pro的長上下文窗口在大規模 模型中尚屬首次,我們正在不斷 開發新的評估和基準,以測試其 新穎的功能。」 谷歌現在發布的Gemi n i 1 . 5 P r o可處理1 2 . 8萬個 t o k e n,與 OpenAI公開宣布的GPT-4模型的 最大值相同。哈薩比斯說,谷歌 最終將推出新的定價層級,支持 多達100萬個token的查詢。 Gemini 1.5 Pro還善於從長提 示信息中學習新技能,無需額外 的「上下文學習」微調。在一項名 為「從一本書開始的機器翻譯」的 基準測試中,該模型從零開始學 會了卡拉芒語(Ka l amang )的語法 手冊。 谷歌稱,Gemini 1.5 Pro在將 英語翻譯成卡拉芒語時的學習表 現與人類表現相近。 谷歌正在面向開發者和企業 客戶推出Gemini 1.5早期體驗版。 Gemini 1.0目前面向消費者推出, 同時還有月費20元的Pro版。 本報訊 蘋果公司據報已擴大對編程軟 件Xcode新增生成式AI功能的內部 測試,並計劃今年向第三方開發者 發布這些功能。 據彭博新聞報道,蘋果還研究 了生成式AI在消費者產品中的潛在 用途,如Apple Music中的創建自動 播放列表、Keynote中的幻燈片和 Spotlight搜索中類似AI聊天機器人 的搜索功能。 The Ve r g e報道,搜索升級 讓 i O S和m a c O S用戶可像使用 ChatGPT一樣用自然語言提出請 求,來獲取天氣預報或操作應用中 的深層功能。 雖然其他科技巨頭在AI研發方 面表現更突出,但過去幾個月,蘋 果發布了名為MLX的開源機器學 習框架,便於在蘋果矽晶片上訓練 AI模型;還發布了文生圖編輯AI模 型MGIE,以及名 為Keyframer的AI 動畫製作工具。 與 微 軟 的 Gi tHub Cop i l ot 和 亞 馬 遜 的 CodeWhisperer類 似,蘋果正在開 發的編程工具, 使用大型語言模 型來預測和完成 代碼串,並有可 能編寫代碼來測 試應用程式。 微 軟 執 行 長納德拉(Satya Nadel la)告訴分 析師,截至2023年11月,GitHub Copilot的付費用戶已達100萬。自 推出以來,Copi lot增加了更多功 能,包括可聊天實時指導編程人員 和指出潛在代碼錯誤。 微軟表示,將在5月舉行的 Build 2024大會上為開發者提供更 多有關Copi lot和AI的消息,而蘋 果可能會在今年晚些時候的年度 WWDC大會上宣布更多有關其AI 計劃的消息。 與谷歌和微軟的同行相比,蘋 果執行長庫克(Tim Cook)對AI的表 態一直比較保守,但他在本月的投 資者電話會議上證實,今年將推出 更多的生成式AI功能。 知情人士告訴彭博社,高管們 在去年年底向蘋果董事會展示了 Xcode的許多AI功能。 本報訊 ■谷歌發布Gemini 1.5 Pro。 谷歌 ■據報蘋果準備為編程軟件Xcode增添生成式AI功能, 正擴大進行內部測試。 蘋果 谷歌聊天機器人Gemini換代 性能大提升

RkJQdWJsaXNoZXIy MTIyMjc2OQ==