C6 02.10.2025 星期一 矽谷科技 據《福布斯》(Forbes)報道,OmniHuman-1 項目頁面稱:「OmniHuman明顯超越 現有方法,能夠基於微弱的訊號輸入,尤 其是音訊,來生成極為逼真的人像影片」。 OmniHuman「支援任何長寬比的圖像輸入, 不管是人像、半身或全身圖像,都可以在各 種場景中提供更逼真又高品質的結果」。有關 OmniHuman的研究論文日前在論文預印本網 站arXiv刊登。 模型尚未對外公開,但在OmniHuman-1 項目頁面上,研究員分享了顯示這工具能力 的示範短片,展示了從多個角度看到的手部 和身體動作、動畫人物、動物和栩栩如生被 還原的歷史人物。 在一部清晰的黑白片中,愛因斯坦在一 塊黑板前說話,用手勢和微妙的面部表情強 調他的話,儼如回到過去看著這位著名理論 學家進行大學演講。 字節跳動團隊利用1萬8700多個小時的真 人影片數據訓練OmniHuman,當中結合文 字、音訊和身體姿勢等不同類型的輸入,但 該公司未回應訓練數據的具體內容。 南加州大學傳播系臨床助理教授納格爾 (Freddy Tran Nager)看完示範影片後形容, 這些影片在一個小螢幕上的效果「非常令人深 刻」。 《福布斯》指出,這工具使字節跳動和 TikTok在激烈競爭的AI競賽中佔據一席之 地,創造出最優質且最逼真的影片。 納格爾表示,可以預期像OmniHuman這 類系統,將用於教育環境,讓師生使用。又 指由於OmniHuman與TikTok的關係,可以想 象會有內容創作者會用它製作虛擬版本的自 己,讓自己休息一下。 新興技術行銷顧問公司P i t c h FWD創 辦人沃爾夫(Samantha G. Wo l f e)也看到 OmniHuman等工具的前景和潛在危險,「從 科技角度來看,僅憑一張圖片就能創造出一 些東西看起來真的會說話和會動確實令人著 迷,但也可能有負面後果」,例如佯裝商業或 政治領袖說出非準確的話可能對企業以至國 家產生巨大影響。 OmniHuman憑一張照片生成逼真影片 TikTok母公司字節跳動最新AI模型 ChatGPT搜尋引擎 無需登入即可使用 ▍本報訊 ▍ 谷歌已開放Gemini 2.0人工智能模型系列 給所有人使用。 CNBC報道指出,谷歌12月曾讓開發人 員和可信賴的測試人員使用,並將部分功能 整合到谷歌產品中。 如今供所有人使用的模型包括2.0 Flash, 被稱為「主力模型,最適合用於大規模的高流 量、高頻率任務」、編程效能強大的2.0 Pro Experimental,以及谷歌稱之為「目前最具成 本效益的模型」的2.0 Flash-Lite。 Gemini Flash在文字、圖像和視頻輸入方 面的成本為每百萬個token(模型處理的每個 獨立資料單位)10仙,而更經濟實惠的版本 Flash-Lite則為0.75仙。 隨著科技巨頭與新創公司之間的AI軍備 競賽白熱化,此次發佈是谷歌大量投資於AI 代理的更廣泛策略的一部分。 M e t a 、亞馬遜、微軟、O p e n A I 和 Anthropic也正朝著AI代理的方向邁進,這些 模型能代表使用者完成複雜多步驟任務,不 需要使用者陪著完成每個步驟。 「過去一年,我們一直在投資開發更多 的代理模型,這意味著它們可以更多地了解 你周圍的世界,提前多步思考,並在你的監 督下代表你採取行動」,谷歌12月一篇博文 寫道,Gemini 2.0在「多模態方面,比如原生 圖像和音頻輸出,以及原生工具的使用方面 有了新的進展」,該模型系列「將使我們能夠 建立新的AI代理,從而更接近通用助理的願 景。」 亞馬遜支持的AI創業公司Anthropic,由 前OpenAI研究主管創立。今年10月,該公司 稱其AI代理能像人類一樣使用電腦來完成複 雜的任務。 該公司表示,Anthropic的電腦使用能力 可解讀電腦屏幕上的內容、選擇按鈕、輸入 文字、瀏覽網站,並透過任何軟件和即時網 路瀏覽執行任務。 O p e n A I 最 近 發 佈 了 類 似 的 功 能 Operator,可自動執行規劃假期、填寫表 格、預訂餐廳和訂購雜貨等任務。該公司將 Operator描述為「一個可以到網路上為你執行 任務的代理」。 日 前 , O p e n A I 剛 又 推 出 了 D e e p Research,可讓AI代理編寫複雜的研究報告, 分析用戶選擇的問題和主題。谷歌12月推出 了同名的類似工具Deep Research,可扮演「研 究助理的角色,為你探索複雜的主題並編寫 報告」。 本報訊 OpenAI宣布,不再需要登入ChatGPT帳 號,即可使用ChatGPT的搜尋引擎功能。這 項功能使ChatGPT根據網絡上的資訊顯示答 案,同時提供答案的來源列表。 OpenAI去年10月首次向付費ChatGPT 用戶提供搜尋引擎,並於12月向所有用戶推 出。但現在,你不再需要建立帳戶即可使用 它。ChatGPT搜尋將直接與谷歌和Bing等搜 尋引擎一較高下。 另外,A「I 回答」引擎Perplexity,也允許 人們毋須建立帳戶就可搜尋網頁,並且最近 推出了一項整合功能,可直接從TripAdvisor 獲取飯店資訊和評分。 最近對ChatGPT搜尋功能的更新,使其 看起來更像傳統的搜尋引擎,讓人可以查看 地方景點的地圖和圖像,並附上每個結果的 簡短描述。 本報訊 據路透社報道,亞馬遜可能正準備推出 下一代人工智能(AI)驅動的Alexa體驗。 報道指出,亞馬遜計劃在2月26日舉行 的活動中,預覽升級版的Alexa。 這款智能家居助理目前在許多亞馬遜原 廠和第三方裝置上運行。升級後的Alexa, 據說能夠回應連串指令,有別於目前的版 本,通常一次只能處理一個請求。 報道續稱,新版Al exa最初將免費提 供給有限數量的用戶,但亞馬遜其實一直 在考慮收取每月5至10元的費用。無論哪 種情況,該公司據報都將繼續提供「經典 Alexa」,即目前相當普及的Alexa版本。 據悉,亞馬遜的新版Alexa在開發過程 面臨不少挑戰,曾經在正確設置計時器時發 生困難。 本報訊 ■OmniHuman憑照片生成一段愛因斯坦說話的影片。 OmniHuman AI驅動新版Alexa 亞馬遜擬快將推出 ■亞馬遜準備推出下一代AI驅動的Alexa。 亞馬遜 ■ChatGPT 搜 尋 引 擎 不 需 要 登 入 帳 戶 就 可 使 用 。 OpenA I此 舉相當於直 接與谷歌和 Bing等搜尋 引擎一較高 下。 OpenAI TikTok母公司字節跳動(ByteDance)展示最新人工智能模型OmniHuman,單憑 一張照片就能生成栩栩如生的影片,顯示相片中人說話、做手勢、唱歌和演奏樂器。 谷歌最強AI模型供所有人使用 ■谷歌開放Gemini 2.0給所有人使用。 谷歌
RkJQdWJsaXNoZXIy ODc1MTYz