02_10_2024星島日報（紐約大都會版）

C6 02.10.2025 星期一矽谷科技據《福布斯》（Forbes）報道，OmniHuman-1 項目頁面稱：「OmniHuman明顯超越現有方法，能夠基於微弱的訊號輸入，尤其是音訊，來生成極為逼真的人像影片」。 OmniHuman「支援任何長寬比的圖像輸入，不管是人像、半身或全身圖像，都可以在各種場景中提供更逼真又高品質的結果」。有關 OmniHuman的研究論文日前在論文預印本網站arXiv刊登。模型尚未對外公開，但在OmniHuman-1 項目頁面上，研究員分享了顯示這工具能力的示範短片，展示了從多個角度看到的手部和身體動作、動畫人物、動物和栩栩如生被還原的歷史人物。在一部清晰的黑白片中，愛因斯坦在一塊黑板前說話，用手勢和微妙的面部表情強調他的話，儼如回到過去看著這位著名理論學家進行大學演講。字節跳動團隊利用1萬8700多個小時的真人影片數據訓練OmniHuman，當中結合文字、音訊和身體姿勢等不同類型的輸入，但該公司未回應訓練數據的具體內容。南加州大學傳播系臨床助理教授納格爾（Freddy Tran Nager）看完示範影片後形容，這些影片在一個小螢幕上的效果「非常令人深刻」。《福布斯》指出，這工具使字節跳動和 TikTok在激烈競爭的AI競賽中佔據一席之地，創造出最優質且最逼真的影片。納格爾表示，可以預期像OmniHuman這類系統，將用於教育環境，讓師生使用。又指由於OmniHuman與TikTok的關係，可以想象會有內容創作者會用它製作虛擬版本的自己，讓自己休息一下。新興技術行銷顧問公司P i t c h FWD創辦人沃爾夫（Samantha G. Wo l f e）也看到 OmniHuman等工具的前景和潛在危險，「從科技角度來看，僅憑一張圖片就能創造出一些東西看起來真的會說話和會動確實令人著迷，但也可能有負面後果」，例如佯裝商業或政治領袖說出非準確的話可能對企業以至國家產生巨大影響。 OmniHuman憑一張照片生成逼真影片 TikTok母公司字節跳動最新AI模型 ChatGPT搜尋引擎無需登入即可使用 ▍本報訊 ▍ 谷歌已開放Gemini 2.0人工智能模型系列給所有人使用。 CNBC報道指出，谷歌12月曾讓開發人員和可信賴的測試人員使用，並將部分功能整合到谷歌產品中。如今供所有人使用的模型包括2.0 Flash，被稱為「主力模型，最適合用於大規模的高流量、高頻率任務」、編程效能強大的2.0 Pro Experimental，以及谷歌稱之為「目前最具成本效益的模型」的2.0 Flash-Lite。 Gemini Flash在文字、圖像和視頻輸入方面的成本為每百萬個token（模型處理的每個獨立資料單位）10仙，而更經濟實惠的版本 Flash-Lite則為0.75仙。隨著科技巨頭與新創公司之間的AI軍備競賽白熱化，此次發佈是谷歌大量投資於AI 代理的更廣泛策略的一部分。 M e t a 、亞馬遜、微軟、O p e n A I 和 Anthropic也正朝著AI代理的方向邁進，這些模型能代表使用者完成複雜多步驟任務，不需要使用者陪著完成每個步驟。「過去一年，我們一直在投資開發更多的代理模型，這意味著它們可以更多地了解你周圍的世界，提前多步思考，並在你的監督下代表你採取行動」，谷歌12月一篇博文寫道，Gemini 2.0在「多模態方面，比如原生圖像和音頻輸出，以及原生工具的使用方面有了新的進展」，該模型系列「將使我們能夠建立新的AI代理，從而更接近通用助理的願景。」亞馬遜支持的AI創業公司Anthropic，由前OpenAI研究主管創立。今年10月，該公司稱其AI代理能像人類一樣使用電腦來完成複雜的任務。該公司表示，Anthropic的電腦使用能力可解讀電腦屏幕上的內容、選擇按鈕、輸入文字、瀏覽網站，並透過任何軟件和即時網路瀏覽執行任務。 O p e n A I 最近發佈了類似的功能 Operator，可自動執行規劃假期、填寫表格、預訂餐廳和訂購雜貨等任務。該公司將 Operator描述為「一個可以到網路上為你執行任務的代理」。日前， O p e n A I 剛又推出了 D e e p Research，可讓AI代理編寫複雜的研究報告，分析用戶選擇的問題和主題。谷歌12月推出了同名的類似工具Deep Research，可扮演「研究助理的角色，為你探索複雜的主題並編寫報告」。本報訊 OpenAI宣布，不再需要登入ChatGPT帳號，即可使用ChatGPT的搜尋引擎功能。這項功能使ChatGPT根據網絡上的資訊顯示答案，同時提供答案的來源列表。 OpenAI去年10月首次向付費ChatGPT 用戶提供搜尋引擎，並於12月向所有用戶推出。但現在，你不再需要建立帳戶即可使用它。ChatGPT搜尋將直接與谷歌和Bing等搜尋引擎一較高下。另外，A「I 回答」引擎Perplexity，也允許人們毋須建立帳戶就可搜尋網頁，並且最近推出了一項整合功能，可直接從TripAdvisor 獲取飯店資訊和評分。最近對ChatGPT搜尋功能的更新，使其看起來更像傳統的搜尋引擎，讓人可以查看地方景點的地圖和圖像，並附上每個結果的簡短描述。本報訊據路透社報道，亞馬遜可能正準備推出下一代人工智能（AI）驅動的Alexa體驗。報道指出，亞馬遜計劃在2月26日舉行的活動中，預覽升級版的Alexa。這款智能家居助理目前在許多亞馬遜原廠和第三方裝置上運行。升級後的Alexa，據說能夠回應連串指令，有別於目前的版本，通常一次只能處理一個請求。報道續稱，新版Al exa最初將免費提供給有限數量的用戶，但亞馬遜其實一直在考慮收取每月5至10元的費用。無論哪種情況，該公司據報都將繼續提供「經典 Alexa」，即目前相當普及的Alexa版本。據悉，亞馬遜的新版Alexa在開發過程面臨不少挑戰，曾經在正確設置計時器時發生困難。本報訊 ■OmniHuman憑照片生成一段愛因斯坦說話的影片。 OmniHuman AI驅動新版Alexa 亞馬遜擬快將推出 ■亞馬遜準備推出下一代AI驅動的Alexa。亞馬遜 ■ChatGPT 搜尋引擎不需要登入帳戶就可使用。 OpenA I此舉相當於直接與谷歌和 Bing等搜尋引擎一較高下。 OpenAI TikTok母公司字節跳動（ByteDance）展示最新人工智能模型OmniHuman，單憑一張照片就能生成栩栩如生的影片，顯示相片中人說話、做手勢、唱歌和演奏樂器。谷歌最強AI模型供所有人使用 ■谷歌開放Gemini 2.0給所有人使用。谷歌

Made with FlippingBook

RkJQdWJsaXNoZXIy ODc1MTYz