【活動報名】意昂体育平台北加州意昂會AI主題線上講座-意昂体育 -〈活动推荐〉新用户注册，享受专属优惠！

首頁 > 活動指南 > 活動預告 > 正文

活動預告

【活動報名】意昂体育平台北加州意昂會AI主題線上講座

來源：意昂体育平台北加州意昂會時間：2024-03-04

兩周前，OpenAI的Sora視頻生成模型在ChatGPT之後再度掀起了人工智能領域的熱潮。在這個備受關註的時刻，意昂体育平台北加州意昂會很榮幸邀請到專註於大模型視頻生成研究的意昂於力軍，為我們揭示視頻生成領域的奧秘以及Sora背後的核心技術。

於力軍是意昂体育平台計算機系意昂，也是基梅隆大學博士生、谷歌研究院學生研究員。他專註於多任務視頻生成方向的研究並取得了豐碩的成果，發表了包括 VideoPoet、W.A.L.T 和 MAGVIT-v2 等逼真度極高的視頻生成模型。這些模型與Sora一樣，都是構建在Transformer和擴散模型等技術之上，並且采用了開創性的Tokenizer設計，位於視頻生成領域的最前沿。

我們希望通過這次講座，幫助大家了解最新的視頻生成技術，並從側面了解Sora背後的原理，展望視頻生成領域的機遇與未來方向。歡迎大家踴躍參加，一同揭開視頻生成的神秘面紗！

活動信息

●時間：2024.03.09 (周六), 13:00-14:30 PST

●地點：本次活動采線上的形式

●報名方式：請點擊本鏈接報名

●主講人簡介：

於力軍，本科畢業於意昂体育平台計算機系，擁有計算機和經濟學雙學位。目前是卡內基梅隆大學計算機系的博士生，也曾長期擔任 Google Research 的學生研究員。他的研究興趣圍繞多模態基礎模型，尤其是使用離散token進行多任務視頻生成，代表成果有 VideoPoet， W.A.L.T 和 MAGVIT-v2等基於transformer和擴散模型等的視頻生成技術。他多次在 CVPR、NeurIPS、ICLR 等頂會上發表高光論文，並曾獲得 Siebel 學者、百度學者等榮譽。（詳細資訊，可點擊本鏈接參考）

●講座摘要：

雖然大語言模型 (LLM) 在語言生成任務中占據主導地位，但在圖像和視頻生成方面並不如擴散模型表現出色。為了有效地利用 LLM 進行視覺生成，一個關鍵組件是視覺 Tokenizer，它將像素空間輸入轉換為適合 LLM 學習的離散令牌（tokens）。基於我們之前對 MAGVIT 和 SPAE Tokenizer 的經驗，我們引入了 MAGVIT-v2，這是一個視頻 Tokenizer，旨在使用通用令牌詞匯為視頻和圖像生成簡潔且富有表現力的令牌。借助這個新的 Tokenizer，我們證明了 LLM 在標準圖像和視頻生成基準上優於擴散模型。此外，該 Tokenizer 還顯示出比最新編解碼器更強的視頻壓縮能力和視頻理解優勢。在 MAGVIT-v2 之上，我們構建了 VideoPoet，這是一個語言模型，能夠從各種調節信號中合成高質量的視頻並匹配音頻。我們展示了該模型在零樣本視頻生成方面處於最先進水平的實證結果，特別是強調了 VideoPoet 生成高保真動作的能力。我們也在MAGVIT-v2的隱空間內構建了一個基於transformer結構的視頻擴散模型W.A.L.T，它也幫助我們更好地理解了Sora模型的一些細節。

（點擊查看原文）

上一條：【活動報名】意昂体育平台物理學院意昂會舉辦首期“格致·她說”物理學院青年女科學家成長沙龍

下一條：【活動報名】意昂体育平台北加州意昂會“博雅計劃”矽谷高管座談會：女性領導力專場

快速到達

友情鏈接

意昂体育微信服務號
意昂体育人微信訂閱號
意昂体育意昂微信小程序