家用電子
返回首頁

Knight Rider采用GAN模型:AI 和 NVIDIA Omniverse為 KITT 帶來活力

2021-04-23 來源:EEWORLD

Knight Rider采用GAN模型:AI 和 NVIDIA Omniverse為 KITT 帶來活力


NVIDIA 研究院的最新模型基于 GAN,將 2D 圖像轉化為3D,面向游戲開發者、藝術家、設計師和建筑師

 image.png


NVIDIA 研究院正在研發一種全新深度學習引擎,該引擎可以根據標準的 2D 圖像來創建 3D模型,并可以在NVIDIA Omniverse中,為諸如由Knight Rider 的 AI 驅動的 KITT 等標志性汽車帶來活力。


由多倫多的 NVIDIA AI 研究實驗室開發的 GANverse3D 應用將平面圖像放大成逼真的 3D 模型,可以在虛擬環境中可視化和控制。這種性能可以幫助建筑師、創作者、游戲開發人員和設計師輕松地將新對象添加到他們的實體模型中,而不需要 3D 建模方面的專業知識,也不需要在渲染上花費大量預算。


例如,單張汽車照片可以轉換為3D模型,該模型可以在虛擬場景中行駛,并配有逼真的前燈、尾燈和轉向燈。


為了生成訓練數據集,研究人員利用生成性對抗網絡 ——GAN合成圖像,從多個角度描繪同一物體 — 就像攝影師繞著一輛停著的汽車走動,從不同的角度拍攝。這些多視圖圖像被插入到逆圖形的渲染框架中,逆圖形是從 2D 圖像推斷 3D 網格模型的過程。


一旦完成了多視圖圖像訓練,GANverse3D 只需要一個 2D 圖像即可預測 3D 網格模型。該模型可以與 3D 神經渲染器一起使用,使開發人員能夠自定義對象和交換背景。


當作為NVIDIA Omniverse平臺的擴展導入并在NVIDIA RTX GPU上運行時,GANverse3D 可將任何 2D 圖像重建為 3D,就像流行的 20 世紀 80 年代Knight Rider電視節目中備受喜愛的打擊犯罪的汽車 KITT 一樣。


以前的逆圖形模型依賴于 3D 圖形作為訓練數據。


相反,在沒有 3D 要素的幫助下,“我們把 GAN 模型變成了一個非常高效的數據生成器,這樣我們就可以基于網絡上的任何 2D 圖像創建出 3D 對象。”NVIDIA 的研究科學家、該項目的主要作者Wenzheng Chen 說。


“因為我們是根據真實圖像而不是合成數據進行訓練的,所以 AI 模型能更好地推廣到現實世界的應用中。”該項目的作者、NVIDIA 研究員 Jun Gao 表示。


GANverse3D 背后的研究將在兩個即將召開的會議上發表:5 月份的ICLR和 6 月份的CVPR。


從爆胎到賽車 KITT


游戲、架構和設計領域的創作者依賴于虛擬環境,例如 NVIDIA Omniverse 模擬和協作平臺,在創建最終產品之前測試新的想法并可視化原型。借助Omniverse Connectors,開發人員可以在 Omniverse 中使用他們首選的 3D 應用程序,通過實時光線跟蹤來模擬復雜的虛擬世界。


但并不是每個創作者都有時間和資源為他們所繪制的每一個對象創建 3D 模型。若要渲染展廳的汽車,或一條街的建筑,需捕獲所需數量的多視圖圖像,成本可能高得令人望而卻步。


在這方面,訓練好的 GANverse3D 應用可以用來將汽車、建筑甚至一匹馬的標準圖像轉換成可以在 Omniverse 中自定義和制作動畫的 3D 圖形。


為了重建 KITT,研究人員只需給訓練好的模型輸入汽車的圖像,讓 GANverse3D 預測相應的 3D 紋理網格,以及車輛的不同部分,例如車輪和前照燈。然后,他們使用NVIDIA Omniverse 套件和NVIDIA PhysX工具將預測的紋理轉換成高質量的材料,使 KITT 具有更真實的外觀和感覺,并將其與其他汽車一起放置在動態駕駛序列中。


“Omniverse 讓研究人員能夠將激動人心的前沿研究直接帶給創作者和最終用戶。”NVIDIA深度學習工程師 Jean-Francois Lafleche說道。“作為 Omniverse 的擴展,GANverse3D 將幫助藝術家為游戲開發、城市規劃甚至訓練新的機器學習模型創建更豐富的虛擬世界。”


GAN 推動維度轉變


因為從不同角度捕捉同一物體的真實數據集很少,所以大多數將圖像從 2D 轉換為 3D 的 AI 工具都是使用像ShapeNet這樣的合成 3D 數據集進行訓練的。


為了從現實世界的數據中獲得多視圖圖像,例如網上公開的汽車圖像,NVIDIA 研究人員轉而使用GAN 模型,修改其神經網絡層,將其轉化為數據生成器。


該團隊發現,僅訓練神經網絡的前4層,凍結剩余的 12 層參數,可以讓 GAN 從不同的角度渲染同一對象的圖像。


保持前4層參數凍結,其他 12 層可變,可以讓神經網絡基于同一角度生成不同的圖像。通過手動分配標準角度,在特定高度和距離拍攝車輛照片,研究人員可以從單個 2D 圖像快速生成多視圖數據集。


最終的模型,在 55000 張由 GAN 生成的汽車圖像上訓練而得,優于在流行的 Pascal3D 數據集上訓練的逆圖形網絡。


請閱讀由Wenzheng Chen、NVIDIA 研究員 Jun Gao 和 Huan Ling、NVIDIA 多倫多研究室主任Sanja Fidler、滑鐵盧大學學生Yuxuan Zhang、斯坦福大學學生 Yinan Zhang 和 MIT 教授 Antonio Torralba 撰寫的ICLR 論文全文。CVPR 論文的其他合作者包括 Jean-Francois Lafleche、NVIDIA 研究員Kangxue Yin 和 Adela Barriuso。


NVIDIA 研究團隊在全球擁有超過 200 名科學家,專注于人工智能、計算機視覺、自動駕駛汽車、機器人和圖形等領域。GTC上,NVIDIA 首席執行官黃仁勛發表主題演講,讓大家了解更多關于NVIDIA的最新研究和行業突破。


進入家用電子查看更多內容>>
相關視頻
  • 消費電子應用及設計研討會

  • STB(機頂盒)和 OTT (流媒體播放器)應用技術詳解

  • TI 針對語音識別應用的嵌入式處理器解決方案

  • TI 手持吸塵器系統方案與設計

  • 人臉識別市場的最新應用

  • Fairchild USB Type-C 技術及產品演示

    相關電子頭條文章
萝卜大香蕉