今日視點:單卡 30 秒跑出虛擬 3D 老婆!Text to 3D 生成看清毛孔細節(jié)的高精度數(shù)字人,無縫銜接 Maya、Unity 等制作工具

2023-05-09 15:19:07來源:量子位

ChatGPT 給 AI 行業(yè)注入一劑雞血,一切曾經(jīng)的不敢想,都成為如今的基操。

正持續(xù)進擊的Text-to-3D,就被視為繼 Diffusion(圖像)和 GPT(文字)后,AIGC 領域的下一個前沿熱點,得到了前所未有的關注度。

這不,一款名為 ChatAvatar 的產(chǎn)品低調(diào)公測,火速收攬超 70 萬瀏覽與關注,并登上抱抱臉周熱門(Spaces of the week)。


(資料圖片僅供參考)

ChatAvatar 也將支持從 AI 生成的單視角 / 多視角原畫生成 3D 風格化角色的 Image to 3D 技術,受到了廣泛關注

有夠酷的,感覺能很便捷地生成自己的數(shù)字孿生了。

由此吸引不少網(wǎng)友紛紛試用并貢獻腦洞。有人拿這款產(chǎn)品和 ControlNet 結(jié)合,發(fā)現(xiàn)效果細膩寫實到有些出乎意料。這款使用起來幾乎零門檻的 Text-to-3D 工具名叫ChatAvatar,由國內(nèi) AI 初創(chuàng)公司影眸科技團隊打造。

據(jù)了解,這是全球首款 Production-Ready 的 Text to 3D 產(chǎn)品,通過簡單的文本,例如一個明星的名字、或是某個想要的人物長相,就能生成影視級的 3D 超寫實數(shù)字人資產(chǎn)。

效率也非常高,平均僅需 30 秒,就能做出一張以假亂真的臉——甚至是你自己的。

未來,生成領域還將拓展到其他三維資產(chǎn)。

并且該模型帶有規(guī)整的拓撲、帶有 4k 分辨率的 PBR 材質(zhì),同時帶有綁定,可以直接接入 Unity、Unreal Engine 和 Maya 等制作引擎的生產(chǎn)管線中。

所以,ChatAvatar 到底是怎樣一個 3D 生成工具?背后究竟用到了什么技術?

30 秒完成一次 " 畫皮 "

親身體驗 ChatAvatar 的玩法發(fā)現(xiàn),可以說是真 · 零門檻。

具體而言,只需以對話的形式,在官網(wǎng)上用大白話向 ChatBot 描述自己的需求,就能按需生成 3D 人臉,并覆蓋一張貼合模型的真實 " 人皮 "。

對話全流程里,根據(jù)用戶需求,ChatBot 會進行引導,盡可能細節(jié)地了解用戶對所需模型的想法。

體驗過程中,我們向 ChatBot 描述了這樣一個想要生成的 3D 形象:點擊左側(cè)的 Generate 按鈕,平均 10s 不到,屏幕上就出現(xiàn)根據(jù)描述生成的 9 種不同 3D 人臉的初始雛形。

隨意選擇其中一種后,會基于選擇繼續(xù)優(yōu)化模型和材質(zhì),最后出現(xiàn)覆蓋皮膚后的模型渲結(jié)果,并展現(xiàn)不同光影下的渲染效果——這些渲染在瀏覽器內(nèi)實時完成:

用鼠標拖動,還能旋轉(zhuǎn)頭部,并放大看更細節(jié)的局部效果,毛孔和痘痘都清晰可見:值得一提的是,如果用戶是個提示工程高手,直接在左側(cè)框中輸入 prompt,同樣可以完成生成。

雖然 beta 版本還沒上線發(fā)型功能,但整體而言,最后生成的 3D 數(shù)字人資產(chǎn)與描述內(nèi)容已經(jīng)有高匹配度。

官網(wǎng)上還陳列了許多 ChatAvatar 用戶的生成資產(chǎn),不同人種、不同膚色、不同年齡,喜怒哀樂,美丑胖瘦,各式相貌應有盡有。

總結(jié)一下 ChatAvatar 這款產(chǎn)品生成 3D 數(shù)字人資產(chǎn)的效果亮點:

首先是使用簡便;其次是生成跨度大,且五官可改,還能生成與面部貼合的面具、紋身等,譬如這樣:

根據(jù)官方宣傳片介紹,ChatAvatar 甚至可以進一步生成超出人類范疇的角色,如阿凡達等影視作品中的角色:最重要的是,ChatAvatar解決了 3D 模型與傳統(tǒng)渲染軟件存在的兼容性問題

這意味著,ChatAvatar 生成的 3D 資產(chǎn)可以直接接入游戲和影視生產(chǎn)流程。

當然,在正式接入工業(yè)流程之前,首輪公測,ChatAvatar 已經(jīng)吸引了數(shù)千名藝術家和專業(yè)美術人員參與,推特相關話題受到近百萬的瀏覽與關注。

隨隨便便一條推文,瀏覽量都能破 50k。

積攢了大批 " 自來水 " 不是沒有原因,看看 3D 的愛因斯坦之臉,試問誰不說一句真的很像?要是和 ControlNet 結(jié)合,生成效果不亞于單反相片直出:已經(jīng)有不少用戶體驗后,開始暢想將這個 Text-to-3D 工具大規(guī)模應用在游戲、影視等工業(yè)應用上了。

據(jù)了解,用戶反饋會成為 ChatAvatar 團隊快速迭代和更新的重要依據(jù),形成數(shù)據(jù)飛輪,以便及時提供更加完整和貼近需求的功能。

事實上,對于此前的 3D 行業(yè)設計師或公司來說,大部分 AI 文字轉(zhuǎn) 3D 應用并非效果不好,但實際落地到工業(yè)設計流程上,還是有不少難度。

這次 ChatAvatar 能如此出圈,背后究竟有什么技術上的原因?

符合產(chǎn)業(yè)要求的 3D 資產(chǎn)生成,究竟難在哪?

都說 AI 要替代人類,事實上僅僅就 Text-to-3D 領域,就并非那么容易替代。

最大的難點,在于讓 AI 生成的東西從標準上符合產(chǎn)業(yè)對 3D 資產(chǎn)的要求。

這里面的產(chǎn)業(yè)標準怎么理解?從專業(yè) 3D 美工設計的視角來說,至少有三個方面——

質(zhì)量、可控性和生成速度。

首先是質(zhì)量。尤其是對于強調(diào)視覺效果的影視、游戲行業(yè)來說,要想生成符合管線要求的 3D 資產(chǎn),拓撲規(guī)整度、紋理貼圖的精度等 " 行業(yè)潛規(guī)則 ",都是 AI 產(chǎn)品第一道必須邁過去的坎。

以拓撲結(jié)構的規(guī)整度為例,這里本質(zhì)上指的是 3D 資產(chǎn)布線的合理度。

對于 3D 資產(chǎn)來說,拓撲的規(guī)整度,往往直接影響物體的動畫效果、修改處理效率和貼圖繪制速度:

據(jù)行內(nèi) 3D 美工設計介紹,手工重拓撲的時間成本往往比制作 3D 模型本身更高,甚至按倍數(shù)以計。這意味著即使 AI 模型生成的 3D 資產(chǎn)再炫酷,如果生成的拓撲規(guī)整度達不到要求,成本就無法從根本上得到降低。更別提紋理精度。

影眸科技的 ChatAvatar 項目在生成質(zhì)量、速度以及標準兼容上相比先前的工作都有明顯的提升

以目前游戲、影視行業(yè)普遍要求的 PBR 貼圖為例,包含的反射率貼圖、法線貼圖等一系列貼圖,相當于 2D 圖像 PSD 文件的 " 圖層 ",是 3D 資產(chǎn)流水線生產(chǎn)必不可少的條件之一。

然而,目前 AI 生成的 3D 資產(chǎn)往往是一個 " 整體 ",少有能按要求單獨生成符合產(chǎn)業(yè)環(huán)境的 PBR 貼圖的效果。

其次是可控性,對于生成式 AI 而言,如何讓生成的內(nèi)容更加 " 可控 ",是 CG 產(chǎn)業(yè)對于這項技術提出的又一大要求。

以大眾所熟知的 2D 產(chǎn)業(yè)為例,在 ControlNet 出現(xiàn)之前,2D AIGC 行業(yè)一直處在一種 " 半摸黑前進 " 的狀態(tài)。

也就是說,AI 能生成指定類別的物體畫面,卻無法生成指定姿態(tài)的物體,生成效果全靠提示工程和 " 玄學 "。

而在 ControlNet 出現(xiàn)后,2D AI 圖像生成的可控性獲得了突飛猛進的提升,然而對于 3D AI 而言,要想生成對應效果的資產(chǎn),很大程度上依舊得依靠專業(yè)的提示工程。

最后是生成速度。相比 3D 美工設計而言,AI 生成的優(yōu)勢在于速度,然而如果 AI 渲染的速度和效果無法與人工匹敵的話,那么這項技術依舊無法給產(chǎn)業(yè)帶來收益。

以當前在 AI 技術上頗受歡迎的 NeRF 為例,其產(chǎn)業(yè)化落地就面臨速度和質(zhì)量的兼容性難題。

在生成質(zhì)量較高的情況下,基于 NeRF 的 3D 生成往往需要相當漫長的時間;然而如果追求速度,即使是 NeRF 生成的 3D 資產(chǎn)便完全無法投入產(chǎn)業(yè)使用。

但即使解決了這個問題,如何在不損失精度的前提下讓 NeRF 與傳統(tǒng) CG 行業(yè)的主流引擎兼容仍然是一個巨大的問題。

從上面的產(chǎn)業(yè)標準化流程不難發(fā)現(xiàn),大部分 AI 文本轉(zhuǎn) 3D 應用落地存在兩大瓶頸

一個是需要手動完成提示工程,對于非 AI 專業(yè)人士、或不了解 AI 的設計師來說不夠友好;另一個是生成的 3D 資產(chǎn)往往不符合產(chǎn)業(yè)標準,即使再好看也無法投入使用。

針對這兩點,ChatAvatar 給出了兩點具體有效的解決方案。

一方面,ChatAvatar 實現(xiàn)了除手動輸入提示工程外的第二條道路,也是更適合普通人的一條捷徑:通過 " 甲方模式 " 直接對話描述需求。

團隊官方推特介紹稱,為了實現(xiàn)這一特性,ChatAvatar 基于 GPT 的能力,開發(fā)了一種對話描述轉(zhuǎn)人像特征的方法。

設計師只需要不斷和 GPT 聊天,描述自己想要的 " 感覺 ":

GPT 就能自動幫忙完成提示工程,將結(jié)果輸送給 AI:換而言之,如果說 ControlNet 是 2D 行業(yè)的 "Game Changer",那么對于 3D 產(chǎn)業(yè)來說,能實現(xiàn)文本轉(zhuǎn) 3D 的 ChatAvatar,無異于行業(yè)的游戲規(guī)則改變者。

另一方面更為重要,那就是 ChatAvatar 能完美兼容 CG 管線,即生成的資產(chǎn)在拓撲結(jié)構、可控性和速度上都符合產(chǎn)業(yè)要求。

同時,生成的模型和高精度材質(zhì)貼圖,還能在后期的渲染中達到極為逼真的渲染效果。

為了實現(xiàn)這樣的效果,團隊為 ChatAvatar 自研了一個漸進式 3D 生成框架 DreamFace。

其中的關鍵,在于訓練該模型用的底層數(shù)據(jù),即影眸科技基于 " 穹頂光場 " 采集到的世界首個大體量、高精度、多表情的人臉高精度數(shù)據(jù)集

基于這個數(shù)據(jù)集,DreamFace 可以高效地完成產(chǎn)品級三維資產(chǎn)的生成,即生成的資產(chǎn)帶有規(guī)整的拓撲、材質(zhì),帶有綁定。

通過引入外部 3D 數(shù)據(jù)庫,DreamFace 能夠直接輸出符合 CG 流程的資產(chǎn)。

生成的資產(chǎn)驅(qū)動渲染的效果

上述兩大技術瓶頸的解決,本質(zhì)上進一步加速了 AIGC 洪流下," 生成 " 將取代 " 搜索 " 的時代趨勢——

影眸團隊認為," 生成 " 將成為新一代數(shù)字資產(chǎn)的獲取方式。

此前,我們需要找到一張符合需求的圖片或者資產(chǎn)時,通常會使用搜索引擎進行查詢。

ChatAvatar 項目主頁上展示的巨大的 " 搜索框 " 和整齊的資產(chǎn)卡片,看似搜索引擎,但實際上是一種與搜索截然不同的資產(chǎn)查找方式。

ChatAvatar 項目主頁

影眸科技 CTO 張啟煊對此介紹:

以前,如果我們需要一張插圖,可能要在多個圖庫中反復搜索,或是通過 Photoshop 合成、手繪等較復雜的方式才能得到結(jié)果。但在 Stable Diffusion 等技術出現(xiàn)后,你只需要通過文字描述想要的圖像,就能直接生成符合需求的結(jié)果。

這對于傳統(tǒng)的資產(chǎn)庫來說是一個巨大的沖擊。而 ChatAvatar 的目標,正是用 3D 生成替代傳統(tǒng)的搜索式 3D 資產(chǎn)庫。

AIGC 領域的下一個前沿熱點

ChatGPT 一石激起千層浪,進入 AI 2.0 時代之后,人們的目光也投向包含圖像、視頻、3D 等信息的多模態(tài) AI。

僅就 3D 生成領域而言,無論是影視還是游戲行業(yè),3D 內(nèi)容生產(chǎn)和消費市場已經(jīng)擁有足夠大的規(guī)模,但在制作層面卻因技術難度遭遇掣肘。

譬如,文本領域大行其道的 Transformer,在 3D 生成領域的使用還相對有限。

去年夏天,當文生圖領域因 Diffusion Model 取得成績后,人們開始期待文字生成 3D有同樣驚艷的表現(xiàn)。一旦生成式 AI 的 3D 創(chuàng)作技術成熟,VR、視頻等的內(nèi)容創(chuàng)作都將起飛。

擴散模型 Midjourney5.1 生成的 " 梵高風攝影 "

事實上,無論是科技巨頭還是初創(chuàng)公司,的確都在朝 Text-to-3D 這個方向暗暗發(fā)力。

去年 9 月,谷歌發(fā)布了基于文本提示生成 3D 模型的 FreamFusion,聲稱不需要 3D 訓練數(shù)據(jù),也不需要修改圖像擴散模型。緊隨其后,Meta 也推出可以從文本一鍵生成視頻的 Make-A-Video 模型。

后來的 Text-to-3D 的 AI 模型隊伍中,還先后出現(xiàn)了英偉達 Magic3D、OpenAI 最新開源項目 Shap-E 等,今年 8 月將舉辦的計算機圖形頂會 SIGGRAPH 2023 所展示的論文,也有多篇與 Text-to-3D 有關。

影眸科技有關文本指導的漸進式 3D 生成框架 DreamFace 的論文,就是其中之一。

而 ChatAvatar,也是目前為止最集中在 3D 數(shù)字人資產(chǎn)方向的生成式模型產(chǎn)品。

其背后的 AI 初創(chuàng)公司影眸科技,2020 年孵化自上海科技大學 MARS 實驗室,成立后獲得奇績創(chuàng)壇與紅杉種子的兩輪投資。

公司專注于專注于計算機圖形學、生成式 AI 的研究與產(chǎn)品化。2021 年,AIGC 還未掀起巨浪之時,公司就已經(jīng)推出國內(nèi)首個 AIGC ToC 繪畫應用 Wand,產(chǎn)品一度登頂 AppStore 分區(qū)榜首。

而這個頗具前瞻性,且已在業(yè)內(nèi)小有名氣的團隊,平均年齡只有 25 歲

將首個商業(yè)化場景具體錨定在數(shù)字人后,ChatAvatar 是他們乘 AIGC 東風在該方向的最新進展。

作為一個新推出的產(chǎn)品,ChatAvatar 在兼容性、完成度和精度等產(chǎn)品效果層面,都超出了影眸團隊預期。然而在吳迪口中,行至此處的過程 " 很狼狽 "。

主要原因不外乎 " 缺人 " 一事。目前,影眸已經(jīng)在多類別 3D 生成技術上取得了進展,下一步還計劃推出 "3D 生成大模型 "。

影眸科技將于 5 月上線首個多模態(tài)跨平臺 3D 搜索引擎 Rodin,打通 Sketchfab 等多個 3D 資產(chǎn)平臺,支持以文搜 3D、以圖搜 3D 甚至以 3D 搜 3D。搜索引擎只是 Rodin 的初級形態(tài),影眸將把 Rodin 打造為 3D 生成大模型。

需要持續(xù)向前推進,就需要更多的工程化團隊、技術美術和擁抱生成式 AI 的產(chǎn)品人才加入團隊。作為一個以研發(fā)為背景主基調(diào)的團隊,這樣的人才仍然緊缺。

" 人是萬物的尺度," 吳迪表示道," 我們需要更多志同道合的人加入,共同推動 3D 領域的創(chuàng)新發(fā)展。"

可以看到,ChatAvatar 背后技術從無到有的搭建,揭示了一家 AI 初創(chuàng)公司的不斷創(chuàng)新;而從這家公司對人才的渴望以小見大,更揭示著 AIGC 浪潮下,每一個細分領域想要從水下浮出水面的心。

你愿意擁抱生成式 AI,成為 Text-to-3D 領域的 Game Changer 嗎?

聯(lián)系作者

點這里關注我,記得標星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~

為你推薦

最新資訊

股票軟件