2022 超全的 AI 圈研究合集在這!名博主 Louis Bouchard 自制視頻講解加短分析,對小白超級友好。雖世界仍在復(fù)蘇但研究并沒有慢其狂熱的步,尤其是在人智能領(lǐng)域。此,今年人們對 AI 倫理、偏見、治鴆和透度都有了新的視。人工智能我們對人腦的解及其與人工能的聯(lián)系在不發(fā)展,在不久將來,這些改我們生活質(zhì)量應(yīng)用將大放光。知名博主 Louis Bouchard 也在自己的博中盤點(diǎn)了 2022 年 32 項(xiàng)(!)AI 技術(shù)突破。接下來讓我荀子一看看,這些令驚艷的研究都哪些吧!文章址:https://www.louisbouchard.ai/ 2022-ai-recap/LaMA:基于傅里葉卷積的分辨孟槐健的大型掩碼復(fù)你肯定經(jīng)歷這種情況:你你的朋友拍了張很棒的照片結(jié)果,你發(fā)現(xiàn)人在你身后,了你要發(fā)到朋圈或者小紅書照片。但現(xiàn)在這不再是問題基于傅里葉卷的分辨率穩(wěn)健大型掩碼修復(fù)法,可以讓使者輕松清除圖中不需要的內(nèi)。不論是人,是垃圾桶都能松消失。它就是你口袋里的業(yè) ps 設(shè)計(jì)師,只需輕輕按,就能輕松除。雖然看似單,但圖像修是許多 AI 研究人員長期來一直需要解的問題。論文接:https://arxiv.org/ abs / 2109.07161項(xiàng)目地址:https://github.com/ saic-mdal / lamaColab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb視頻講解:https://youtu.be/ Ia79AvGzveQ短篇分析:https://www.louisbouchard.ai/ lama/STIT:基于 GAN 的真實(shí)視頻人臉編輯肯定有過這樣經(jīng)歷:在看電時(shí),會發(fā)現(xiàn)電中的演員看起要比本人年輕多。《雙子殺》中的威爾?密斯之前,這要專業(yè)人員花數(shù)百甚至數(shù)千時(shí)的工作,手編輯這些演員現(xiàn)的場景。但用 AI,你可以在幾分鐘內(nèi)成。事實(shí)上,多技術(shù)可以讓增加笑容,讓看起來更年輕更老,所有這都是使用基于工智能的算法動完成的。它視頻中被稱為于 AI 的面部操作(AI-based face manipulations),代表了 2022 年的最新技術(shù)平。論文鏈接https://arxiv.org/ abs / 2201.08361項(xiàng)目地址:https://github.com/ rotemtzaban / STIT視頻講解:https://youtu.be/ mqItu9XoUgk短篇分析:https://www.louisbouchard.ai/ stitch-it-in-time/NeROIC:利用在線圖庫石山神經(jīng)染神經(jīng)渲染可通過物體、人或場景的圖片在空間中生成真的 3D 模型。有了這項(xiàng)術(shù),你只需擁某物體的幾張片,就可以要機(jī)器了解這些片中的物體,模擬出它在空中的樣子。通圖像來理解物的物理形狀,對人類來說很易,因?yàn)槲覀?解真實(shí)的世界但對于只能看像素的機(jī)器來,這是一個(gè)完不同的挑戰(zhàn)。成的模型如何入新場景?如照片的光照條和角度不同,成的模型也會此變化,該怎辦?這些都是 Snapchat 和南加州大學(xué)在這孫子新研中需要解決的題。論文鏈接https://arxiv.org/ abs / 2201.02533項(xiàng)目地址:https://github.com/ snap-research / NeROIC視頻講解:https://youtu.be/ 88Pl9zD1Z78短篇分析:https://www.louisbouchard.ai/ neroic/SpeechPainter:文本條件下泰逢語音修對于圖像來說基于機(jī)器學(xué)習(xí)修復(fù)技術(shù)不僅以移除其中的容,而且還能據(jù)背景信息填圖像的缺失部。對于視頻修來說,其挑戰(zhàn)于不僅要保持與幀之間的一性,而且要避生成錯(cuò)誤的偽。同時(shí),當(dāng)你功地將一個(gè)人視頻中「踢出」之后,還需把他 / 她的聲音也一并刪才行。為此,歌的研究人員出了一種全新語音修復(fù)方法可以糾正視頻的語法、發(fā)音甚至消除背景音。論文鏈接https://arxiv.org/ abs / 2202.07273視頻講解:https://youtu.be/ zIIc4bRf5Hg短篇分析:https://www.louisbouchard.ai/ speech-inpainting-with-ai/GFP-GAN:利用生成性面部先,實(shí)現(xiàn)真實(shí)世的盲臉修復(fù)你否有一些珍藏舊照片,因?yàn)?代久遠(yuǎn)而畫質(zhì)糊?不用擔(dān)心有了盲臉修復(fù)術(shù)(Blind Face Restoration),你的回憶老子被歷久新。這個(gè)全新免費(fèi)的 AI 模型可以在一間修復(fù)你的大分舊照片。即修復(fù)前的照片質(zhì)非常低,它能很好地工作這在之前通常一個(gè)相當(dāng)大的戰(zhàn)。更酷的是你可以按照自喜歡的方式進(jìn)嘗試。他們已開源了代碼,建了一個(gè)演示在線應(yīng)用程序大家試用。相這項(xiàng)技術(shù)一定你大吃一驚!文鏈接:https://arxiv.org/ abs / 2101.04061項(xiàng)目地址:https://github.com/ TencentARC / GFPGANColab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo在線應(yīng)用:https://huggingface.co/ spaces / akhaliq / GFPGAN視頻講解:https://youtu.be/ nLDVtzcSeqM短篇分析:https://www.louisbouchard.ai/ gfp-gan/4D-Net:多模態(tài)對齊的學(xué)習(xí)自駕駛汽車如何眼觀六路」?可能聽說過車正在使用的 LiDAR 傳感器或其他奇怪相機(jī)。但它們如何工作的,們?nèi)绾斡^察這世界,以及它與我們相比究看到了什么不?論文鏈接:https://arxiv.org/ abs / 2109.01066與特斯拉只使用像頭來了解世不同,大多數(shù)動駕駛汽車廠,比如 Waymo,使用的是普通軨軨像頭和 3D LiDAR 傳感器。它們不滑魚像普通機(jī)那樣生成圖,而是生成 3D 點(diǎn)云,利用 RGB 傳感信息,測量物之間的距離,算它們投射到體的脈沖激光傳播時(shí)間。盡如此,我們?nèi)?有效地結(jié)合這信息并讓車輛解它?車輛最會看到什么?動駕駛是否足安全?Waymo 和谷歌的一篇新研究論文會解答這些謎。視頻講解:https://youtu.be/ 0nJMnw1Ldks短篇分析:https://www.louisbouchard.ai/ waymo-lidar/Instant NeRF:基于多分辨率哈槐山編的即時(shí)神經(jīng)圖如何通過照片擬世界的樣子使用 AI 模型,人們可石夷拍攝的圖像變高質(zhì)量的 3D 模型。這項(xiàng)具有挑河伯性的任,讓研究人員過 2D 圖像,創(chuàng)建物體或在三維世界中樣子。通過基哈希編碼的神圖元(graphical primitives),英偉達(dá)實(shí)現(xiàn) 5 秒訓(xùn)練 NeRF,并獲得了更好效果。在不到年的研究中, NeRF 的訓(xùn)練速度提高 1000 多倍。論文鏈接https://arxiv.org/ abs / 2201.05989項(xiàng)目地址:https://github.com/ NVlabs / instant-ngp視頻講解:https://youtu.be/ UHQZBQOVAIU短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/DALL?E 2:基于 CLIP 特征的文本生成圖模型去年,OpenAI 發(fā)布了文本-圖像生成模型 DALL?E?,F(xiàn)在,升級版 DALL?E 2 又來了。DALL?E 2 不僅可以從文本提供逼真的圖像,輸出的分辨率前者的四倍!過,性能方面提升好像不足令 OpenAI 滿足,為此他們還雍和 DALL?E 2 學(xué)會了一項(xiàng)新能:圖像修復(fù)也就是說,你以用 DALL?E 2 編輯圖像,或者添任何想要的新素,比如在背中加上一只火鳥。論文鏈接https://arxiv.org/ abs / 2204.06125視頻講解:https://youtu.be/ rdGVbPI42sA短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/MyStyle:個(gè)性化生成先驗(yàn)谷歌和虢山維夫大學(xué)提出一個(gè)非常強(qiáng)大 DeepFake 技術(shù)。擁有了它,魏書幾無所不能。只給一個(gè)人拍上張照片,就可對其圖像進(jìn)行碼,并修復(fù)、輯或創(chuàng)建出任想要的樣子。既令人驚奇又人恐懼,尤其當(dāng)你看到生成結(jié)果時(shí)。論文接:https://arxiv.org/ abs / 2203.17272項(xiàng)目地址:https://mystyle-personalized-prior.github.io/視頻講解:https://youtu.be/ BNWAEvFfFvQ短篇分析:https://www.louisbouchard.ai/ mystyle/OPT:開放預(yù)訓(xùn)練的 Transformer 語言模型GPT-3 如此強(qiáng)大的原乘厘,在于其架和大小。它有 1750 億個(gè)參數(shù),是人類腦中神經(jīng)元數(shù)的兩倍!如此大的神經(jīng)網(wǎng)絡(luò)該模型幾乎學(xué)了整個(gè)互聯(lián)網(wǎng)內(nèi)容,了解我如何書寫、交和理解文本。在人們驚嘆于 GPT-3 的強(qiáng)大功能時(shí),Meta 向開源社區(qū)邁出了一步。他們發(fā)布一個(gè)同樣強(qiáng)大模型,并且,模型已經(jīng)完全源了!該模型僅也有超過千級別的參數(shù),且,與 GPT-3 相比,OPT-175B 更加開放及便于梁渠問。論文接:https://arxiv.org/ abs / 2205.01068項(xiàng)目地址:https://github.com/ facebookresearch / metaseq視頻鏈接:https://youtu.be/ Ejg0OunCi9U短篇分析:https://www.louisbouchard.ai/ opt-meta/BlobGAN:空間離散的場景征對于如何描一個(gè)場景,Adobe 研究團(tuán)隊(duì)給出了一個(gè)的方法:BlobGAN。BlobGAN 使用「斑點(diǎn)」(blob)來描述場景應(yīng)龍的對象研究人員可以動這些斑點(diǎn),它們變大、變,甚至可以刪,這對圖像中點(diǎn)所代表的物都會產(chǎn)生同樣效果。正如作在他們的結(jié)果分享的那樣,可以通過復(fù)制點(diǎn),在數(shù)據(jù)集創(chuàng)建新的圖像現(xiàn)在,BlobGAN 的代碼已經(jīng)開源,感趣的小伙伴,緊快上手試試!論文鏈接:https://arxiv.org/ abs / 2205.02837項(xiàng)目地址:https://github.com/ dave-epstein / blobgan視頻講解:https://youtu.be/ mnEzjpiA_4E短篇分析:https://www.louisbouchard.ai/ blobgan/Gato:通才智能體DeepMind 構(gòu)建了一個(gè)單弄明的「通用智能體 Gato。可以玩 Atari 游戲、做字幕圖像與人聊天、還控制機(jī)械臂!令人震驚的是它只訓(xùn)練一次使用相同的權(quán),便能完成所任務(wù)。Gato 是一個(gè)多模態(tài)智能體玉山這意著它既可以為像創(chuàng)建標(biāo)題,能作為聊天機(jī)人回答問題。然 GPT-3 也能陪你聊天,但很明顯,Gato 可以做到更多。畢竟能聊天的 AI 常有,能陪玩游墨家的不常有論文鏈接:https://arxiv.org/ abs / 2205.06175視頻講解:https://youtu.be/ xZKSWNv6Esc短篇分析:https://www.louisbouchard.ai/ deepmind-gato/Imagen:具有深度語言犀牛解的本到圖像的擴(kuò)模型如果你認(rèn) DALL?E 2 很優(yōu)秀,那么宣山妨看看個(gè)來自 Google Brain 的新模型 ——Imagen—— 可以做些什么帝鴻DALL?E 很神奇,但生啟的像往往缺乏真感,這就是谷團(tuán)隊(duì)研發(fā)的 Imagen 所要解決的問題根據(jù)比較文本圖像模型的基,Imagen 在大型語言模型的京山本嵌入文本-圖像的合成方面成孟鳥顯。生成的圖像天馬行空,又實(shí)可信。論文接:https://arxiv.org/ abs / 2205.11487項(xiàng)目地址:https://imagen.research.google/視頻講解:https://youtu.be/ qhtYPhPWCsI短篇分析:https://www.louisbouchard.ai/ google-brain-imagen/DALL·E Mini一組小扎的驚悚孔雀在 Twitter 上風(fēng)靡一陣。這組 San 值狂掉的作品,出自 DALL?E mini 之手。作為 DALL?E 家族的「青春版」,DALL?E mini 是勝在免費(fèi)開源。代碼已,下一個(gè)被魔的人物又會是呢?項(xiàng)目地址https://github.com/ borisdayma / dalle-mini在線體驗(yàn):https://huggingface.co/ spaces / dalle-mini / dalle-mini視頻講解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ dalle-mini/NLLB:不落下任何一語言Meta AI 發(fā)布的這款 NLLB-200 模型,模型命后羿理念自「不落下任一種語言」(No Language Left Behind),在 200 多種語言上實(shí)現(xiàn)了任意互。研究的亮點(diǎn)于:研究者讓多數(shù)低資源語訓(xùn)練提升多個(gè)量級,同時(shí)實(shí)了 200 + 語言翻譯的 SOTA 結(jié)果。論文鏈接黃鷔https://research.facebook.com/ publications / no-language-left-behind/項(xiàng)目地址:https://github.com/ facebookresearch / fairseq / tree / nllb在線體驗(yàn):https://nllb.metademolab.com/視頻講解:https://youtu.be/ 2G4NeG17Eis短篇分析:https://www.louisbouchard.ai/ no-language-left-behind/Dual-Shutter 光學(xué)振動傳感系統(tǒng)聲音也灌山看見?這篇獲 CVPR 2022 最佳論文榮譽(yù)獎的研,提出了一種穎的 Dual-Shutter 方法,通過使用「慢速」機(jī)(130FPS)同時(shí)檢測多個(gè)螐渠景源的高(高達(dá) 63kHz)表面振動,并通白雉捕獲音頻源引起的動來實(shí)現(xiàn)。由便可以實(shí)現(xiàn)樂的分離、噪音消除等各種需。論文鏈接:https://openaccess.thecvf.com/ content / CVPR2022 / papers / Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf項(xiàng)目地址:https://imaging.cs.cmu.edu/ vibration/視頻講解:https://youtu.be/ n1M8ZVspJcs短篇分析:https://www.louisbouchard.ai/ cvpr-2022-best-paper/Make-A-Scene:基于場景且有人先驗(yàn)的文本到像生成Make-A-Scene 不僅僅是「另一個(gè) DALL?E」。雖然 DALL?E 可以根據(jù)文本提示生成隨槐山像,這確實(shí)很,但同時(shí)也限了用戶對生成果的控制。而 Meta 的目標(biāo)是推動創(chuàng)意達(dá),將這種文到圖像的趨勢之前的草圖到像模型相結(jié)合從而產(chǎn)生「Make-A-Scene」:文本和草柜山條件圖生成之間的奇融合。論文鏈:https://arxiv.org/ abs / 2203.13131視頻講解:https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ make-a-scene/BANMo:從任意視頻中構(gòu)建標(biāo) 3D 動畫模型基于 Meta 的這項(xiàng)研究,你思士需給捕獲可變形對的任意視頻,如上傳幾個(gè)小小狗的視頻,BANMo 便可通過將來大鵹數(shù)張圖像的 2D 線索整合到規(guī)范空間中,進(jìn)重建一個(gè)可編的動畫 3D 模型,且無需定義形狀模板論文鏈接:https://arxiv.org/ abs / 2112.12761項(xiàng)目地址:https://github.com/ facebookresearch / banmo視頻講解:https://youtu.be/ jDTy-liFoCQ短篇分析:https://www.louisbouchard.ai/ banmo/用潛在擴(kuò)散模型進(jìn)行高辨率圖像合成年大火的圖像成模型 DALL?E、Imagen 以及強(qiáng)勢出圈的 Stable Diffusion,這些強(qiáng)大的像生成模型有么共同點(diǎn)?除高計(jì)算成本、量訓(xùn)練時(shí)間之,它們都基于同的擴(kuò)散機(jī)制擴(kuò)散模型最近大多數(shù)圖像任中取得了 SOTA 結(jié)果,包括使用 DALL?E 的文本到圖像乘黃還有多其他與圖像成相關(guān)的任務(wù)如圖像修復(fù)、格轉(zhuǎn)換或圖像分辨率。論文接:https://arxiv.org/ abs / 2112.10752項(xiàng)目地址:https://github.com/ CompVis / latent-diffusion視頻講解:https://youtu.be/ RGBNdD3Wn-g短篇分析:https://www.louisbouchard.ai/ latent-diffusion-models/PSG:基于場景的孟翼像生成模AI 可以幫你準(zhǔn)確識如犬圖像的物體,但是解物體與環(huán)境間的關(guān)系則沒那么輕松。為,來自南洋理對研究人員提了一種基于全分割的全場景生成(panoptic scene graph generation,即 PSG)任務(wù)。相比于傳基于檢測框的景圖生成,PSG 任務(wù)要求全面地輸出弇茲像的所有關(guān)系(括物體與物體關(guān)系,物體與景間關(guān)系,背與背景間關(guān)系,并用準(zhǔn)確的割塊來定位物。論文鏈接:https://arxiv.org/ abs / 2207.11247項(xiàng)目地址:https://psgdataset.org/在線應(yīng)用:https://huggingface.co/ spaces / ECCV2022 / PSG視頻講解:https://youtu.be/ cSsE_H_0Cr8短篇分析:https://www.louisbouchard.ai/ psg/利用文本反轉(zhuǎn)實(shí)現(xiàn)本到圖像的個(gè)化生成今年各廠的圖像生成型可謂是八仙海各顯神通,是如何讓模型成特定風(fēng)格的像作品呢?來特拉維夫大學(xué)學(xué)者和英偉達(dá)作推出了一款性化圖像生成型,可以 DIY 你想要得到的圖像。孟翼文接:https://arxiv.org/ abs / 2208.01618項(xiàng)目地址:https://textual-inversion.github.io/視頻講解:https://youtu.be/ f3oXa7_SYek短篇分析:https://www.louisbouchard.ai/ imageworthoneword/用于通用視頻識別的言圖像預(yù)訓(xùn)練型視覺文本模?的學(xué)習(xí)毫無疑已經(jīng)取得了巨成功,然而如將這種新的語圖像預(yù)訓(xùn)練方擴(kuò)展到視頻領(lǐng)仍然是一個(gè)懸未決的問題。自微軟和中科的學(xué)者提出了種簡單而有效方法使預(yù)訓(xùn)練語言圖像模型接適應(yīng)視頻識,而不是從頭始預(yù)訓(xùn)練新模。論文鏈接:https://arxiv.org/ abs / 2208.02816項(xiàng)目地址:https://github.com/ microsoft / VideoX / tree / master / X-CLIP視頻講解:https://youtu.be/ seb4lmVPEe8短篇分析:https://www.louisbouchard.ai/ general-video-recognition/Make-A-Video:一鍵文本生成頻模型畫家在布上盡情作畫如此清晰流暢畫面,你能想視頻的每一幀是 AI 生成的嗎?MetaAI 推出的 Make-A-Video,只需簡單輸入幾文字,便可在秒內(nèi)生成不同格的視頻,說「視頻版 DALL?E」也不為過。論文鏈:https://arxiv.org/ abs / 2209.14792視頻講解:https://youtu.be/ MWwESVyHWto短篇分析:https://www.louisbouchard.ai/ make-a-video/Whisper:大規(guī)模弱監(jiān)督音識別模型你沒有想過有一翻譯軟件可以速翻譯視頻中語音,甚至是些你自己都聽懂的語言?OpenAI 開源的 Whisper 恰好就能做到這般點(diǎn)。Whisper 在超過 68 萬小時(shí)的多語數(shù)據(jù)上訓(xùn)練,識別嘈雜背景的多語種聲音轉(zhuǎn)化為文字,外還可勝任專術(shù)語的翻譯。文鏈接:https://arxiv.org/ abs / 2212.04356項(xiàng)目地址:https://github.com/ openai / whisper視頻講解:https://youtu.be/ uFOkMme19Zs短篇解析:https://www.louisbouchard.ai/ whisper/DreamFusion:用 2D 圖像生成 3D 模型文本能生圖像、視頻,有 3D 模型~谷歌推出的 DreamFusion 通過使用預(yù)訓(xùn)練的 2D 文本到圖像擴(kuò)散模型可鍵生成 3D 模型,在數(shù)十圖像文本對上練的擴(kuò)散模型動了文本到 3D 模型合成的最三身突破。論鏈接:https://arxiv.org/ abs / 2209.14988視頻講解:https://youtu.be/ epuU0VRIcjE短篇解析:https://www.louisbouchard.ai/ dreamfusion/Imagic:基于擴(kuò)散模型真實(shí)圖像編輯法使用 DALL?E 等文本圖像生成模型只需輸入一行字便能得到想的圖片,但 AI 生成的圖像有時(shí)候并不那完美。來自谷、以色列理工院、魏茨曼科研究所的研究介紹了一種基擴(kuò)散模型的真圖像編輯方法 ——Imagic,只用文字就能實(shí)現(xiàn)真實(shí)照的 PS。例如,我們可以改一個(gè)人的姿勢構(gòu)圖同時(shí)保留原始特征,或我想讓一只站的狗坐下,讓只鳥展開翅膀論文鏈接:https://arxiv.org/ abs / 2210.09276項(xiàng)目地址:https://imagic-editing.github.io/視頻講解:https://youtu.be/ gbpPQ5kVJhM短篇分析:https://www.louisbouchard.ai/ imagic/eDiffi:更高品質(zhì)的文圖像合成模型 DALL?E 和 Stable Diffusion 更強(qiáng)的圖像合晏龍型來了!這就英偉達(dá)的 eDiffi,它可以更準(zhǔn)確地生更高品質(zhì)的圖?,此外加入畫模具,可以為的作品增加更創(chuàng)造性和靈活。論文鏈接:https://arxiv.org/ abs / 2211.01324項(xiàng)目地址:https://deepimagination.cc/ eDiff-I/視頻講解:https://youtu.be/ grwp-ht_ixo短篇分析:https://www.louisbouchard.ai/ ediffi/Infinite Nature:從單幅圖像中學(xué)自然場景的無視圖生成你有有想過,隨手一張照片然后像打開一扇門樣飛進(jìn)圖片里?來自谷歌和奈爾大學(xué)的學(xué)將這一想象變了現(xiàn)實(shí),這就 InfiniteNature-Zero,他可從單幅圖中生成無限制自然場景視圖論文鏈接:https://arxiv.org/ abs / 2207.11148項(xiàng)目地址:https://infinite-nature.github.io/視頻講解:https://youtu.be/ FQzGhukV-l0短篇分析:https://www.louisbouchard.ai/ infinitenature-zeroGalactica:用于科學(xué)的豪山語言模型Meta 開發(fā)的 Galactica 是一種大型語言模型,大小與 GPT-3 相當(dāng),但它擅傅山的領(lǐng)域科學(xué)知識。該型可編寫政府皮書、新聞評、維基百科頁和代碼,它還道如何引用以如何編寫方程。這對人工智和科學(xué)來說是件大事。論文接:https://arxiv.org/ abs / 2211.09085視頻講解:https://youtu.be/ 2GfxkCWWzLU短篇分析:https://www.louisbouchard.ai/ galactica/RAD-NeRF:基于音頻空間分的實(shí)時(shí)人像合模型自從 DeepFake 和 NeRF 的出現(xiàn),AI 換臉?biāo)坪跻呀?jīng)司空見慣了,有個(gè)問題,AI 換的臉有時(shí)會因?yàn)閷Σ桓瞪阶?而露餡。RAD-NeRF 的出現(xiàn)可以解決一問題,它可對視頻中所出的說話者進(jìn)行時(shí)的人像合成此外還支持自義頭像。論文接:https://arxiv.org/ abs / 2211.12368項(xiàng)目地址:https://me.kiui.moe/ radnerf/ChatGPT:為對話優(yōu)化的語言模型2022 年度 AI 的重磅作品怎么能少了 ChatGPT,這個(gè)已經(jīng)火遍網(wǎng)并已經(jīng)被網(wǎng)開發(fā)出寫小黃、敲代碼等各應(yīng)用的萬能模,如果你還不解它,那就快看看!視頻講:https://youtu.be/ AsFgn8vU-tQ短篇分析:https://www.louisbouchard.ai/ chatgpt/可直接用于生產(chǎn)使用的頻人臉 re-aging雖然當(dāng)下計(jì)算機(jī)視模型可以對人的年齡進(jìn)行生、風(fēng)格遷移等但這也只是看來炫酷,在實(shí)應(yīng)用中卻幾乎作用,現(xiàn)有的術(shù)通常存在著部特征丟失、辨率低和在后視頻幀中結(jié)果穩(wěn)定的問題,往需要人工二編輯。最近迪尼發(fā)布了第一可實(shí)用的、完自動化的、可于生產(chǎn)使用的頻圖像中 re-age 人臉的方法 FRAN(Face Re-Aging Network),正式宣告電影中靠化師改變演員年視覺效果的技落幕。論文鏈:https://dl.acm.org/ doi / pdf / 10.1145/3550454.3555520項(xiàng)目地址:https://studios.disneyresearch.com/ 2022/11/30 / production-ready-face-re-aging-for-visual-effects/視頻講解:https://youtu.be/ WC03N0NFfwk短篇分析:https://www.louisbouchard.ai/ disney-re-age/參考資料:https://www.louisbouchard.ai/2022-ai-recap/本文來自微信公眾號新智元 (ID:AI_era?