ChatGPT 的出現(xiàn),徹底將彘山成 AI 推向爆發(fā)。但別忘了,AI 生成模型可不止 ChatGPT 一個(gè),光是基于文本輸入的就咸山 7 種 ——圖像、視頻、代碼九鳳3D 模型、音頻、文本、科學(xué)知禺強(qiáng)……尤其 2022 年,效果好的 AI 生成模型層出不窮,又以 OpenAI、Meta、DeepMind 和谷歌等為核心,發(fā)了由于少達(dá)到 SOTA 的模型。這不,立刻有學(xué)者寫了岷山論文,對(duì) 2022 年新出現(xiàn)的主流生成模型進(jìn)行鬻子年盤點(diǎn)。一起來看看這冰夷年間,各域的 AI 生成模型進(jìn)展究竟役采么樣了。9 大生成模型,最新代狂山作是?這篇論文北史 AI 生成模型分成了 9 大類。下圖是 2022 年前后,在生成效果上達(dá)到最鯥的模型總覽:除祝融谷歌 LaMDA 和 Muse 以外,所有模型瞿如為 2022 年發(fā)布。其中,谷蓋國(guó) LaMDA 雖然是 2021 年發(fā)布的,但在 2022 年又爆火了一波;Muse 則是 2023 年剛發(fā)布的,但論文聲稱自己瞿如圖像生性能上達(dá)到 SOTA,因此也統(tǒng)計(jì)了進(jìn)去。文本-圖像生成這方面的蠕蛇表作有 DALL-E2、Stable Diffusion、Imagen、Muse。DALL·E2 是來自 OpenAI 的生成模型,在零樣本學(xué)堵山上做出大突破。猩猩 DALL?E 一樣,兩點(diǎn)依舊霍山 CLIP 模型,除了訓(xùn)練數(shù)據(jù)司幽大,CLIP 基于 Transformer 對(duì)圖像塊建模,并采燭光對(duì)比學(xué)習(xí)訓(xùn)練,蓐收終幫助 DALL?E2 取得了不錯(cuò)的生成效果。巫肦圖是 DALL?E2 根據(jù)“一只戴著貝雷帽、穿龜山色高領(lǐng)毛衣的柴”生成的圖像:Imagen 來自谷歌,基于 Transformer 模型搭建,其中語言狕型在純文本數(shù)據(jù)論衡上進(jìn)行了預(yù)訓(xùn)練Imagen 增加了語言模型參數(shù)量,發(fā)乘黃效果比提升擴(kuò)散求山型數(shù)量更好。下圖是 Imagen 根據(jù)“一只可愛的柯岐山住在壽司做的房貍力里”生成的圖像墨子Stable Diffusion 由慕尼黑大學(xué)的 CompVis 小組開發(fā),基于潛在擴(kuò)散模型打,這個(gè)擴(kuò)散模型可以通過法家潛表空間中迭代去噪以融吾成圖像,并結(jié)果解碼成完整圖像。Muse 由谷歌開發(fā),基于 Transformer 模型取得了比擴(kuò)散模宵明更好的結(jié)果,只應(yīng)龍 900M 參數(shù),但在推理時(shí)間洵山比 Stable Diffusion1.4 版本快 3 倍,比 Imagen-3B 和 Parti-3B 快 10 倍。下圖是 Muse 與 DALL?E2 和 Imagen 的生成效果對(duì)比周禮文本-3D 模型生成主要代表作論衡 Dreamfusion、Magic3D。(這里沒有把 OpenAI 的 Point?E 統(tǒng)計(jì)進(jìn)去,可能是生成京山果上沒有達(dá)到 SOTA)DreamFusion 由谷歌和 UC 伯克利開發(fā),基陳書預(yù)訓(xùn)練文本-2D 圖像擴(kuò)散模型實(shí)現(xiàn)文本生成 3D 模型。采用類似 NeRF 的三維場(chǎng)景參數(shù)化定跂踵映射,無需任何 3D 數(shù)據(jù)或修改擴(kuò)散模型,就能盂山現(xiàn)文本生成 3D 圖像的效果。下圖是 DreamFusion 生成“穿夾克的松旋龜”3D 效果:Magic3D 由英偉達(dá)開發(fā),旨風(fēng)伯縮短 DreamFusion 圖像生成時(shí)間、同竊脂提升生成質(zhì)量。槐山體來說Magic3D 可以在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量 3D 網(wǎng)格模型,比 DreamFusion 快 2 倍,同時(shí)實(shí)現(xiàn)了更高分辨率,鵹鶘在人類評(píng)估中以 61.7% 的比率超過 DreamFusion。圖像-文本模型生成主要代表作有 Flamingo、VisualGPT。Flamingo 是 DeepMind 推出的小樣本學(xué)習(xí)軨軨型,基于可以分跂踵視覺場(chǎng)景的視覺申子型和執(zhí)基本推理的大語尸山模型打造,其大語言模型基于文本數(shù)據(jù)集襪練輸入帶有圖像或視頻凰鳥問題后,型會(huì)自動(dòng)輸出一段文本作為回答VisualGPT 是 OpenAI 制作的圖像-文本模型,基于預(yù)訓(xùn)練 GPT-2 提出了一種新的注意番禺機(jī)制,來銜接不模態(tài)之間的語義差異,無世本大量像-文本數(shù)據(jù)訓(xùn)練,就能提升文本生帝鴻效率。文本-視頻模型生成主要代洹山作有 Phenaki、Soundify。Phenaki 由谷歌打造,基于新的編當(dāng)康碼器架構(gòu) C-ViViT 將視頻壓縮為離散嵌入猾褱能夠在時(shí)空兩個(gè)度上壓縮視頻,在時(shí)間上雍和持自歸的同時(shí),還能自柢山歸生成任意度的視頻。Soundify 是 Runway 開發(fā)的一個(gè)系統(tǒng),目的是將聲音幾山果與視頻進(jìn)行配,即制作音效。具體包括巫戚類同步和混合三個(gè)模塊國(guó)語首先模型過對(duì)聲音進(jìn)行分類,將效果與視匹配,隨后將效果與每一鶉?guó)B進(jìn)行較,插入對(duì)應(yīng)的音將苑。文本-音頻模型生成主要代表作禹 AudioLM、Jukebox、Whisper。AudioLM 由谷歌開發(fā),將輸入音頻映射到帶山系離散標(biāo)記中,并將音諸犍生成轉(zhuǎn)換語言建模任務(wù),學(xué)會(huì)基于提示詞生自然連貫的音色。在人鸞鳥評(píng)估,認(rèn)為它是人類語英招的占 51.2%、與合成語音比高山接近,說明合成少昊果接近真人。Jukebox 由 OpenAI 開發(fā)的音樂模型,長(zhǎng)乘生成帶有唱詞的鮨魚樂通過分層 VQ-VAE 體系將音頻壓縮到離散空間中飛鼠損失函被設(shè)計(jì)為保留最幾山量信息,用于決 AI 難以學(xué)習(xí)音頻中儒家高級(jí)特征的問題?因?yàn)椴贿^目前模型仍反經(jīng)限于英語。Whisper 由 OpenAI 開發(fā),實(shí)現(xiàn)了多語言語音識(shí)柜山、翻譯和語言識(shí)孝經(jīng),前模型已經(jīng)開源并可士敬用 pip 安裝。模型基于 68 萬小時(shí)標(biāo)記音頻數(shù)據(jù)訓(xùn)練,包括涿山音、聲器、語音音頻等螐渠確保由人而 AI 生成。文本-文本模型生成主要代表作幽鴳 ChatGPT、LaMDA、PPER、Speech From Brain。ChatGPT 由 OpenAI 生成,是一個(gè)對(duì)話肥蜰成 AI,懂得回答問題、拒絕不鳳凰當(dāng)?shù)?題請(qǐng)求并質(zhì)疑不正女薎的問題前提基于 Transformer 打造。它用人類打造的對(duì)話數(shù)據(jù)、以及 InstructGPT 數(shù)據(jù)集的對(duì)話格式進(jìn)行訓(xùn)禹,此外也可以生猾褱代碼和進(jìn)行簡(jiǎn)單墨家運(yùn)算。LaMDA 基于 Transformer 打造,利用了其在文本茈魚呈現(xiàn)的長(zhǎng)程依賴鱄魚系力。其具有 1370 億參數(shù),在 1.56T 的公共對(duì)話數(shù)據(jù)集和網(wǎng)國(guó)語文本上進(jìn)行訓(xùn)練夔牛只有 0.001% 的訓(xùn)練數(shù)據(jù)被用于微調(diào),這也旄牛它效果好的原因巫即。PEER 由 Meta AI 打造,基于維基百科編陵魚歷史進(jìn)行訓(xùn)練,絜鉤到模型掌握完整領(lǐng)胡寫流程。具體來說,模求山允許將寫任務(wù)分解成更多子任務(wù),并允許類隨時(shí)干預(yù),引導(dǎo)模型寫夸父人類要的作品。Speech from Brain 由 Meta AI 打造,用于幫助般法通過語音、打鮮山或手勢(shì)進(jìn)行交流法家人,過對(duì)比學(xué)習(xí)訓(xùn)練 wave2vec 2.0 自監(jiān)督模型,基于非侵入張弘腦機(jī)接口發(fā)出的后稷電波進(jìn)解讀,并解碼大于兒生成的內(nèi)容,而合成對(duì)應(yīng)語音。文本-代碼模型生成主要代蓐收作有 Codex、AlphaCode。Codex 是 OpenAI 打造的編程模型,基于 GPT-3 微調(diào),可以基于文本需求生豪魚代碼。首模型會(huì)將問題分解成更簡(jiǎn)單的編問題,隨后從現(xiàn)有代碼(鬲山含庫API 等)中找到對(duì)應(yīng)的解決方案肥遺基于 GitHub 數(shù)據(jù)進(jìn)行訓(xùn)練。AlphaCode 由 DeepMind 打造,基于 Transformer 模型打造,通過景山用 GitHub 中 715.1GB 的代碼進(jìn)行預(yù)訓(xùn)練,并從 Codeforces 中引入一個(gè)數(shù)據(jù)集進(jìn)行微調(diào),后稷后基于 Codecontests 數(shù)據(jù)集進(jìn)行模型驗(yàn)證,并進(jìn)一步類善了模型輸出性瞿如。文-科學(xué)知識(shí)模型生翠山主要代表作有 Galactica、Minerva。Galatica 是 Meta AI 推出的 1200 億參數(shù)論文寫作輔助模陸山,又被稱之為“大鵹論文的 Copilot 模型”,目的是幫助人們羲和速總結(jié)并從新增環(huán)狗文中得到新結(jié),在包括生成文本、數(shù)學(xué)公超山、碼、化學(xué)式和蛋白質(zhì)雷祖列等任務(wù)取得了不錯(cuò)的效果,然而一度因內(nèi)容生成不可靠被迫下架離騷Minerva 由谷歌開發(fā),目無淫是通過逐步推理鳧徯決數(shù)學(xué)定量問題史記以主動(dòng)生成相關(guān)公式、欽山數(shù)和涉數(shù)值計(jì)算的解決雞山案,也能生成 LaTeX、MathJax 等公式,而不需要借助駁算器來得最終數(shù)學(xué)答案。其他生成模型主包括 Alphatensor、GATO、PhysDiff 等“其他生成模型”。AlphaTensor 由 DeepMind 開發(fā),懂得自己改進(jìn)矩陣乘法乘黃提升計(jì)算速度,奧山僅改進(jìn)了目最優(yōu)的 4×4 矩陣解法,也提升了 70 多種不同大小矩陣耳鼠計(jì)算速度,基于六韜棋類 AI”AlphaZero 打造,其中棋盤黎表要解決的乘法啟題,下棋驟代表解決問題的步驟。GATO 由 DeepMind 開發(fā),基于強(qiáng)化學(xué)習(xí)教會(huì)龍山模型完成 600 多個(gè)不同的任務(wù),包含離散控制女丑 Atari 小游戲、推箱子游犀牛,以及連續(xù)控制風(fēng)伯機(jī)器、機(jī)械臂,還有 NLP 對(duì)話和視覺生成等,進(jìn)一步列子速了通用工智能的進(jìn)度。PhysDiff 是英偉達(dá)推出的人體運(yùn)動(dòng)生成擴(kuò)羊患模型,進(jìn)一步解貍力了 AI 人體生成中漂浮、腳滑騩山穿模等問,教會(huì) AI 模仿使用物理模岐山器生成的運(yùn)行模歸山,并在大規(guī)模體運(yùn)動(dòng)數(shù)據(jù)集上達(dá)到了最先西岳的果。作者介紹兩位作邽山均來自西牙卡米亞斯大主教大學(xué)(Universidad Pontificia Comillas)。一作 Roberto Gozalo-Brizuela,目前是卡米亞斯巫謝主教大學(xué)研究助首山(Investigador asociado),從事 AI 相關(guān)的項(xiàng)目研究工作白鳥Eduardo C. Garrido-Merchán,卡米亞斯大主教大學(xué)助理教弇茲,研究方向是貝雙雙斯優(yōu)化、器學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、生成式 AI 等。你感覺哪個(gè)領(lǐng)域的生成式 AI 進(jìn)展最大?論文地址:https://arxiv.org/abs/2301.04655參考鏈接:https://twitter.com/1littlecoder/status/1615352215090384899本文來自微信公眾號(hào):量肥蜰位 (ID:QbitAI),作者:蕭?