a16z:生成式 AI 與遊戲領域結合的市場生態概述

本文將介紹 a16z 在該賽道的投資佈局。

原文標題:《The Generative AI Revolution in Games
原文作者:James Gwertzman、Jack Soslow
原文編譯:阿法兔研究筆記

a16z 最近寫了一篇很有意思的文章,談到他們認為的生成式 AI 和遊戲結合在一起的機會在哪,筆者翻譯後對部分內容進行了註解。文章第一部分已經發出,見:《 a16z | 生成式 AI 在遊戲領域的機會(市場假設+預測)》,本篇為第二部分,包括 a16z 對遊戲 + 生成式 AI 領域的市場生態的判斷(請注意:這些大部分都是 a16z 的 Portofolio,請大家本著客觀理性的態度閱讀)

市場生態概述

下圖為整體的市場生態情況,描述了 a16z 在各個類別中發現的創業公司,在這些具體的項目中,我們發現了生成式人工智能(AIGC)對遊戲的影響,本篇會對每個類別中最有特點的公司和機會進行介紹。

用文本生成平面圖像(2D Images)

從文本提示中生成 2D 圖像,已生成式人工智能最為廣泛的應用領域之一。諸如 Midjourney、Stable Diffusion 和 Dall-E 2 這樣的工具,直接可以將文本描述生成高質量的二維圖像,並且它們用在了遊戲開發和製作的整個生命週期的多個階段。

(注釋:Midjourney 也是比較容易用的 AI 圖像生成器,更容易上手,圖像生成速度很快,1 分鐘內可以出 4 張圖)

延伸閱讀:《作者已死?AI 正用藝術征服人類

概念藝術(Concept Art)

(注釋:概念藝術也可以稱為初步設計,通常在影視或者遊戲行業中有這個專業設計概念。總的來說,指的是為產品的視覺效果定出一個基調,應該說是一個遊戲或影片的最初的核心工作內容之一。通過全新的設計思路和方向(包括造型、精神、概念等),對過去的方式進行革新甚至是顛覆,創造出全新的造型角色或者概念。

和插畫有什麼區別?插畫家與遊戲的關係更多的是幫其繪制海報、包裝封面等。而與影視、遊戲開發的工作真正緊密相關的 2D 藝術工作之一就是我們所說的 Concept Art。和漫畫有什麼區別?Concept Art 跟漫畫有很大區別,漫畫(manga)是日本一個獨立的體系,更多服務於熱門的輕小說的視覺化。而概念藝術則是服務於遊戲,動畫(animation),在風格上表現形式上不受限制,創造出一些超前的,或者是完整的一套設定顯得極為重要。和原畫有什麼區別?Concept Art 幾乎包括所有的角色,場景塑造,跟原畫師不同的地方是,概念設計師必須要主動產出一些更有趣的設計。

Concept Art 區別於原畫師,在遊戲,動畫項目中扮演一個僅次於主策劃的一個美術向的決策地位,決定這個項目的風格和受眾,因此一個以概念藝術家為目標的畫師,被一種畫風禁錮是不稱職的。)

生成式人工智能工具,在幫助像遊戲設計師這樣的角色進行遊戲概念探索與靈感啓發都比較有用處。這也是生產過程的一個關鍵環節,例如,某個遊戲工作室正在使用上述工具,從根本上加快了他們的概念藝術的開發流程,因為他們只用了一天時間就創造出了一個圖像,而在以前,這個過程需要長達 3 周的時間,但是具體怎麼操作呢?

首先,遊戲設計師使用 Midjourney 來探索不同的靈感,並生成他們認為合適的概念圖像。之後,圖像會被交給專業的概念藝術家,藝術家可以把這些圖像組合在一起,然後創建一個相關主題的連貫圖像,然後將這些圖片輸入 Stable Diffusion,以形成系列的圖像變化。

大家會共同討論這些風格各異的圖像風格,然後確定一個,用畫筆手動編輯,然後繼續重復以上過程,直到大家對作品結果感到滿意。在這個階段,再把這個圖像最後上傳給 Stable Diffusion,創造出最後的藝術作品。

2D Production Art

還有的遊戲工作室在嘗試使用類似的人工智能工具來製作遊戲中的美術作品。例如,下圖是來自 Albert Bozesan,關於如何使用 Stable Diffusion 來創建遊戲中的 2D 資產的教程。

來源:https://www.youtube.com/watch?v=blXnuyVgA_Y

3D Artwork

3D 立體模塊,是目前所有現代遊戲以及即將到來元宇宙的重要構建源。虛擬世界和遊戲關卡,本質上都是一個 3D 資產的集合,通過不同的組合和放置方法,修改不同的參數來填充遊戲環境。而創建 3D 元素比創建 2D 平面圖更為複雜,涉及多個步驟,包括需要製作 3D 模型、添加紋理和效果。而對於動畫人物來說,還涉及到需要創建一個內部「輪廓」,然後在輪廓之上創建動畫。

我們發現有不同的初創公司,在尋找有關 3D 資產創建過程的各個階段的機會,包括模型創建、角色動畫和關卡製作等等。然而,這部分的業務和創新尚在探索中。

三維資產(3D Assets)

試圖往創建 3D 模型方向發展的初創公司包括 Kaedim、Mirage 和 Hypothetic。大公司也在關注這個問題,包括 Nvidia 的 Get3D 和 Autodesk 的 ClipForge。Kaedim 和 Get3d 專注於圖像到 3D 模型的轉換;ClipForge 和 Mirage 專注於文本到 3D 轉換,而 Hypothetic 公司對文本到 3D 搜索以及圖像到 3D 都感興趣。

Kaedim 公司:總部在倫敦,主要是通過 2D 圖像生成 3 維模型。
Mirage:https://www.mirageml.com/

三維紋理(3D Textures)

如果在遊戲中,三維模型能夠用在基於網格的紋理或材料上,能夠顯得更加真實。例如,一個中世紀的城堡模型上使用不同類型的、帶有青苔的風化石,可以完全改變一個場景的外觀塑造。這裡所說的紋理,包含關於光對材料的反應的元數據(即粗糙度、光澤度等),藝術家可以根據文本或圖像提示輕鬆生成紋理,對於提高創作過程中的迭代速度是非常有價值的,像 BariumAI、Ponzu 和 ArmorLab 這樣的公司正在在這個領域努力。

BariumAI:https://barium.ai/
Ponzu:https://www.ponzu.gg/

動畫

優秀動畫的製作,是遊戲創作過程中最耗時、最昂貴和最有技巧的部分之一,降低成本和創造更為真實的動畫的方法之一,是運用動作捕捉,即給演員或舞者穿上動作捕捉服,用專門的設備,記錄他們的動作。

我們發現,當前的生成式人工智能,可以直接從視頻中捕捉動畫。這就更高效了,因為這樣就不需要成本高昂的的動作捕捉設備,也意味著我們可以從現有視頻中捕捉動畫。

人工智能模型的另一個令人興奮的點在於,可以用於過濾現有動畫,加上新的特效,例如讓動畫人物一鍵看起來喝醉了,或者老了,或者高興。這一領域的公司包括 Kinetix、DeepMotion、RADiCAL、Move Ai 和 Plask。

Kinetix
DeepMotion
RADiCAL

關卡設計和遊戲世界構建(Level design & world building)

遊戲創作中最耗時的方面之一是構建遊戲世界,生成式人工智能可以用於這項任務。像《Minecraft》、《No Man’s Sky》和《Diablo》這樣的遊戲,因程序化技術生成關卡而聞名,其中關卡是隨機生成的,每次都不一樣,但都遵循關卡設計者制定的規則。新的 The new Unreal 5 遊戲引擎的一大賣點在於,它收集了用於開放世界設計的程序化工具,例如葉子的放置。

例如 Promethean、MLXAR 或 Meta 的 Builder Bot 這些公司,都是看到了生成式 AI 技術的機會。這方面的學術研究已經有一段時間了,包括 Minecraft 的生成技術或 Doom 的關卡設計。

為什麼生成式人工智能工具具備用於遊戲關卡設計的潛力?因為 AI 具備創造不同風格的關卡和遊戲世界的能力。可以想象一下,通過工具迅速生成一個 1920 年紙醉金迷時代紐約的遊戲世界,或者是神秘的反烏托邦銀翼殺手的設計,或者是托爾金派(類似於魔戒的設計和景觀)的幻想世界(vs dystopian blade-runner-esque future, vs. Tolkien-esque fantasy world.)。

下面的概念是由 Midjourney 使用提示生成的遊戲中不同風格關卡:

音頻

聲音和配樂是遊戲體驗的重要部分。已經有公司開始使用生成式人工智能生成音頻,以補充圖形方面的工作。

音效

聲音效果是人工智能的另一個有吸引力的領域。已經有學術論文探討了使用人工智能在電影中生成「foley」的想法(例如腳步聲),不過目前能夠直接在遊戲中應用的商業產品還很少。

筆者認為,這只是一個時間問題,因為遊戲的互動性使其成為生成式人工智能的一個明顯的應用,既可以創造靜態的聲音效果作為生產的一部分(「遊戲裡的激光槍音效等等」),也可以在運行時創造實時的互動聲音效果。

想象一下,如何給玩家角色生成腳步聲(筆者注:例如 CS 和吃雞里的腳步聲..)?大多數傳統遊戲,會通過少量預先錄制的腳步聲來解決這個問題:例如,在草地上行走、在礫石上行走、在草地上跑步、在礫石上跑步等等。這些聲音的發佈和管理都很繁瑣,而且運行的時候聽起來重復且不真實。

更好的方法是實時通過生成式 AI 的模擬音效,產生合適且更真實的的音效,通過遊戲中的參數,如地面、角色、的重量、步態、鞋類等不同的介質,表現出不同的音效。

音樂(遊戲配樂)

配樂對遊戲來說很重要,因為它可以幫助故事主題設定感情基調,就像在電影或電視中一樣。但由於遊戲持續的時間更長,有的時候能持續數百甚至數千小時,不變的音樂可能很快變得重復或令玩家厭煩。此外,由於遊戲具備互動性質,遊戲配樂很難完全精確地配合屏幕上隨機發生的場景和動作。

二十多年來,自適應音樂(Adaptive music)一直是遊戲配樂的一個受關注的話題,它可以一直追溯到微軟的「DirectMusic」系統,用於創建互動音樂。不過,DirectMusic 並沒有被廣泛採用,主要是因為用這種格式作曲難度較大,只有少數遊戲,如 Monolith 的《無人生還》,創造了真正的互動配樂(Monolith』s No One Lives Forever,)。

現在,有許多創業公司正在嘗試創造人工智能生成的音樂,如 Soundful、Musico、Harmonai、Infinite Album 和 Aiva,儘管目前的很多工具,如 Open AI 的 Jukebox,是高度計算密集型的,還不能實時運行,不過,一旦初始模型成功建立,實時運行將成為可能。

對話 & 語音(Speech and Dialog)

很多公司試圖為遊戲中的人物創造逼真的聲音,當然,由於計算機的語音合成歷史悠久,這並不少見,這些公司包括 Sonantic、Coqui、Replica Studios、Resemble.ai、Readspeaker.ai 等等。將生成式人工智能用於語音有多種優勢,這個賽道競爭也比較激烈。

即時對話生成。通常情況下,遊戲中的語音是由配音演員預先錄制的,但這些都僅限於死板的演講稿。有了生成式人工智能對話,角色可以說任何話,這就意味著可以對玩家的行為做出充分的反應。

角色扮演。許多玩家希望扮演與自己現實世界身份幾乎沒有相似之處的虛擬人物。然而,只要玩家用自己的聲音說話,這種幻想就會破滅,使用與玩家的化身相匹配的生成的聲音可以保持這種幻覺。

控制音效。通過 AI 生成語音時,我們可以控制聲音的細微差別,比如它的語調、轉折、情感共鳴、音素長度、口音等等。本地化(方便翻譯和國外推廣)。對話可以翻譯成任何語言,並以同樣的聲音說話,像 Deepdub 這樣的公司專門專注於這個細分市場。

NPC & 玩家角色

很多初創公司在研究使用生成式人工智能來創建可以互動的角色,除了遊戲中 NPC 的市場機會,虛擬助理或接待員也具備很大的增長空間。這種努力可以追溯到人工智能研究初期。

很多公司正在建立通用聊天機器人,其中許多是由類似於 GPT-3 的語言模型驅動的。少數公司專門試圖建立以娛樂為目的的聊天機器人,如 Replika 和 Anima,試圖建立虛擬陪伴者。電影《Her》(斯派克·瓊斯編劇並執導的一部科幻愛情片,由華金·菲尼克斯、斯嘉麗·約翰遜等主演)中展現的虛擬女友時代,可能很快就會到來。

現在可以看到這些聊天機器人平台的下一個迭代,如 Charisma.ai、Convai.com 或 Inworld.ai,除了可以渲染 3D 角色提供動力外,還具備情感呈現,工具可以讓創造者給這些角色設定目標,可以在融入遊戲或在推動情節發展中具有敘事性的地位,而不是純粹的擺設。

一體化平台

像 Runwayml.com 這樣最成功的生成式人工智能工具,可以將廣泛的創作者工具集於一身。不過,目前遊戲領域還沒有這樣的公司,A16Z 很想投資具備以下特點的生成式 AI 遊戲解決方案:

涵蓋整個製作過程的全套生成式人工智能工具:( 代碼、資產生成、紋理、音頻等 ) 能夠與流行的遊戲引擎如虛幻和 Unity 結合使用設計成適合典型的遊戲生產的通用場景套件工具。

總結

對於遊戲創作者來說,這是一個令人難以置信的時代。有一天,我們可以想象會出現專門為玩家定制的個性化的遊戲,完全基於玩家的需求。

這種場景在科幻小說中已經存在了很長時間 — 比如《安德的遊戲》中的「人工智能智力遊戲」,或者《星際迷航》中的全息甲板,這些都會在將到來的未來真正實現。

本文不構成投資建議,虛擬貨幣波動大請謹慎小心

掌握虛擬貨幣、區塊鏈大小事