GPT的橫空出世將全球的目光吸引至大語言模型,各行各業都嘗試著利用這個「黑科技」提高工作效率,加速產業發展。 Future3 Campus攜手Footprint Analytics共同深入研究AI與Web3結合的無限可能,共同發布了《AI與Web3數據產業融合現況、競爭格局與未來機會探析》研報。研究期刊分為上下兩篇,本文為上篇,由Footprint Analytics研究員Lesley、Shelly共同編撰。下篇由Future3 Campus研究員Sherry、Humphrey共同編撰。
摘要:
- LLM 技術的發展讓人們更加關注 AI 與 Web3 的結合,新的應用範式正在逐步展開。本文中,我們將重點放在如何利用 AI 提升 Web3 資料的使用體驗和生產效率。
- 由於業界尚處早期階段和區塊鏈技術的特性,Web3 資料產業面臨許多挑戰,包括資料來源、更新頻率、匿名屬性等,使得利用 AI 解決這些問題成為新關注點。
- LLM 相對於傳統人工智慧的可擴展性、適應性、效率提升、任務分解、可訪問性和易用性等優勢,為提高區塊鏈資料的體驗和生產效率提供了想像空間。
- LLM 需要大量高品質資料進行訓練,而區塊鏈領域垂直知識豐富且資料公開,可以為 LLM 提供學習素材。
- LLM 也可以幫助生產和提升區塊鏈資料的價值,例如資料清洗、標註、產生結構化資料等。
- LLM 不是萬靈藥,需要針對特定業務需求進行應用。既要利用 LLM 的高效率,同時也要注意結果的準確性。
AI 與 Web3 的發展與結合
- AI 的發展歷史
人工智慧(AI)的歷史可以追溯到上個世紀 50 年代。自 1956 年起,人們開始關注人工智慧這一領域,並逐漸發展了早期的專家系統,幫助專業領域解決問題。此後,機器學習的興起,拓展了 AI 的應用領域,AI 開始更廣泛地應用在各行各業。到如今,深度學習和生成式人工智慧爆發,帶給了人們無限可能性,其中的每一步都充滿了不斷的挑戰與創新,以追求更高的智慧水平和更廣泛的應用領域。
圖 1:AI 發展歷程
2022 年 11 月 30 日,ChatGPT 面世,首次展示了 AI 與人類低門檻、高效率互動的可能性。 ChatGPT 引發了對人工智慧的更廣泛探討,重新定義了與AI 互動的方式,使其變得更加高效、直觀和人性化,也推動了人們對更多生成式人工智慧的關注,Anthropic(Amazon) 、DeepMind(Google)、Llama 等模型也隨後進入人們的視野。同時,各行各業的從業人員也開始積極探索 AI 會如何推動他們所在領域的發展,或者尋求透過與 AI 技術的結合在行業中脫穎而出,進一步加速了 AI 在各個領域的滲透。
- AI 與 Web3 的交融
Web3 的願景從改革金融體系開始,旨在實現更多的使用者權力,並有望引領現代經濟和文化的轉變。區塊鏈技術為實現這一目標提供了堅實的技術基礎,它不僅重新設計了價值傳輸和激勵機制,還為資源分配和權力分散提供了支持。
圖 2:Web3 發展歷程
早在 2020 年,區塊鏈領域的投資公司第四次革命之都(4RC)就曾指出,區塊鏈技術將和 AI 結合,透過對金融、醫療、電子商務、娛樂等全球產業的去中心化,以實現對現有產業的顛覆。
目前,AI 與 Web3的結合,主要是兩大方向:
- 利用 AI 去提升生產力以及使用者體驗。
- 結合區塊鏈透明、安全、去中心化儲存、可追溯、可驗證的技術特點,以及 Web3 去中心化的生產關係,解決傳統技術無法解決的痛點或激勵社區參與,提高生產效率。
市場上 AI 與 Web3 的結合有以下的一些探索方向:
圖 3:AI 與 Web3 結合全景圖
- 資料:區塊鏈技術可以應用在模型資料儲存上,提供加密資料集,保護資料隱私和記錄模型使用資料的來源、使用情況,以及校驗資料的真實性。透過存取和分析儲存在區塊鏈上的數據,AI 可以提取有價值的信息,並用於模型訓練和優化。同時,AI 也可以作為資料生產工具,去提高 Web3 資料的生產效率。
- 演算法:Web3 中的演算法可以為 AI 提供更安全、可信任和自主控制的運算環境,為 AI 體統提供加密保障,在模型參數上,內嵌安全防護欄,防止系統被濫用或惡意操作。 AI 可以與 Web3 中的演算法進行交互,例如利用智能合約執行任務、驗證資料和執行決策。同時,AI 的演算法也可以為 Web3 提供更智慧化和高效的決策和服務。
- 算力:Web3 的分散式運算資源可以為 AI 提供高效能的運算能力。 AI 可以利用 Web3 中的分散式運算資源進行模型的訓練、資料分析和預測。透過將運算任務分發到網路上的多個節點,AI 可以加快運算速度,並處理更大規模的資料。
在本文中,我們將重點探討如何利用 AI 的技術,去提升 Web3 資料的生產效率以及使用體驗。
Web3 資料現狀
2.1 Web2 & Web3 資料產業對比
作為 AI 最核心的組成部分“數據”,在 Web3 跟我們熟悉的 Web2 有很多的區別。差異主要在於 Web2 以及 Web3 本身的應用架構導致其產生的資料特徵有所不同。
- 網路2 &網路3 應用架構對比
圖 4:Web2 & Web3 應用架構
在Web2 架構中,通常是由單一實體(通常是一家公司)來控制網頁或APP,公司對於他們構建的內容有著絕對的控制權,他們可以決定誰可以訪問其伺服器上的內容和邏輯,以及用戶擁有怎樣的權益,也可以決定這些內容在網路上存在的時間長度。許多案例表明,網路公司有權改變其平台上的規則,甚至中止為用戶提供服務,而用戶對此無法保留所創造的價值。
而 Web3 架構則藉助了通用狀態層(通用狀態層)的概念,將一部分或全部的內容和邏輯放置在公共區塊鏈上。這些內容和邏輯是公開記錄在區塊鏈上的,可供所有人訪問,用戶可以直接控制鏈上內容和邏輯。而在 Web2 中,使用者需要帳戶或 API 金鑰才能與區塊鏈上的內容互動。使用者可以直接控制其對應的鏈上內容和邏輯。不同於 Web2,Web3 使用者無需授權帳戶或 API 金鑰就能與區塊鏈上的內容互動(特定管理作業除外)。
- Web2 與 Web3 資料特徵對比
圖 5:Web2 與 Web3 資料特徵對比
Web2 資料通常表現為封閉且高度受限的,具有複雜的權限控制,高度成熟、多種資料格式、嚴格遵循行業標準,以及複雜的業務邏輯抽象化。這些資料規模龐大,但互通性相對較低,通常儲存在中央伺服器上,且不注重隱私保護,大多數是非匿名的。
相較之下,Web3 資料更加開放,存取權限更廣泛,儘管成熟度較低,以非結構化資料為主,標準化較為罕見,業務邏輯抽象相對簡化。 Web3 的數據規模相對 Web2 較小,但它具有較高的互通性(例如 EVM 相容),並可分散或集中儲存數據,同時強調用戶隱私,用戶通常採用匿名方式進行鏈上互動。
- 網路3 數據產業現況與前景,以及遇到的挑戰
在 Web2 時代,數據如石油的“儲量”般珍貴,存取和獲取大規模數據一直是極大的挑戰。在 Web3 中,資料的開放性和共享性一下子讓大家覺得“石油到處都是”,使得 AI 模型能夠更輕鬆地獲取更多的訓練數據,這對於提高模型效能和智慧水平至關重要。但對 Web3這個“新石油” 的數據處理仍有許多問題待解決,主要有以下幾個:
- 資料來源:鏈上數據“標準「繁雜分散,資料處理花費大量人工成本
處理鏈上資料時,需要重複執行耗時且勞力密集的索引過程,需要開發者和資料分析師花費大量時間和資源來適應不同鏈、不同專案之間的資料差異。鏈上數據產業缺乏統一的生產和處理標準,除了記錄到區塊鏈帳本上的,events,logs,and traces 等基本上都是專案自己定義和生產(或生成)的,這導致非專業交易者很難辨別並找到最準確和可信的數據,增加了他們在鏈上交易和投資決策中的困難。例如,去中心化交易所 Uniswap 和 Pancakeswap 就有可能在資料處理方法和資料口徑上有差異,流程中的檢查和統一口徑等工序進一步加大了資料處理的複雜性。
- 數據更新:鏈上數據體量大且更新頻率高,難以及時處理成結構化數據
區塊鏈是時刻變動的,數據更新以秒甚至毫秒等級計。數據的頻繁產生和更新使其難以維持高品質的數據處理和及時的更新。因此,自動化的處理流程是十分重要的,這也是對於資料處理的成本和效率的一大挑戰。Web3 資料產業仍處於初級階段。隨著新合約的層出不窮和迭代更新,資料缺乏標準、格式多樣,進一步增加了資料處理的複雜性。
- 數據分析:鏈上數據的匿名屬性,導致數據身份難以區分
鏈上資料通常不包含足夠的資訊來清晰識別每個地址的身份,這使得資料在與鏈下的經濟、社會或法律動向難以連動。但是鏈上資料的動向與現實世界緊密相關,了解鏈上活動與現實世界中特定個體或實體的關聯性對於特定的場景例如資料分析來說十分重要。
隨著大語言模型(LLM)技術引發的生產力變更討論,能否利用 AI 來解決這些挑戰也成為 Web3 領域的一個焦點關注之一。
AI給予網路3 數據碰撞產生的化學反應
3.1 傳統 AI 與 LLM 的特徵對比
在模型訓練方面,傳統 AI 模型通常規模較小,參數數量在數萬到數百萬之間,但為了確保輸出結果的準確性,需要大量的人工標註資料。 LLM 之所以如此強大,部分原因在於其使用了海量的語料來擬合百億、千億級以上的參數,大大提升了它對自然語言的理解能力,但這也意味著需要更多的數據來進行訓練,訓練成本相當高。
在能力範圍和運作方式上,傳統 AI 更適合特定領域的任務,能夠提供相對精準和專業的答案。相較之下,LLM 更適合通用性任務,但容易產生幻覺問題,這意味著在某些情況下,它的答案可能不夠精確或專業,甚至完全錯誤。因此,如果需要和客觀,可信任,和可以追溯的結果,可能需要進行多次檢查、多次訓練或引入額外的糾錯機制和框架。
圖 6:傳統 AI 與大模型語言模型 (LLM)的特徵對比
3.1.1 傳統 AI 在 Web3 資料領域的實踐
傳統 AI 在區塊鏈數據產業中已經展現了其重要性,為這一領域帶來了更多創新和效率。例如,0xScope 團隊採用 AI 技術,建立了基於圖計算的群集分析演算法,透過不同規則的權重分配來幫助準確識別使用者之間的相關位址。這種深度學習演算法的應用提高了位址群集的準確性,為資料分析提供了更精確的工具。 Nansen 則將 AI 用於 NFT 價格預測,透過資料分析和自然語言處理技術,提供有關 NFT 市場趨勢的見解。另一方面,Trusta Labs 使用了基於資產圖譜挖掘和用戶行為序列分析的機器學習方法,以增強其女巫檢測解決方案的可靠性和穩定性,有助於維護區塊鏈網路生態的安全。戈普拉斯 在其營運中利用傳統人工智慧來提高去中心化應用程式(dApps)的安全性和效率。他們收集和分析來自 dApp 的安全訊息,提供快速風險警報,幫助降低這些平台的風險敞口。這包括透過評估開源狀態和潛在惡意行為等因素來檢測 dApp 主合約中的風險,以及收集詳細的審計信息,包括審計公司憑證、審計時間和審計報告連結。Footprint Analytics 則使用 AI產生生產結構化資料的程式碼,分析 NFT 交易 Wash trading 交易以及機器人帳戶篩選排查。
然而,傳統 AI 擁有的資訊有限,專注於使用預定的演算法和規則執行預設任務,而 LLM 則透過大規模的自然語言資料學習,可以理解和產生自然語言,這使其更適合處理複雜且巨量的文字資料。
最近,随着 LLM 取得了显著进展,人们对 AI 与 Web3 数据的结合,也进行了一些新的思考与探索。
3.1.2 LLM 的優勢
LLM 相對於傳統人工智慧具有以下優勢:
- 可擴充性:LLM 支援大規模資料處理
LLM 在可擴展性方面表現出色,能夠有效處理大量資料和使用者互動。這使其非常適合處理需要大規模資訊處理的任務,例如文字分析或大規模資料清洗。其高度的數據處理能力為區塊鏈數據產業提供了強大的分析和應用潛力。
- 適應性:LLM 可學習適應多領域需求
LLM 具備卓越的適應性,可以為特定任務微調或嵌入產業或私有資料庫,使其能夠迅速學習並適應不同領域的細微差別。這項特性使 LLM 成為了解決多領域、多用途問題的理想選擇,為區塊鏈應用的多樣性提供了更廣泛的支援。
- 提高效率:LLM 自動化任務提高效率
LLM 的高效率为区块链数据行业带来了显著的便利。它能够自动化原本需要大量人工时间和资源的任务,从而提高生产力并降低成本。LLM 可以在几秒内生成大量文本、分析海量数据集,或执行多种重复性任务,从而减少了等待和处理时间,使区块链数据处理更加高效。
- 任務分解:可以產生某些工作的具體計劃,把大的工作分成小步驟
LLM Agent 具備獨特的能力,即可以產生某些工作的具體計劃,將複雜任務分解為可管理的小步驟。這項特性對於處理大規模的區塊鏈資料和執行複雜的資料分析任務非常有益。透過將大型工作分解成小任務,LLM 可以更好地管理資料處理流程,並輸出高品質的分析。
這項能力對於執行複雜任務的 AI 系統至關重要,例如機器人自動化、專案管理和自然語言理解與生成,使其能夠將高階任務目標轉化為詳細的行動路線,提高任務執行的效率和準確性。
- 可訪問性和易用性:LLM 以自然語言提供用戶友好互動
LLM 的可訪問性使更多用戶能夠輕鬆與數據和系統互動,讓這些互動更加用戶友好。透過自然語言,LLM 使資料和系統更容易存取和交互,無需使用者學習複雜的技術術語或特定指令,例如,SQL,R,Python 等來做資料擷取和分析。這項特性拓寬了區塊鏈應用的受眾範圍,讓更多的人能夠存取和使用 Web3 應用和服務,無論他們是否精通技術,從而促進了區塊鏈數據行業的發展和普及。
3.2 LLM 與 Web3 資料的融合
圖 7:區塊鏈資料與 LLM 的融合
大型語言模型的訓練需要依賴大規模數據,透過學習資料中的模式來建立模型。區塊鏈資料中蘊含的互動和行為模式是 LLM 學習的燃料。資料量和品質也直接影響 LLM 模型的學習效果。
數據不僅僅是 LLM 的消耗品,LLM 還有助於生產數據,甚至可以提供回饋。例如,LLM 可以協助資料分析師在資料預處理方面做出貢獻,如資料清洗和標註,或產生結構化數據,清除資料中的噪聲,凸顯有效資訊。
3.3 增強 LLM 的常用技術解決方案
ChatGPT 的出現,不僅向我們展示了 LLM 解決複雜問題的通用能力,同時也引發了全球性的,對在通用能力上去疊加外部能力的探索。這裡包括,通用能力的增強(包括上下文長度、複雜推理、數學、程式碼、多模態等)以及外部能力的擴充(處理非結構化資料、使用更複雜的工具、與物理世界的互動等)。如何將 crypto 領域的專有知識以及個人的個人化私有資料嫁接到大模型的通用能力上,是大模型在 crypto 垂直領域商業化落地的核心技術問題。
目前,大多數應用都集中在檢索增強生成(RAG)上,例如提示工程和嵌入技術,已經存在的代理工具也大多聚焦於提高 RAG 工作的效率和準確性。市場上主要的基於 LLM 技術的應用堆疊的參考架構有以下幾種:
- 及時工程
圖 8:Prompt Engineering
目前,大多數從業者在建立應用時採用基礎解決方案,即 Prompt Engineering。此方法透過設計特定的 Prompt 來改變模型的輸入,以滿足特定應用的需求,是最方便快速的做法。然而,基礎的 Prompt Engineering 存在一些限制,例如資料庫更新不及時、內容冗餘、以及對輸入上下文長度(In-Context Length)的支援和多輪問答的限制。
因此,業界也在研究更先進的改進方案,包括嵌入(Embedding)和微調(Fine-tuning)。
- 嵌入(Embedding)
嵌入(Embedding)是一種廣泛應用於人工智慧領域的資料表示方法,可高效捕捉物件的語意資訊。透過將物件屬性映射成向量形式,嵌入技術能夠透過分析向量之間的相互關係,快速找到最有可能正確的答案。嵌入可以在 LLM 的基礎上構建,以利用該模型在廣泛語料中學到的豐富語言知識。透過嵌入技術將特定任務或領域的資訊引入預訓練的大模型中,使得模型更專業化,更適應特定任務,同時保留了基礎模型的通用性。
用通俗的話來講,嵌入就類似於你給一個經過綜合訓練的大學生一本工具書,讓他拿著擁有特定任務相關知識的工具書去完成任務,他可以隨時查閱工具書,然後可以解決特定的問題。
- 微調(Fine-tuning)
圖 9:Fine Tuning
微調(Fine-tuning)與嵌入不同,透過更新已經預先訓練的語言模型的參數,使其適應特定任務。這種方法允許模型在特定任務上表現出更好的性能,同時保持通用性。微調的核心思想是調整模型參數,捕捉與目標任務相關的特定模式和關係。但微調的模型通用能力上限仍受限於基座模型本身。
用通俗的話來講,微調就類似於給經過綜合訓練的大學生上專業知識課程,讓他掌握除了綜合能力以外的專業課知識,能自行解決專業板塊的問題。
- 重新訓練 LLM
目前的 LLM 雖然強大,但不一定能夠滿足所有需求。重新訓練 LLM 是一種高度客製化的解決方案,透過引入新資料集和調整模型權重,使其更適應特定任務、需求或領域。然而,這種方法需要大量計算資源和數據,管理和維護重新訓練後的模型也是挑戰之一。
- Agent 模型
圖 10:Agent 模型
Agent 模型是一種建立智慧代理的方法,它以 LLM 作為核心控制器。這個系統還包括幾個關鍵組成部分,以提供更全面的智慧。
- Planning,規劃:將大任務分成小任務,這樣比較容易完成
- Memory,反思:透過反思過去的行為,改進未來的計劃
- Tools,工具使用:代理可以調用外部工具獲取更多信息,如調用搜尋引擎、計算器等
人工智慧代理模式具備強大的語言理解和生成能力,能夠解決通用問題,進行任務分解以及自我反思。這使得它在各種應用中都有廣泛的潛力。然而,代理模型也存在一些局限性,例如受到上下文長度的限制、長期規劃和任務拆分容易出錯、輸出內容的可靠性不穩定等問題。這些限制需要長期不斷的研究和創新,以進一步拓展代理模型在不同領域的應用。
以上的各種技巧並不是互相排斥的,它們可以在訓練和增強同一個模型的過程中一起使用。開發者可以充分發揮現有大語言模型的潛力,嘗試不同的方法,以滿足日益複雜的應用需求。這種綜合使用不僅有助於提高模型的效能,還有助於推動 Web3 技術的快速創新和進步。
然而,我們認為,雖然現有的LLM 已經在Web3 的快速發展中發揮了重要作用,但在充分嘗試這些現有模型(如OpenAI、Llama 2 以及其他開源LLM)之前,我們可以從淺入深,從prompt engineering 和嵌入等RAG 策略入手,謹慎考慮微調和重新訓練基礎模型。
3.4 LLM 如何加速區塊鏈資料生產的各個流程
3.4.1 區塊鏈數據的一般處理流程
當今,區塊鏈領域的建構者逐漸認識到數據產品的價值。這一價值涵蓋了產品營運監控、預測模型、推薦系統以及數據驅動的應用程式等多個領域。儘管這項認知逐漸增強,但作為資料取得到資料應用中不可或缺的關鍵步驟,資料處理往往被忽略。
圖 12:區塊鏈數據處理流程
- 將區塊鏈原始非結構化數據,如 events 或 logs 等,轉換為結構化的數據
區塊鏈上的每一筆交易或事件都會生成 events 或 logs,這些數據通常是非結構化的。這一步驟是獲取資料的第一入口,但資料仍需要進一步處理以提取有用信息,以獲得結構化的原始資料。這包括整理資料、處理異常情況和轉換為通用格式。
- 將結構化的原始數據,轉換為具有業務意義的抽象表
在得到結構化原始資料後,需要進一步進行業務抽象,將資料對應到業務實體和指標上,例如交易量、使用者量等業務指標,將原始資料轉化為對業務和決策有意義的資料。
- 從抽象表中,計算提取業務指標
有了抽象的業務資料後,可以在業務抽象的資料上進一步計算,就可以得出各種重要的衍生指標。例如交易總額的月增長率、用戶留存率等核心指標。這些指標可以藉助 SQL、Python 等工具實現,更有可能幫助監控業務健康、了解使用者行為和趨勢,從而支援決策和策略規劃。
3.4.2 區塊鏈數據生成流程加入 LLM 後的最佳化
LLM 在區塊鏈資料處理中可以解決多個問題,包括但不限於以下內容:
處理非結構化資料:
- 從交易日誌和事件中提取結構化資訊: LLM 可以分析區塊鏈的交易日誌和事件,提取其中的關鍵信息,如交易金額、交易方地址、時間戳記等,將非結構化資料轉化為的帶有業務意義的數據,使其更易於分析和理解。
- 清洗數據,識別異常數據: LLM 可以自動識別和清洗不一致或異常的數據,幫助確保數據的準確性和一致性,從而提高數據品質。
進行業務抽象化:
- 將原始鏈上資料對應到業務實體: LLM 可以將原始區塊鏈資料對應到業務實體,例如將區塊鏈位址對應到實際使用者或資產,使業務處理更加直觀和有效。
- 處理非結構化鏈上內容,打標籤: LLM 可以分析非結構化數據,如Twitter 情感分析結果,將其標記為正面、負面或中性情感,從而幫助用戶更好地理解社交媒體上的情感傾向。
自然語言解讀數據:
- 計算核心指標: 基於業務抽象,LLM 可以計算核心業務指標,如用戶交易量、資產價值、市場份額等,以幫助用戶更了解其業務的關鍵績效。
- 查詢資料: LLM 可以透過 AIGC,理解使用者意圖,產生 SQL 查詢,使用戶能夠以自然語言提出查詢請求,而不必編寫複雜的 SQL 查詢語句。這增加了資料庫查詢的可訪問性。
- 指標選擇、排序和相關性分析: LLM 可以幫助使用者選擇、排序和分析不同的多個指標,以便更好地理解它們之間的關係和相關性,從而支持更深入的數據分析和決策。
- 產生商業抽象的自然語言描述: LLM 可以根據事實數據,產生自然語言摘要或解釋,以幫助使用者更好地理解業務抽象和數據指標,提高可解釋性,並使決策更具合理性。
3.5 目前用例
根據 LLM 本身的技術以及產品體驗優勢,它可以被應用到不同的鏈上資料場景,技術上從易到難可以將這些場景分成四類:
- 資料轉換:進行資料增強、重構等操作,如文字摘要、分類、資訊擷取。這類應用開發較快,但更適合通用場景,較不適合大量資料的簡單批量化處理。
- 自然語言介面:將 LLM 連接知識庫或工具,實現問答或基本工具使用的自動化。這可以用於建立專業聊天機器人,但其實際價值受其所連接的知識庫品質等其他因素影響。
- 工作流程自動化:使用 LLM 實現業務流程的標準化和自動化。這可以應用於較複雜的區塊鏈資料處理流程,如解構智慧合約運作流程、風險識別等。
- 協助機器人與助手輔助系統:輔助系統是在自然語言介面的基礎上,整合更多資料來源與功能的增強系統,大幅提升使用者工作效率。
圖 11:LLM 應用場景
3.6 LLM 的局限性
3.6.1 產業現況:成熟應用、正在攻克的問題以及尚未解決的挑戰
在 Web3 資料領域,儘管已經取得了一些重要的進展,但仍面臨一些挑戰。
相對成熟的應用:
- 使用 LLM 進行訊息處理:LLM 等 AI 技術已成功用於產生文字摘要、總結、解釋等工作,幫助用戶從長篇文章、專業報告中提取關鍵訊息,提高了數據的可讀性和可理解性。
- 使用 AI 解決開發問題: LLM 已經應用於解決開發過程中的問題,例如取代StackOverflow 或搜尋引擎,為開發者提供問題解答和程式支援。
有待解決與正在探索的問題:
- 利用 LLM產生程式碼: 業界正在努力將 LLM 技術應用於自然語言到 SQL 查詢語言的轉換,以提高資料庫查詢的自動化和可理解性。然而,過程中會有很多困難,例如在某些情境下,產生的程式碼要求極高的準確性,語法必須百分之百正確,以確保程式能夠無 bug 運行,並獲得正確的結果。難點還包括確保問題回答的成功率、正確率,以及對業務的深刻理解。
- 資料標註問題: 資料標註對於機器學習和深度學習模型的訓練至關重要,但在 Web3 資料領域,特別是處理匿名的區塊鏈資料時,標註資料的複雜性較高。
- 準確度和幻覺(Hallucination)問題:AI 模型中幻覺的出現可能受多因素影響,包括偏見或不足的訓練資料、過度適合度、有限的上下文理解、缺乏領域知識、對抗性攻擊和模型架構。研究人員和開發者需要不斷改進模型的訓練和校準方法,以提高生成文本的可信度和準確性。
- 利用資料進行業務分析和文章輸出: 將資料用於商業分析和產生文章仍然是一個具有挑戰性的問題。問題的複雜性、需要精心設計的提示(prompt)、以及高品質的數據、數據量、減少幻覺問題的方法都是待解決的問題。
- 根據業務領域自動索引智慧合約資料以進行資料抽象化: 自動為不同業務領域的智慧合約資料建立索引以進行資料抽象化仍然是一個未解決的問題。這需要綜合考慮不同業務領域的特點,以及資料的多樣性和複雜性。
- 處理時序數據,表格文件數據等更複雜的模態:DALL·E 2 等多模態模型非常擅長在文字生成圖像、語音等常見模態。而在區塊鏈以及金融領域需要特別地處理一些時序數據,而非簡單地把文字向量化就能解決。聯和時序資料與文本,跨模態聯合訓練等,是實現資料智慧分析以及應用的重要研究方向。
3.6.2 為何只靠法學碩士 不能完美解決區塊鏈數據產業的問題
作為語言模型,LLM 更適用於處理流暢度要求較高的場景,而在追求準確性方面,可能需要對模型進行更進一步的調整。在將 LLM 應用於區塊鏈資料產業時,以下框架可提供一些參考。
圖 13:區塊鏈資料產業下 LLM 輸出的流暢性、準確性和用例風險
在評估 LLM 在不同應用中的適用性時,專注於流暢度和準確性是至關重要的。流暢度指的是模型的輸出是否自然、通順,準確度則表示模型的答案是否準確。這兩個維度在不同應用場景中有不同的要求。
對於流暢度要求較高的任務,如自然語言生成、創意寫作等,LLM 通常能夠勝任,因為其在自然語言處理方面的強大性能使其能夠生成流暢的文本。
區塊鏈資料面臨資料解析、資料處理、資料應用等多面向的問題。 LLM 擁有卓越的語言理解和推理能力,使其成為與區塊鏈資料互動、整理和概括的理想工具。然而,LLM 並不能解決所有區塊鏈資料領域的問題。
在資料處理方面,LLM 更適合快速迭代和探索性處理鏈上數據,不斷嘗試新的處理方法。然而,LLM 在生產環境中的詳細核對等任務方面仍存在一些限制。典型的問題是 token 長度不夠,無法應付長上下文的內容。耗時的 prompt,回答不穩定性影響下游任務進而導致成功率不穩定的問題,以及執行大批量任務的效率不高。
其次,LLM 處理內容的過程中很可能會出現幻覺問題。據估計,ChatGPT 的幻覺機率約為 15% 至 20%,而由於其處理過程的不透明性,許多錯誤難以察覺。因此,框架的建立和專家知識的結合變得至關重要。此外,LLM 結合鏈上數據還是有許多挑戰:
- 鏈上資料實體類型多、數量龐大,以何種形式投餵給 LLM,有效地運用在具體的商業化場景,類似其他垂直行業,需要更多研究和探索。
- 鏈上數據包括結構化和非結構化數據,目前業界大多數數據解決方案,都是基於對業務數據的理解。解析鏈上資料的過程中,用 ETL 去過濾,清洗,補充和復原業務邏輯,進一步把非結構化資料整理為結構化數據,可以為後期多種業務場景提供更有效率的分析。比如,結構化的 DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高質量,高價值,準確和真實等特點,可以給通用 LLM 提供高效的補充。
4. 被誤解的法學碩士
4.1 LLM 可以直接處理非結構化數據,因此結構化資料將不再被需要?
LLM 通常是基於海量文字資料預訓練而來,自然適合處理各類非結構化的文字數據。然而,各產業已經擁有大量結構化數據,尤其是 Web3 領域中解析後的數據。如何有效的利用這些數據,增強 LLM,是一個行業的熱門研究主題。
對於 LLM,結構化資料仍然具有以下的優勢:
- 海量:大量的資料儲存在各種應用背後的資料庫和其他標準格式裡面,特別是私有資料。每個公司和行業都還有大量 LLM 沒有用於預訓練的牆內資料。
- 已有:這些數據不需要重新生產,投入成本極低,唯一的問題是怎麼用起來。
- 高品質和高價值:領域內長期累積的,蘊含專家的專業知識,通常都沉澱到了結構化資料裡面,用於產學研究。結構化資料的品質是資料可用性的關鍵,其中包括資料的完整性、一致性、準確性、唯一性和事實性。
- 高效率:結構化資料以表格、資料庫或其他規範格式存儲,模式是預先定義的,並且在整個資料集中保持一致。這意味著資料的格式、類型和關係都是可預測和可控的,使得資料的分析和查詢更加簡單和可靠。而且,業界已經有成熟的 ETL 及各種資料處理和管理工具,使用起來也更有效率、便利。 LLM 可以透過 API,把這些資料使用起來。
- 準確性與事實性:LLM 的文字數據,基於 token 機率,目前還不能穩定的輸出確切的答案,產生的幻覺問題一直是 LLM 要解決的核心根本問題。對於許多行業和場景,會形成安全和可靠性問題,例如,醫療,金融等。結構化數據,正是可以輔助和矯正LLM 這些問題的一個方向。
- 體現關係圖譜,和特定業務邏輯:不同類型的結構化數據,可以以特定的組織形式(關係型資料庫,圖資料庫等),輸入到 LLM,解決不同類型的領域問題。結構化資料使用標準化的查詢語言(如 SQL),使得對資料進行複雜的查詢和分析變得更有效率和準確。知識圖譜 (Knowledge Graph) 可以更好地表達實體之間的關係,也更容易進行關聯查詢。
- 使用成本低:不用 LLM 每次重新從底層重新訓練整個底座模型,可以結合 Agents 和LLM API 等 LLM 賦能方式,更快更低成本的接取 LLM。
目前市場上還有一些腦洞大開的觀點,認為LLM 在處理文字資訊和非結構化資訊方面的能力極強,只需將原始數據,包括非結構化數據,簡單導入到LLM,就能達到目的。這個想法類似於要求通用 LLM 解數學題,在沒有專門建構數學能力模型的情況下,大多數 LLM 可能會在處理簡單的小學加減題時出錯。反而,建立類似數學能力模型,而影像產生模型的 Crypto LLM 垂直模型,才是解決 LLM 在 Crypto 領域更落地的實踐。
4.2 LLM 可以從新聞、推特等文字訊息推測內容,人們不再需要鏈上數據分析來得出結論?
LLM 雖然可以從新聞、社交媒體等文本中獲得信息,但直接從鏈上數據中獲得的洞察仍然是不可或缺的,主要原因有:
- 鏈上資料是原始的第一手資訊,而新聞和社群媒體中的資訊可能存在片面性或誤導性。直接分析鏈上數據可以減少資訊偏差。儘管利用 LLM 進行文字分析存在理解偏差的風險,但直接分析鏈上資料可以減少誤讀。
- 鏈上資料包含全面的歷史互動和交易記錄,分析可以發現長期趨勢和模式。鏈上資料還可以展現整個生態系的全貌,如資金流向、各方關係等。這些宏觀的洞察有助於更深入地理解狀況。而新聞和社群媒體訊息通常更零散且短期。
- 鏈上資料是開放的。任何人都可以驗證分析結果,避免資訊的不對稱。而新聞和社群媒體未必如實揭露。文字資訊和鏈上資料可以相互驗證。綜合兩者可以形成更立體和準確的判斷。
鏈上數據分析仍是不可或缺的。 LLM 從文本中獲取資訊具有輔助作用,但不能取代直接分析鏈上資料。充分利用兩者優勢才能達到最佳效果。
4.3 利用 LangChain、LlamaIndex 或其他 AI 工具,在 LLM 的基礎上建立區塊鏈數據解決方案非常容易?
LangChain 和 LlamaIndex 等工具為建立自訂的簡單 LLM 應用提供了便利,使快速建造成為可能。然而,將這些工具成功應用於實際生產環境中涉及更多的挑戰。建立一個高效運作、維持高品質的 LLM 應用是一項複雜的任務,需要深入理解區塊鏈技術和 AI 工具的工作原理,並有效地將它們整合在一起。這對於區塊鏈資料產業來說,是一項重要但具有挑戰性的工作。
在這個過程中,必須認識到區塊鏈資料的特性,它要求極高的精準性和可重複校驗性。一旦數據通過 LLM 進行處理和分析,用戶對其準確性和可信度有很高的期望。這與 LLM 的模糊容錯性之間存在著潛在的矛盾。因此,在建立區塊鏈數據解決方案時,必須仔細權衡這兩方面的需求,以滿足用戶的期望。
在當前市場上,雖然已經有了一些基礎工具,但這個領域仍在快速演進和不斷迭代。類比於Web2 世界的發展歷程,從最初的PHP 程式語言到更成熟、可擴展的方案如Java、Ruby、Python,以及JavaScript 和Node.js 等,再到Go 和Rust 等新興技術,都經歷了不斷的演變。 AI 工具也在不斷變化,新興的 GPT 框架如 AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的 ChatGPT 4.0 Turbo 的 GPTs 和 Agents 等只是展示了未來可能性的一部分。這表明,區塊鏈數據產業和 AI 技術都還有許多發展空間,需要不斷努力和創新。
目前在應用 LLM 時,有兩個陷阱需要特別注意:
- 期望值過高:很多人認為 LLM 可以解決一切問題,但實際上 LLM 有明顯的限制。它需要大量的運算資源,訓練成本高昂,而且訓練過程可能不穩定。對 LLM 的能力要有現實的期望,並明白它在某些場景下表現出色,如自然語言處理和文本生成,但在其他領域可能無法勝任。
- 忽視業務需求:另一個陷阱是強行應用 LLM 技術,而不充分考慮業務需求。在應用 LLM 之前,請務必明確具體的業務需求。需要評估 LLM 是否是最佳技術選擇,並做好風險評估與控制。強調 LLM 的有效應用需要根據實際情況慎重考慮,避免誤用。
儘管 LLM 在許多領域都具備巨大潛力,但開發者和研究者在應用 LLM 時需要保持謹慎,採取開放的探索態度,以找到更適合的應用情境並最大程度地發揮其優勢。
本文由Footprint Analytics、未來3校園、HashKey Capital 聯合發布。
Footprint Analytics是一家區塊鏈數據解決方案提供商。借助尖端的人工智慧技術,我們提供 Crypto 領域首家支援無程式碼資料分析平台以及統一的資料 API,讓用戶可以快速檢索超過 30 條公鏈生態的 NFT,GameFi 以及 錢包地址資金流追蹤資料。
Footprint官網:https://www.footprint.network
推特:https://twitter.com/Footprint_Data
微信公眾號:Footprint 區塊鏈分析
加入社群:加助手微信拉群組 footprint_analytics
Future3 Campus是由萬向區塊鏈實驗室和HashKey Capital共同發起的Web3.0創新孵化平台,重點聚焦Web3.0 Massive Adoption、DePIN、AI三大賽道,以上海、粵港澳大灣區、新加坡為主要孵化基地,輻射全球Web3.0生態。同時,Future3 Campus將推出首期5,000萬美金的種子基金用於Web3.0計畫孵化,真正服務於Web3.0領域的創新創業。
HashKey Capital 是一家專注於投資區塊鏈技術及數位資產的資產管理機構,目前資產管理規模超10億美元。作為亞洲最具規模及影響力的區塊鏈投資機構之一,同時也是以太坊最早的機構投資者,HashKey Capital發揮頭雁效應,連結Web2與Web3,與創業者、投資者、社區和監管機構攜手共建永續發展的區塊鏈生態體系。公司位於中國香港、新加坡、日本、美國等地,現已率先佈局橫跨Layer 1、協議、Crypto Finance、Web3基礎設施、應用、NFT、Metaverse等賽道的全球被投企業500餘家,代表性被投項目包括Cosmos, Coinlist, Aztec, Blockdaemon, dYdX, imToken, Animoca Brands, Falcon X, Space and time, Mask Network, Polkadot, Moonbeam and Galxe (原Project Galaxy)等。