摘要：

在這次分享中，我想先從大型語言模型如何協助佛學的語言分析開始。我將以「空」為例，探討此概念的歷時語意演變，特別是同素異序之雙音節並列結構詞彙之間的競爭與語意轉化。(計算語言學) 接著，我將試圖探討佛學中的「空性」（Śūnyatā）與機器學習表徵模型之間的相似性，對於模型解釋與發展提供新的角度。（計算哲學）

語言與觀念的轉化：文字般若的當代應用

將佛教經典（如《心經》或《金剛經》）轉化為AI可理解的形式，並讓AI進行文本分析與語意詮釋。

詞彙語意分析

「空」「無」「無常」「虛無」「空性」

「有」

embeddings
歷時語意演變分析
同素異序之雙音節並列結構詞彙的競爭與語意轉化空虛｜虛空

空性（Śūnyatā）與機器學習模型

空性（Śūnyatā）是佛教中非常深奧的哲學概念，主要描述所有現象的「無自性」（absense of inherent existence），即萬事萬物並無一個固定不變的本質，不是固定不變的實體存在，而是依賴於無數條件、因緣和合（Pratītyasamutpāda, interdependent origination）而存在。

這種觀點與機器學習中的模型學習、特徵表徵（feature representation）、甚至神經網絡的權重更新過程有一些非常有趣的聯繫。

「無自性」：特徵表示的流動性與條件依賴性

空性強調任何事物都不是單獨、獨立存在的，而是依靠多重條件而生。這個概念可以與機器學習中「特徵表示」的學習過程聯繫起來。

特徵表示的條件依賴性在深度神經網絡中，每一層學習到的特徵表示（feature representation）是依賴於前一層輸出與網絡權重的條件而生成的。這些特徵表示（例如 CNN 中的邊緣檢測器、形狀檢測器）並非固定不變的實體，而是在不同的資料環境、不同的訓練策略下可以有不同的形式。換句話說，特徵表示的本質是無定型的，它們取決於所學習的資料、模型架構、訓練過程等條件，這正是「無自性」的體現。
向量表示的非固定性：詞向量的空性特質例如在自然語言處理中，詞向量（word embeddings）代表了每個詞在高維向量空間中的一個點。然而，這個向量表示是動態的，並會隨著模型、語料、甚至語境的不同而發生變化。對於某個詞（如 “bank”），它在金融領域與河流領域中具有完全不同的表示。這意味著詞向量的意涵並不是一個固定的本質，而是隨著資料的變化而變化的條件產物，正如佛教所說的「緣生性」（dependent origination）與「無自性」。

「因緣和合」：模型結構的依賴關係與條件生成

空性中的「因緣和合」觀點認為，所有現象都是眾多因緣條件的暫時組合。當條件改變時，現象的形式也隨之改變。在機器學習中，我們可以將這個觀點映射到模型的結構設計和調整過程。

神經網絡層之間的條件相依性在深度學習中，模型中的每一層（如卷積層、注意力機制層）都是在其他層的基礎上建立起來的。每一層的輸出依賴於前一層的表示和當前層的權重設定。當我們更改某一層的權重時，後續所有層的輸出也會發生變化。這就如同佛教中所說的「此有故彼有」（when this exists, that comes to be）：各層之間相互依賴，無一獨立存在，只有在特定的條件下才能顯現出當前的模式。
生成模型中的條件生成（Conditional Generation）例如，變分自編碼器（Variational Autoencoder, VAE）和生成對抗網絡（GAN）都是基於特定條件生成新樣本的模型。VAE 中，潛在變量（latent variables）是通過與輸入樣本的相互關係來生成新資料的，而 GAN 的生成器則依賴於與判別器（Discriminator）的對抗性條件才能生成高質量的樣本。這些生成過程反映了「因緣和合」的觀點：模型中的任何輸出都是依賴於多種條件的組合，最終形成我們看到的結果。

「空性」：模型中的「表示空間」與潛在語意的多重流動性

在機器學習中，模型學習到的知識通常表示為一個高維度的「特徵空間」或「表示空間」（representation space），這些空間並不是實體的對象，而是模式的集合。這些表示空間的變動性和抽象性揭示了「空性」的特質。

表示空間中的空性：自編碼器與表示壓縮在自編碼器（Autoencoder）模型中，原始資料被壓縮到潛在空間（latent space）中。這個潛在空間中的每一個點雖然代表了原始資料的一個抽象表示，但它本身並不具有固定的形態或意涵。它只是某個條件集合的符號化表徵，隨著模型訓練過程的變化而改變。因此，潛在空間中的表示是一種「空的表示」：它僅僅是可能性的表現，而不是某個具體物體的再現。
生成模型的空性與虛擬現象的顯現生成模型（如 GAN）在創造圖像、語音或文本時，它所生成的現象（如一張逼真的人臉）在數學意義上只是一組向量的變換結果，並非真實世界中存在的對象。這樣的生成圖像是一種「如幻如夢」的存在形式：它有形象但無實體，有模式但無自性。這正是佛教空性思想中的「幻象觀」——所有現象都是在特定條件下暫時顯現的虛幻（illusory）存在。

模型泛化（Generalization）與「無常性」的理解

空性強調現象的變動性（impermanence），認為一切事物都不斷處於變化之中。這在機器學習中對應於模型的泛化能力。當模型執著於某一種模式或資料集時，它的表現就會在新資料集上出現偏差。

過擬合與執著：模型的無常性表現當一個模型過度擬合某個訓練集時，它便對該資料集的特定模式產生了「執著」，忽視了資料背後的空性與變動性。一旦進入新的資料分佈（distribution shift），模型的表現會崩潰。這反映了佛教中對執著的批判：當我們過於執著於現象的固定形式時，便無法適應新的環境與條件。因此，設計更具泛化能力的模型（如正則化、遷移學習）可以被視為一種「破執」（overcoming clinging），使模型能更靈活地看待資料分佈的無常性。

空性的實踐：從複雜模型到簡化模型的轉化

在實際應用中，模型的複雜性常常導致其對特定條件的過度依賴。通過模型壓縮（model compression）和知識蒸餾（knowledge distillation），我們可以將大型模型的知識轉移到較小的模型中，去除不必要的依賴與冗餘。

模型壓縮中的空性實踐這種壓縮過程可以被理解為「去除多餘的執著」，即找到模型中真正有效的表示，而不是所有細節的重現。透過這種去繁從簡的方式，我們達到了一種更接近「空性」的模型結構：模型中的每個參數和特徵都是在去除了冗餘條件後的最小表現形式。

總結來說，佛教的空性觀點可以為機器學習模型提供新的思考視角。

Citation

BibTeX citation:

@online{hsieh2024,
  author = {Hsieh, Shu-Kai},
  title = {在空中相會：從佛學到大型語言模型的跨學科對話},
  date = {2024-10-10},
  url = {https://loperntu.github.io/posts/2024-10-20-quarto-blogs/},
  langid = {en}
}

For attribution, please cite this work as:

Hsieh, Shu-Kai. 2024. “在空中相會：從佛學到大型語言模型的跨學科對話.” October 10, 2024. https://loperntu.github.io/posts/2024-10-20-quarto-blogs/.