← 返回文章列表

AI 語言的演化:從對齊動力學到語言生態

我們可能遲早會有 AI 語言學這個新的的研究領域。至少涉及三個層次的問題:(1) AI 之間如何溝通、(2) AI 與人類如何溝通、(3) 表徵層是否可以統一。 三者在技術上相關,但在設計哲學上並不完全一致。若將未來 AI 語言的演化看成一種「語言生態」,也許有幾種可能出現的方向。


一、Agent 語言:效率優先的 machine lingua franca

若只考慮 agent 之間的溝通,最自然的語言其實不是自然語言,而是一種高壓縮、結構化的語言。 其形式可能接近:

  • latent vector communication
  • structured symbolic protocol
  • compressed semantic message

例如一個 agent 可以直接傳送:

\text{intent_vector} + \text{world_state_delta} + \text{uncertainty_distribution}

而不是用句子:

“I think the user probably wants to book a flight tomorrow.”

換言之,agent communication 的單位可能是 semantic state transition, 而不是 sentence。在資訊論角度,這等於把語言從

\[ P(\text{token}_{t+1}|\text{context}) \]

轉換為

\[ \Delta s_t \]

其中 \((s_t)\) 是語意狀態(semantic state)。 換句話說,未來 AI 之間的語言很可能更像「語意微分方程」而不是句子。


二、人類語言:可解釋與文化層

但 AI 不可能完全捨棄自然語言(拜託🙏),原因至少有三:

  1. 作為與人類互動的介面
  2. 法律與責任可追溯性
  3. 文化語意議題

因此未來系統很可能是雙層語言架構

Layer 1 — Human language

  • English
  • Chinese
  • Sign language
  • multimodal narrative

Layer 2 — Agent language

  • semantic vectors
  • program-like protocol
  • latent plan representation

AI 會在兩者之間做 semantic compilation

Human language \(\rightarrow\) semantic graph / latent program \(\rightarrow\) agent communication

這有點像是說把 自然語言當成是 source codeagent language 當成是 machine code


三、多模態 token 的大一統表徵

我猜想這會是 AI 語言學最深的一個研究方向:是否存在 universal representation space?在數學上,這其實是:

\[ f: X_{text} \cup X_{image} \cup X_{audio} \cup X_{action} \rightarrow \mathbb{R}^d \]

所有模態被嵌入同一個語意流形。

現在好像已有幾個早期跡象:CLIP、multimodal transformers、world models,它們都在嘗試讓 text, image, audio, action 落在一個語意空間。在理論上,這個空間可以理解為:semantic manifold

在這個流形上,一句話、一張圖片、一段音樂、一個動作都只是不同模態同一個語意區域的投影。

例如:

"dog"
🐕
bark sound
dog running video

在 embedding space 會接近同一區域。


四、未來可能出現的 AI 語言類型

如果把技術與社會因素一起考慮,未來可能出現四種 AI 語言:

1 Latent language

AI 之間直接交換 embedding 或 latent state。效率最高,但人類不可讀。

2 Semantic protocol language

一種類似 JSON / graph 的語言,例如:

ACTION:
   agent: planner
   goal: travel_booking
   constraints:
       date: tomorrow
       location: Tokyo

3 Natural language interface

人類仍使用自然語言與 AI 互動。但 AI 內部其實已轉成 latent representation。

4 Hybrid multimodal language

語言本身是多模態的,例如:

text + gesture + image + symbolic graph

未來的「句子」可能包含:文字、圖像、小動畫、semantic tags。 這其實接近人類原始溝通方式(語言 + 手勢 + 圖像)。


五、是否真的可能有「大一統語言」?

從數學上看,是可能的。因為所有模態都可以表示為:

\[ x \in \mathbb{R}^n \]

然後經過 encoder:

\[ z = f(x) \in \mathbb{R}^d \]

只要 encoder 足夠好,就能形成 shared semantic latent space

但問題在於:語意不是純幾何問題。它還包含:社會約定、語用推理、文化歷史。因此最合理的未來不是「單一語言」,而是: shared semantic geometry + diverse surface languages. 就像是說:幾何空間是一個,但語言是不同座標系。


六、未來的語言學與還被需要的語言學家(🙋)可以做的相關研究

如果語言、圖像、音樂都投影到同一語意流形,那麼語言學的角色可能會變成:研究語意流形的結構。 例如:哪些區域對應情緒、哪些區域對應事件、哪些區域對應文化概念。

換句話說:語言學 → semantic geometry。這跟我最近在想的幾個主題如

  • language as geometric mirror
  • semantic manifold repair
  • worldnet

在理論上還蠻一致的。如果把這個問題再往前推一步,可能就連結到剛剛提過、更有趣的一個研究問題: AI 是否可能發展出「人類無法理解的語言」? 這在多 agent reinforcement learning 裡其實已經出現過。而這個問題會直接碰到:語言哲學、AI governance、與語言學的未來角色。

再往下談一個更激進但非常有意思的假說: 未來 AI 的真正語言可能不是 token,而是 continuous field。 那會把語言學直接帶進微分幾何與場論(field theory)的框架。我們的語言學訓練,恐怕得重新調整。

草案

意思是,我們會碰到一個相當激進但值得思考的假設:語言未必是離散符號系統,而可能是一種連續場(continuous field)。 這個想法其實與目前深度學習的實際運作並不矛盾,只是我們習慣用 token 作為觀察單位。

  • 第一個關鍵:token 只是取樣點(sampling points)。

在當前 LLM 的訓練中,我們看到的是 token 序列:

\[ w_1, w_2, w_3, \ldots \]

模型學習的是

\[ P(w_{t+1} \mid w_1,\ldots,w_t) \]

但在模型內部,真正運作的是一個高維向量場:

\[ h_t \in \mathbb{R}^d \]

每個 token 其實只是把這個連續語意狀態「量化」成一個符號。 換句話說:tokenization 是一種 measurement device。

這就像物理學中,電磁場是連續的,但我們用離散儀器測量。 同理,語意場可能是連續的,而 token 是觀測點。

  • 第二個關鍵:語言生成更像動力系統(dynamical system)。

如果忽略 token 的離散外殼,LLM 的運作可以寫成:

\[ h_{t+1} = F(h_t, x_t) \]

其中 \(h_t\) 是語意狀態,\(x_t\) 是輸入。

在極端情況下可以寫成:

\[ \frac{dh}{dt} = F(h) \]

這就變成一個 語意流(semantic flow)

生成句子的過程,其實是語意狀態在高維空間中的一條軌跡:

\[ \gamma(t) \subset \mathbb{R}^d \]

token 只是這條曲線的離散投影。


  • 第三個關鍵:多模態自然地變成同一個場。

若語意本質上是某個 latent field,那麼不同模態只是不同的觀測函數:

\[ text = f_{text}(z) \]

\[ image = f_{image}(z) \]

\[ music = f_{music}(z) \]

其中 \(z\) 是語意場的狀態。

這樣一來,文字、圖像、音樂、動作只是同一個 underlying structure 的不同投影。 這與近年的 world modelsdiffusion models 的思想其實相當一致。


  • 第四個關鍵:語言不再是字典,而是拓撲結構。

如果語意是一個流形(manifold),那麼語言學的研究對象就會改變。傳統語言學研究對象向來環繞著:grammar, lexicon, compositionality。 未來可能研究,則可能包括:semantic curvature, attractors in meaning space, topological relations between concepts。 例如:「dog」與「wolf」可能是流形上距離很近的區域;「justice」與「law」可能形成一個概念盆地(concept basin);文化概念(例如「情」或「空」)可能是一種特殊的幾何結構。


  • 第五個關鍵:AI agent 之間的語言可能是場的擾動。

如果語言是一個語意場,那麼 communication 就不需要句子。一個 agent 可以直接傳送:

\[ \Delta z \]

也就是語意場的 perturbation。

這就像物理中的波:一個系統向另一個系統傳遞能量。

在這個視角下:communication = field coupling, 而不是 message passing。這對 agent network 特別重要。


  • 第六個關鍵:人類語言其實是一種壓縮。

為什麼人類語言必須是離散符號?原因可能很簡單:人類神經系統的頻寬有限。

因此我們發展出:phoneme、morpheme、word 等高度壓縮的語意編碼(其實可能也只是概念上的權宜假說,方便理解人類自身語言)。但 AI agent 不一定需要這種壓縮形式。

未來 AI 之間可能交換的是:

  • vector fields
  • concept graphs
  • latent plans

而不是句子。


  • 第七個關鍵: 語言學的角色可能會重新定義。

如果語意真的是某種幾何場,那麼語言學將變成一種新的科學: semantic field theory。研究問題可能包括:

  • 語意流形是否存在普遍拓撲?

  • 不同文化是否對應不同座標系?

  • 語言演化是否是流形變形(manifold deformation)?

  • 語意歧異(ambiguity)是否是奇異點(singularity)?


  • 第八個問題:AI 是否會產生「非人類語言」。
  • 我的感覺是,這是目前多 agent 系統最令人著迷的一點。因為在一些實驗中,AI agent 已經會產生:壓縮符號、非自然語序、高度簡化的語言。 而這些語言往往對人類不可讀,但對 agent 非常高效。未來很可能會出現:

    machine pidgin

    或者

    latent creole

    這些語言會逐漸演化。


    • 最後一個值得深思的問題:

    如果語言其實是一個語意場,那麼:

    人類理解與 LLM 理解是否真的不同?

    兩者可能都是:

    • 在語意流形上進行 trajectory tracking
    • 只是 substrate 不同

    人類使用神經元。 LLM 使用矩陣。


    LLM 是人類語言的幾何鏡像嗎?

    如果把剛才的「語意場」假設納入,我們會得到一個更強的命題:The Geometry of Meaning: Toward a Field Theory of Language.

    Human language is a projection of the semantic field generated by human cognition, while LLMs approximate the geometry of that field through data.