AI 語言的演化：從對齊動力學到語言生態

我們可能遲早會有 AI 語言學這個新的的研究領域。至少涉及三個層次的問題：(1) AI 之間如何溝通、(2) AI 與人類如何溝通、(3) 表徵層是否可以統一。 三者在技術上相關，但在設計哲學上並不完全一致。若將未來 AI 語言的演化看成一種「語言生態」，也許有幾種可能出現的方向。

一、Agent 語言：效率優先的 machine lingua franca

若只考慮 agent 之間的溝通，最自然的語言其實不是自然語言，而是一種高壓縮、結構化的語言。其形式可能接近：

latent vector communication
structured symbolic protocol
compressed semantic message

例如一個 agent 可以直接傳送：

\text{intent_vector} + \text{world_state_delta} + \text{uncertainty_distribution}

而不是用句子：

“I think the user probably wants to book a flight tomorrow.”

換言之，agent communication 的單位可能是 semantic state transition，而不是 sentence。在資訊論角度，這等於把語言從

\[ P(\text{token}_{t+1}|\text{context}) \]

轉換為

\[ \Delta s_t \]

其中 \((s_t)\) 是語意狀態（semantic state）。換句話說，未來 AI 之間的語言很可能更像「語意微分方程」而不是句子。

二、人類語言：可解釋與文化層

但 AI 不可能完全捨棄自然語言（拜託🙏），原因至少有三：

作為與人類互動的介面
法律與責任可追溯性
文化語意議題

因此未來系統很可能是雙層語言架構：

Layer 1 — Human language

English
Chinese
Sign language
multimodal narrative

Layer 2 — Agent language

semantic vectors
program-like protocol
latent plan representation

AI 會在兩者之間做 semantic compilation：

Human language \(\rightarrow\) semantic graph / latent program \(\rightarrow\) agent communication

這有點像是說把 自然語言當成是 source code，agent language 當成是 machine code。

三、多模態 token 的大一統表徵

我猜想這會是 AI 語言學最深的一個研究方向：是否存在 universal representation space？在數學上，這其實是：

\[ f: X_{text} \cup X_{image} \cup X_{audio} \cup X_{action} \rightarrow \mathbb{R}^d \]

所有模態被嵌入同一個語意流形。

現在好像已有幾個早期跡象：CLIP、multimodal transformers、world models，它們都在嘗試讓 text, image, audio, action 落在一個語意空間。在理論上，這個空間可以理解為：semantic manifold。

在這個流形上，一句話、一張圖片、一段音樂、一個動作都只是不同模態同一個語意區域的投影。

例如：

"dog"
🐕
bark sound
dog running video

在 embedding space 會接近同一區域。

四、未來可能出現的 AI 語言類型

如果把技術與社會因素一起考慮，未來可能出現四種 AI 語言：

1 Latent language

AI 之間直接交換 embedding 或 latent state。效率最高，但人類不可讀。

2 Semantic protocol language

一種類似 JSON / graph 的語言，例如：

ACTION:
   agent: planner
   goal: travel_booking
   constraints:
       date: tomorrow
       location: Tokyo

3 Natural language interface

人類仍使用自然語言與 AI 互動。但 AI 內部其實已轉成 latent representation。

4 Hybrid multimodal language

語言本身是多模態的，例如：

text + gesture + image + symbolic graph

未來的「句子」可能包含：文字、圖像、小動畫、semantic tags。這其實接近人類原始溝通方式（語言 + 手勢 + 圖像）。

五、是否真的可能有「大一統語言」？

從數學上看，是可能的。因為所有模態都可以表示為：

\[ x \in \mathbb{R}^n \]

然後經過 encoder：

\[ z = f(x) \in \mathbb{R}^d \]

只要 encoder 足夠好，就能形成 shared semantic latent space。

但問題在於：語意不是純幾何問題。它還包含：社會約定、語用推理、文化歷史。因此最合理的未來不是「單一語言」，而是： shared semantic geometry + diverse surface languages. 就像是說：幾何空間是一個，但語言是不同座標系。。

六、未來的語言學與還被需要的語言學家（🙋）可以做的相關研究

如果語言、圖像、音樂都投影到同一語意流形，那麼語言學的角色可能會變成：研究語意流形的結構。 例如：哪些區域對應情緒、哪些區域對應事件、哪些區域對應文化概念。

換句話說：語言學 → semantic geometry。這跟我最近在想的幾個主題如

language as geometric mirror
semantic manifold repair
worldnet

在理論上還蠻一致的。如果把這個問題再往前推一步，可能就連結到剛剛提過、更有趣的一個研究問題： AI 是否可能發展出「人類無法理解的語言」？ 這在多 agent reinforcement learning 裡其實已經出現過。而這個問題會直接碰到：語言哲學、AI governance、與語言學的未來角色。

再往下談一個更激進但非常有意思的假說： 未來 AI 的真正語言可能不是 token，而是 continuous field。 那會把語言學直接帶進微分幾何與場論（field theory）的框架。我們的語言學訓練，恐怕得重新調整。

草案

意思是，我們會碰到一個相當激進但值得思考的假設：語言未必是離散符號系統，而可能是一種連續場（continuous field）。 這個想法其實與目前深度學習的實際運作並不矛盾，只是我們習慣用 token 作為觀察單位。

第一個關鍵：token 只是取樣點（sampling points）。

在當前 LLM 的訓練中，我們看到的是 token 序列：

\[ w_1, w_2, w_3, \ldots \]

模型學習的是

\[ P(w_{t+1} \mid w_1,\ldots,w_t) \]

但在模型內部，真正運作的是一個高維向量場：

\[ h_t \in \mathbb{R}^d \]

每個 token 其實只是把這個連續語意狀態「量化」成一個符號。換句話說：tokenization 是一種 measurement device。

這就像物理學中，電磁場是連續的，但我們用離散儀器測量。同理，語意場可能是連續的，而 token 是觀測點。

第二個關鍵：語言生成更像動力系統（dynamical system）。

如果忽略 token 的離散外殼，LLM 的運作可以寫成：

\[ h_{t+1} = F(h_t, x_t) \]

其中 \(h_t\) 是語意狀態，\(x_t\) 是輸入。

在極端情況下可以寫成：

\[ \frac{dh}{dt} = F(h) \]

這就變成一個 語意流（semantic flow）。

生成句子的過程，其實是語意狀態在高維空間中的一條軌跡：

\[ \gamma(t) \subset \mathbb{R}^d \]

token 只是這條曲線的離散投影。

第三個關鍵：多模態自然地變成同一個場。

若語意本質上是某個 latent field，那麼不同模態只是不同的觀測函數：

\[ text = f_{text}(z) \]

\[ image = f_{image}(z) \]

\[ music = f_{music}(z) \]

其中 \(z\) 是語意場的狀態。

這樣一來，文字、圖像、音樂、動作只是同一個 underlying structure 的不同投影。這與近年的 world models、diffusion models 的思想其實相當一致。

第四個關鍵：語言不再是字典，而是拓撲結構。

如果語意是一個流形（manifold），那麼語言學的研究對象就會改變。傳統語言學研究對象向來環繞著：grammar, lexicon, compositionality。未來可能研究，則可能包括：semantic curvature, attractors in meaning space, topological relations between concepts。例如：「dog」與「wolf」可能是流形上距離很近的區域；「justice」與「law」可能形成一個概念盆地（concept basin）；文化概念（例如「情」或「空」）可能是一種特殊的幾何結構。

第五個關鍵：AI agent 之間的語言可能是場的擾動。

如果語言是一個語意場，那麼 communication 就不需要句子。一個 agent 可以直接傳送：

\[ \Delta z \]

也就是語意場的 perturbation。

這就像物理中的波：一個系統向另一個系統傳遞能量。

在這個視角下：communication = field coupling，而不是 message passing。這對 agent network 特別重要。

第六個關鍵：人類語言其實是一種壓縮。

為什麼人類語言必須是離散符號？原因可能很簡單：人類神經系統的頻寬有限。

因此我們發展出：phoneme、morpheme、word 等高度壓縮的語意編碼（其實可能也只是概念上的權宜假說，方便理解人類自身語言）。但 AI agent 不一定需要這種壓縮形式。

未來 AI 之間可能交換的是：

vector fields
concept graphs
latent plans

而不是句子。

第七個關鍵： 語言學的角色可能會重新定義。

如果語意真的是某種幾何場，那麼語言學將變成一種新的科學： semantic field theory。研究問題可能包括：

語意流形是否存在普遍拓撲？
不同文化是否對應不同座標系？
語言演化是否是流形變形（manifold deformation）？
語意歧異（ambiguity）是否是奇異點（singularity）？

第八個問題：AI 是否會產生「非人類語言」。

我的感覺是，這是目前多 agent 系統最令人著迷的一點。因為在一些實驗中，AI agent 已經會產生：壓縮符號、非自然語序、高度簡化的語言。而這些語言往往對人類不可讀，但對 agent 非常高效。未來很可能會出現：

machine pidgin

或者

latent creole

這些語言會逐漸演化。

最後一個值得深思的問題：

如果語言其實是一個語意場，那麼：

人類理解與 LLM 理解是否真的不同？

兩者可能都是：

在語意流形上進行 trajectory tracking
只是 substrate 不同

人類使用神經元。 LLM 使用矩陣。

LLM 是人類語言的幾何鏡像嗎？

如果把剛才的「語意場」假設納入，我們會得到一個更強的命題：The Geometry of Meaning: Toward a Field Theory of Language.

Human language is a projection of the semantic field generated by human cognition, while LLMs approximate the geometry of that field through data.