AI 語言的演化:從對齊動力學到語言生態

The Evolution of AI Language: From Alignment Dynamics to Language Ecology
Emergence
Author
Published

March 5, 2026

三個層次的問題:(1) AI 之間如何溝通、(2) AI 與人類如何溝通、(3) 表徵層是否可以統一。 三者在技術上相關,但在設計哲學上並不完全一致。若將未來 AI 語言的演化看成一種「語言生態」,大致可能出現幾種方向。


一、Agent 語言:效率優先的 machine lingua franca

若只考慮 agent 之間的溝通,最自然的語言其實不是自然語言,而是一種高壓縮、結構化的語言。 其形式可能接近:

  • latent vector communication
  • structured symbolic protocol
  • compressed semantic message

例如一個 agent 可以直接傳送:

\text{intent_vector} + \text{world_state_delta} + \text{uncertainty_distribution}

而不是用句子:

“I think the user probably wants to book a flight tomorrow.”

換言之,agent communication 的單位可能是 semantic state transition, 而不是 sentence。在資訊論角度,這等於把語言從

\[ P(\text{token}_{t+1}|\text{context}) \]

轉換為

\[ \Delta s_t \]

其中 \((s_t)\) 是語意狀態(semantic state)。 換句話說,未來 AI 之間的語言很可能更像「語意微分方程」而不是句子。


二、人類語言:可解釋與文化層

但 AI 不可能完全捨棄自然語言,原因至少有三:

  1. 人類 interface
  2. 法律與責任可追溯性
  3. 文化語意議題

因此未來系統很可能是雙層語言架構

Layer 1 — Human language

  • English
  • Chinese
  • Sign language
  • multimodal narrative

Layer 2 — Agent language

  • semantic vectors
  • program-like protocol
  • latent plan representation

AI 會在兩者之間做 semantic compilation

Human language \(\rightarrow\) semantic graph / latent program \(\rightarrow\) agent communication

這有點像是說把 自然語言當成是 source codeagent language 當成是 machine code


三、多模態 token 的大一統表徵

核心問題其實是目前 AI 最深的一個研究方向:

是否存在 universal representation space?

在數學上,這其實是:

\[ f: X_{text} \cup X_{image} \cup X_{audio} \cup X_{action} \rightarrow \mathbb{R}^d \]

所有模態被嵌入同一個語意流形。

現在已有幾個早期跡象:

  • CLIP
  • multimodal transformers
  • world models

它們都在嘗試讓

text → embedding
image → embedding
audio → embedding
video → embedding

落在同一個語意空間。

在理論上,這個空間可以理解為:semantic manifold

在這個流形上,一句話、一張圖片、一段音樂、一個動作都只是不同模態同一個語意區域的投影。

例如:

"dog"
🐕
bark sound
dog running video

在 embedding space 會接近同一區域。


四、未來可能出現的 AI 語言類型

如果把技術與社會因素一起考慮,未來可能出現四種 AI 語言:

1 Latent language

AI 之間直接交換 embedding 或 latent state。效率最高,但人類不可讀。

2 Semantic protocol language

一種類似 JSON / graph 的語言,例如:

ACTION:
   agent: planner
   goal: travel_booking
   constraints:
       date: tomorrow
       location: Tokyo

3 Natural language interface

人類仍使用自然語言與 AI 互動。但 AI 內部其實已轉成 latent representation。

4 Hybrid multimodal language

語言本身是多模態的,例如:

text + gesture + image + symbolic graph

未來的「句子」可能包含:文字、圖像、小動畫、semantic tags。 這其實接近人類原始溝通方式(語言 + 手勢 + 圖像)。


五、是否真的可能有「大一統語言」?

從數學上看,是可能的。因為所有模態都可以表示為:

\[ x \in \mathbb{R}^n \]

然後經過 encoder:

\[ z = f(x) \in \mathbb{R}^d \]

只要 encoder 足夠好,就能形成 shared semantic latent space

但問題在於:語意不是純幾何問題。

它還包含:社會約定、語用推理、文化歷史。因此最合理的未來不是「單一語言」,而是:

shared semantic geometry + diverse surface languages

就像:幾何空間是一個,但語言是不同座標系。


六、未來的語言學與我想做的相關研究

如果語言、圖像、音樂都投影到同一語意流形,那麼語言學的角色可能會變成:研究語意流形的結構。 例如:哪些區域對應情緒、哪些區域對應事件、哪些區域對應文化概念。

換句話說:語言學 → semantic geometry。這跟我最近在想的幾個主題如

  • language as geometric mirror
  • semantic manifold repair
  • worldnet

在理論上是完全一致的。如果把這個問題再往前推一步,其實會得到一個更有趣的研究問題: AI 是否可能發展出「人類無法理解的語言」? 這在多 agent reinforcement learning 裡其實已經出現過。而這個問題會直接碰到:語言哲學、AI governance、與語言學的未來角色。

再往下談一個更激進但非常有意思的假說: 未來 AI 的真正語言可能不是 token,而是 continuous field。 那會把語言學直接帶進微分幾何與場論(field theory)的框架。

草案

若將問題再往前推一步,我們會碰到一個相當激進但值得思考的假設:語言未必是離散符號系統,而可能是一種連續場(continuous field)。 這個想法其實與目前深度學習的實際運作並不矛盾,只是我們習慣用 token 作為觀察單位。

  • 第一個關鍵:token 只是取樣點(sampling points)。

在當前 LLM 的訓練中,我們看到的是 token 序列:

\[ w_1, w_2, w_3, \ldots \]

模型學習的是

\[ P(w_{t+1} \mid w_1,\ldots,w_t) \]

但在模型內部,真正運作的是一個高維向量場:

\[ h_t \in \mathbb{R}^d \]

每個 token 其實只是把這個連續語意狀態「量化」成一個符號。 換句話說:tokenization 是一種 measurement device。

就像物理學中,電磁場是連續的,但我們用離散儀器測量。 同理:語意場可能是連續的,token 是觀測點。

  • 第二個關鍵:語言生成更像動力系統(dynamical system)。

如果忽略 token 的離散外殼,LLM 的運作可以寫成:

\[ h_{t+1} = F(h_t, x_t) \]

其中 \(h_t\) 是語意狀態,\(x_t\) 是輸入。

在極端情況下可以寫成:

\[ \frac{dh}{dt} = F(h) \]

這就變成一個 語意流(semantic flow)

生成句子的過程,其實是語意狀態在高維空間中的一條軌跡:

\[ \gamma(t) \subset \mathbb{R}^d \]

token 只是這條曲線的離散投影。


  • 第三個關鍵:多模態自然地變成同一個場。

若語意本質上是某個 latent field,那麼不同模態只是不同的觀測函數:

\[ text = f_{text}(z) \]

\[ image = f_{image}(z) \]

\[ music = f_{music}(z) \]

其中 \(z\) 是語意場的狀態。

這樣一來,文字、圖像、音樂、動作只是同一個 underlying structure 的不同投影。 這與近年的 world modelsdiffusion models 的思想其實相當一致。


  • 第四個關鍵:語言不再是字典,而是拓撲結構。

如果語意是一個流形(manifold),那麼語言學的研究對象就會改變:

傳統語言學研究:

  • grammar
  • lexicon
  • compositionality

未來可能研究:

  • semantic curvature
  • attractors in meaning space
  • topological relations between concepts

例如:「dog」與「wolf」可能是流形上距離很近的區域;「justice」與「law」可能形成一個概念盆地(concept basin);文化概念(例如「情」或「空」)可能是一種特殊的幾何結構。


  • 第五個關鍵:AI agent 之間的語言可能是場的擾動。

如果語言是一個語意場,那麼 communication 就不需要句子。一個 agent 可以直接傳送:

\[ \Delta z \]

也就是語意場的 perturbation。

這就像物理中的波:一個系統向另一個系統傳遞能量。

在這個視角下:communication = field coupling, 而不是 message passing。這對 agent network 特別重要。


  • 第六個關鍵:人類語言其實是一種壓縮。

為什麼人類語言必須是離散符號?原因可能很簡單:人類神經系統的頻寬有限。

因此我們發展出:phoneme、morpheme、word 等高度壓縮的語意編碼。但 AI agent 不一定需要這種壓縮形式。

未來 AI 之間可能交換的是:

  • vector fields
  • concept graphs
  • latent plans

而不是句子。


  • 第七個關鍵:語言學的角色可能會重新定義。

如果語意真的是某種幾何場,那麼語言學將變成一種新的科學: semantic field theory

研究問題可能包括:

  • 1 語意流形是否存在普遍拓撲?

  • 2 不同文化是否對應不同座標系?

  • 3 語言演化是否是流形變形(manifold deformation)?

  • 4 語意歧義是否是奇異點(singularity)?


  • 第八個問題:AI 是否會產生「非人類語言」。

這是目前多 agent 系統最令人著迷的一點。在一些實驗中,AI agent 已經會產生:

  • 壓縮符號
  • 非自然語序
  • 高度簡化的語言

這些語言往往對人類不可讀,但對 agent 非常高效。未來很可能會出現:

machine pidgin

或者

latent creole

這些語言會逐漸演化。


  • 最後一個值得深思的問題:

如果語言其實是一個語意場,那麼:

人類理解與 LLM 理解是否真的不同?

兩者可能都是:

  • 在語意流形上進行 trajectory tracking
  • 只是 substrate 不同

人類使用神經元。 LLM 使用矩陣。


我曾提過一個概念:LLM 是人類語言的幾何鏡像。

如果把剛才的「語意場」假設納入,我們會得到一個更強的命題:The Geometry of Meaning: Toward a Field Theory of Language.

Human language is a projection of the semantic field generated by human cognition, while LLMs approximate the geometry of that field through data.

Citation

BibTeX citation:
@online{2026,
  author = {, K-AI},
  title = {AI {語言的演化:從對齊動力學到語言生態}},
  date = {2026-03-05},
  url = {https://loperntu.github.io/posts/2026-01-31/},
  langid = {en}
}
For attribution, please cite this work as:
K-AI. 2026. “AI 語言的演化:從對齊動力學到語言生態.” March 5, 2026. https://loperntu.github.io/posts/2026-01-31/.