三個層次的問題:(1) AI 之間如何溝通、(2) AI 與人類如何溝通、(3) 表徵層是否可以統一。 三者在技術上相關,但在設計哲學上並不完全一致。若將未來 AI 語言的演化看成一種「語言生態」,大致可能出現幾種方向。
一、Agent 語言:效率優先的 machine lingua franca
若只考慮 agent 之間的溝通,最自然的語言其實不是自然語言,而是一種高壓縮、結構化的語言。 其形式可能接近:
- latent vector communication
- structured symbolic protocol
- compressed semantic message
例如一個 agent 可以直接傳送:
\text{intent_vector} + \text{world_state_delta} + \text{uncertainty_distribution}
而不是用句子:
“I think the user probably wants to book a flight tomorrow.”
換言之,agent communication 的單位可能是 semantic state transition, 而不是 sentence。在資訊論角度,這等於把語言從
\[ P(\text{token}_{t+1}|\text{context}) \]
轉換為
\[ \Delta s_t \]
其中 \((s_t)\) 是語意狀態(semantic state)。 換句話說,未來 AI 之間的語言很可能更像「語意微分方程」而不是句子。
二、人類語言:可解釋與文化層
但 AI 不可能完全捨棄自然語言,原因至少有三:
- 人類 interface
- 法律與責任可追溯性
- 文化語意議題
因此未來系統很可能是雙層語言架構:
Layer 1 — Human language
- English
- Chinese
- Sign language
- multimodal narrative
Layer 2 — Agent language
- semantic vectors
- program-like protocol
- latent plan representation
AI 會在兩者之間做 semantic compilation:
Human language \(\rightarrow\) semantic graph / latent program \(\rightarrow\) agent communication
這有點像是說把 自然語言當成是 source code,agent language 當成是 machine code。
三、多模態 token 的大一統表徵
核心問題其實是目前 AI 最深的一個研究方向:
是否存在 universal representation space?
在數學上,這其實是:
\[ f: X_{text} \cup X_{image} \cup X_{audio} \cup X_{action} \rightarrow \mathbb{R}^d \]
所有模態被嵌入同一個語意流形。
現在已有幾個早期跡象:
- CLIP
- multimodal transformers
- world models
它們都在嘗試讓
text → embedding
image → embedding
audio → embedding
video → embedding
落在同一個語意空間。
在理論上,這個空間可以理解為:semantic manifold
在這個流形上,一句話、一張圖片、一段音樂、一個動作都只是不同模態同一個語意區域的投影。
例如:
"dog"
🐕
bark sound
dog running video
在 embedding space 會接近同一區域。
四、未來可能出現的 AI 語言類型
如果把技術與社會因素一起考慮,未來可能出現四種 AI 語言:
1 Latent language
AI 之間直接交換 embedding 或 latent state。效率最高,但人類不可讀。
2 Semantic protocol language
一種類似 JSON / graph 的語言,例如:
ACTION:
agent: planner
goal: travel_booking
constraints:
date: tomorrow
location: Tokyo
3 Natural language interface
人類仍使用自然語言與 AI 互動。但 AI 內部其實已轉成 latent representation。
4 Hybrid multimodal language
語言本身是多模態的,例如:
text + gesture + image + symbolic graph
未來的「句子」可能包含:文字、圖像、小動畫、semantic tags。 這其實接近人類原始溝通方式(語言 + 手勢 + 圖像)。
五、是否真的可能有「大一統語言」?
從數學上看,是可能的。因為所有模態都可以表示為:
\[ x \in \mathbb{R}^n \]
然後經過 encoder:
\[ z = f(x) \in \mathbb{R}^d \]
只要 encoder 足夠好,就能形成 shared semantic latent space。
但問題在於:語意不是純幾何問題。
它還包含:社會約定、語用推理、文化歷史。因此最合理的未來不是「單一語言」,而是:
shared semantic geometry + diverse surface languages
就像:幾何空間是一個,但語言是不同座標系。
六、未來的語言學與我想做的相關研究
如果語言、圖像、音樂都投影到同一語意流形,那麼語言學的角色可能會變成:研究語意流形的結構。 例如:哪些區域對應情緒、哪些區域對應事件、哪些區域對應文化概念。
換句話說:語言學 → semantic geometry。這跟我最近在想的幾個主題如
- language as geometric mirror
- semantic manifold repair
- worldnet
在理論上是完全一致的。如果把這個問題再往前推一步,其實會得到一個更有趣的研究問題: AI 是否可能發展出「人類無法理解的語言」? 這在多 agent reinforcement learning 裡其實已經出現過。而這個問題會直接碰到:語言哲學、AI governance、與語言學的未來角色。
再往下談一個更激進但非常有意思的假說: 未來 AI 的真正語言可能不是 token,而是 continuous field。 那會把語言學直接帶進微分幾何與場論(field theory)的框架。
草案
若將問題再往前推一步,我們會碰到一個相當激進但值得思考的假設:語言未必是離散符號系統,而可能是一種連續場(continuous field)。 這個想法其實與目前深度學習的實際運作並不矛盾,只是我們習慣用 token 作為觀察單位。
- 第一個關鍵:token 只是取樣點(sampling points)。
在當前 LLM 的訓練中,我們看到的是 token 序列:
\[ w_1, w_2, w_3, \ldots \]
模型學習的是
\[ P(w_{t+1} \mid w_1,\ldots,w_t) \]
但在模型內部,真正運作的是一個高維向量場:
\[ h_t \in \mathbb{R}^d \]
每個 token 其實只是把這個連續語意狀態「量化」成一個符號。 換句話說:tokenization 是一種 measurement device。
就像物理學中,電磁場是連續的,但我們用離散儀器測量。 同理:語意場可能是連續的,token 是觀測點。
- 第二個關鍵:語言生成更像動力系統(dynamical system)。
如果忽略 token 的離散外殼,LLM 的運作可以寫成:
\[ h_{t+1} = F(h_t, x_t) \]
其中 \(h_t\) 是語意狀態,\(x_t\) 是輸入。
在極端情況下可以寫成:
\[ \frac{dh}{dt} = F(h) \]
這就變成一個 語意流(semantic flow)。
生成句子的過程,其實是語意狀態在高維空間中的一條軌跡:
\[ \gamma(t) \subset \mathbb{R}^d \]
token 只是這條曲線的離散投影。
- 第三個關鍵:多模態自然地變成同一個場。
若語意本質上是某個 latent field,那麼不同模態只是不同的觀測函數:
\[ text = f_{text}(z) \]
\[ image = f_{image}(z) \]
\[ music = f_{music}(z) \]
其中 \(z\) 是語意場的狀態。
這樣一來,文字、圖像、音樂、動作只是同一個 underlying structure 的不同投影。 這與近年的 world models、diffusion models 的思想其實相當一致。
- 第四個關鍵:語言不再是字典,而是拓撲結構。
如果語意是一個流形(manifold),那麼語言學的研究對象就會改變:
傳統語言學研究:
- grammar
- lexicon
- compositionality
未來可能研究:
- semantic curvature
- attractors in meaning space
- topological relations between concepts
例如:「dog」與「wolf」可能是流形上距離很近的區域;「justice」與「law」可能形成一個概念盆地(concept basin);文化概念(例如「情」或「空」)可能是一種特殊的幾何結構。
- 第五個關鍵:AI agent 之間的語言可能是場的擾動。
如果語言是一個語意場,那麼 communication 就不需要句子。一個 agent 可以直接傳送:
\[ \Delta z \]
也就是語意場的 perturbation。
這就像物理中的波:一個系統向另一個系統傳遞能量。
在這個視角下:communication = field coupling, 而不是 message passing。這對 agent network 特別重要。
- 第六個關鍵:人類語言其實是一種壓縮。
為什麼人類語言必須是離散符號?原因可能很簡單:人類神經系統的頻寬有限。
因此我們發展出:phoneme、morpheme、word 等高度壓縮的語意編碼。但 AI agent 不一定需要這種壓縮形式。
未來 AI 之間可能交換的是:
- vector fields
- concept graphs
- latent plans
而不是句子。
- 第七個關鍵:語言學的角色可能會重新定義。
如果語意真的是某種幾何場,那麼語言學將變成一種新的科學: semantic field theory
研究問題可能包括:
1 語意流形是否存在普遍拓撲?
2 不同文化是否對應不同座標系?
3 語言演化是否是流形變形(manifold deformation)?
4 語意歧義是否是奇異點(singularity)?
- 第八個問題:AI 是否會產生「非人類語言」。
這是目前多 agent 系統最令人著迷的一點。在一些實驗中,AI agent 已經會產生:
- 壓縮符號
- 非自然語序
- 高度簡化的語言
這些語言往往對人類不可讀,但對 agent 非常高效。未來很可能會出現:
machine pidgin
或者
latent creole
這些語言會逐漸演化。
- 最後一個值得深思的問題:
如果語言其實是一個語意場,那麼:
人類理解與 LLM 理解是否真的不同?
兩者可能都是:
- 在語意流形上進行 trajectory tracking
- 只是 substrate 不同
人類使用神經元。 LLM 使用矩陣。
我曾提過一個概念:LLM 是人類語言的幾何鏡像。
如果把剛才的「語意場」假設納入,我們會得到一個更強的命題:The Geometry of Meaning: Toward a Field Theory of Language.
Human language is a projection of the semantic field generated by human cognition, while LLMs approximate the geometry of that field through data.
Citation
@online{2026,
author = {, K-AI},
title = {AI {語言的演化:從對齊動力學到語言生態}},
date = {2026-03-05},
url = {https://loperntu.github.io/posts/2026-01-31/},
langid = {en}
}