- Pre-processing for Text Analytics
- Linguistics 101
- Crash course for R
謝舒凱 Graduate Institute of Linguistics, NTU
垂直處理
morpheme, stem, root, lexeme, lemma, word 的關係(見黑板)
Stemmization (stemmer) 要把詞綴與詞幹分開 reduces the words to the root (via suffix stripping). e.g., fished", and "fisher" to "fish".
Lemmatization (lemmatizer) 要把 lemma 找出來(所以要動用到語法訊息)does similar thing, but the part of speech is first detected prior to attempting to find the root since for some languages, the stemming rules change depending on a word's part of speech.
看例子 (wiki) 1. The word "better" has "good" as its lemma. This link is missed by stemming, as it requires a dictionary look-up. 2. The word "walk" is the base form for word "walking", and hence this is matched in both stemming and lemmatisation. 3. The word "meeting" can be either the base form of a noun or a form of a verb ("to meet") depending on the context, e.g., "in our last meeting" or "We are meeting again tomorrow". Unlike stemming, lemmatisation can in principle select the appropriate lemma depending on the context.
水平處理
中文分詞(斷詞)Chinese word segmentation 可以看成是 tokenization 的一個特例,但是涉及更深一層的語言與認知互動。
因為 (漢語) 語言分析的基本單位沒有你想的那麼穩固, 自然語言處理先卡關才引起注意。
昨天阿里巴巴創辦人馬雲端上新的網路服務
但是 Wordhood 的問題不是漢語才有。
這個門把手壞了
vs 請把手拿開
。化妝/和/服裝
vs 化妝/和服/裝
。包括新詞、術語等未收錄在字典裡面的「詞」。至少包括了:
組合規律
前後規律
校長
、老闆
老師
、教授
、小姐
、先生
附帶一提:人名的自動辨識與分群 (person name identification/clustering) 也是個 NLP 研究領域,更難一點的還有轉譯人名的問題 (transliterated person name identification).
舉一個例子:常識抽取對於情緒分析的重要
“我昨天深夜在鐵工廠看到一個小女孩”
usP
和 twP
。
小組討論出想要看到的現象,用 R code 實作,附上說明存成 Rmd。
可參考 typical.tm.Rmd