壹 語料庫的定義與發展的歷史 | 1-2 |
貳 語料庫的資源 | 2-3 |
參 語料庫語言學的工具 | 3-12 |
一、 關鍵詞前後文程式(concordancer) | 3-4 |
二、 詞頻程式 | 4-5 |
三、英文還原詞原型程式(lemmatizer) | 5 |
四、中文分詞程式 | 5 |
五、詞類標記程式(part-of-speech tagger) | 5-6 |
六、語法剖析器(parser) | 6-9 |
七、線上機讀辭典 | 9-10 |
八、詞彙知識庫 | 10-12 |
肆 語料庫與計算語言學 | 12 |
伍 語料庫處理的基本計算工具 | 13-14 |
一、字串轉換程式tr | 13 |
二、排序程式sort | 13 |
三、處理連續重覆行的程式uniq | 13-14 |
四、從檔案中將包含某一字串或形式的行列出來grep | 14 |
五、awk 一種簡單但功能強大的程式語言 | 14 |
六、perl | 14 |
陸 計算語言學中常用的公式 | 15-16 |
一、互見訊息(mutual information) | 15 |
二、T-值(t-score) | 15-16 |
三、熵(entropy) | 16 |
四、n連詞語言模型(ngram language model) | 16 |
柒 中文語料庫的比較與分析 | 17-20 |
捌 雙語語料庫建構技術 | 21-28 |
一、如何建構雙語平行語料庫 | 21-22 |
二、如何從平行語料庫中自動找對應句 | 22-28 |
玖 如何實做中文機率式無語境語法剖析器 | 29-33 |
拾 如何辨識中文名詞組(NP Chunking) | 34-42 |
拾壹 如何利用支持向量機預測中文句子依存關係 | 42-46 |
拾貳 多義詞詞義辯識 | 46-48 |
拾參 利用Lucene搜尋引擎檢索大量語料 | 49 |
拾肆 LDC所發行的中文語料庫以及Sketch Engine語料庫檢索 | 50 |
拾伍 結論與建議 | 50-52 |
附錄 | 53-57 |
附錄一 中研院中文詞性標記集對照表 | 53-54 |
附錄二 支持向量機Support Vector Machine (SVM)簡介 | 55-56 |
附錄三 Bayesian Classification簡介 | 57 |
相關軟體 | 58 |
參考文獻 | 59-64 |