標題 | 頁數 | 全文 |
| | |
壹 語料庫的定義與發展的歷史 | 1-2 | |
貳 語料庫的資源 | 2-3 | |
參 語料庫語言學的工具 | 3-12 | |
一、 關鍵詞前後文程式(concordancer) | 3-4 | |
二、 詞頻程式 | 4-5 | |
三、英文還原詞原型程式(lemmatizer) | 5 | |
四、中文分詞程式 | 5 | |
五、詞類標記程式(part-of-speech tagger) | 5-6 | |
六、語法剖析器(parser) | 6-9 | |
七、線上機讀辭典 | 9-10 | |
八、詞彙知識庫 | 10-12 | |
肆 語料庫與計算語言學 | 12 | |
伍 語料庫處理的基本計算工具 | 13-14 | |
一、字串轉換程式tr | 13 | |
二、排序程式sort | 13 | |
三、處理連續重覆行的程式uniq | 13-14 | |
四、從檔案中將包含某一字串或形式的行列出來grep | 14 | |
五、awk 一種簡單但功能強大的程式語言 | 14 | |
六、perl | 14 | |
陸 計算語言學中常用的公式 | 15-16 | |
一、互見訊息(mutual information) | 15 | |
二、T-值(t-score) | 15-16 | |
三、熵(entropy) | 16 | |
四、n連詞語言模型(ngram language model) | 16 | |
柒 中文語料庫的比較與分析 | 17-20 | |
捌 雙語語料庫建構技術 | 21-28 | |
一、如何建構雙語平行語料庫 | 21-22 | |
二、如何從平行語料庫中自動找對應句 | 22-28 | |
玖 如何實做中文機率式無語境語法剖析器 | 29-33 | |
拾 如何辨識中文名詞組(NP Chunking) | 34-42 | |
拾壹 如何利用支持向量機預測中文句子依存關係 | 42-46 | |
拾貳 多義詞詞義辯識 | 46-48 | |
拾參 利用Lucene搜尋引擎檢索大量語料 | 49 | |
拾肆 LDC所發行的中文語料庫以及Sketch Engine語料庫檢索 | 50 | |
拾伍 結論與建議 | 50-52 | |
附錄 | 53-57 | |
附錄一 中研院中文詞性標記集對照表 | 53-54 | |
附錄二 支持向量機Support Vector Machine (SVM)簡介 | 55-56 | |
附錄三 Bayesian Classification簡介 | 57 | |
相關軟體 | 58 | |
參考文獻 | 59-64 | |