按Enter到主內容區
:::

國家教育研究院「臺灣教育研究資訊網」

:::

語料庫建構技術 研究報告

  • 點閱次數:1063
  • 收藏次數:0
語料庫建構技術 研究報告
研究計畫及報告
計畫類型個別型研究
計畫名稱語料庫建構技術 研究報告
計畫主持人高照明林慶隆
研究者丁彥平劉寶琦
執行單位國家教育研究院
語文中文
關鍵詞語料庫計算語言學
授權狀態已授權

章節標目

表格標題
標題頁數
  壹 語料庫的定義與發展的歷史1-2
  貳 語料庫的資源2-3
  參 語料庫語言學的工具3-12
    一、 關鍵詞前後文程式(concordancer)3-4
    二、 詞頻程式4-5
    三、英文還原詞原型程式(lemmatizer)5
    四、中文分詞程式5
    五、詞類標記程式(part-of-speech tagger)5-6
    六、語法剖析器(parser)6-9
    七、線上機讀辭典9-10
    八、詞彙知識庫10-12
  肆 語料庫與計算語言學12
  伍 語料庫處理的基本計算工具13-14
    一、字串轉換程式tr13
    二、排序程式sort13
    三、處理連續重覆行的程式uniq13-14
    四、從檔案中將包含某一字串或形式的行列出來grep14
    五、awk 一種簡單但功能強大的程式語言14
    六、perl14
  陸 計算語言學中常用的公式15-16
    一、互見訊息(mutual information)15
    二、T-值(t-score)15-16
    三、熵(entropy)16
    四、n連詞語言模型(ngram language model)16
  柒 中文語料庫的比較與分析17-20
  捌 雙語語料庫建構技術21-28
    一、如何建構雙語平行語料庫21-22
    二、如何從平行語料庫中自動找對應句22-28
  玖 如何實做中文機率式無語境語法剖析器29-33
  拾 如何辨識中文名詞組(NP Chunking)34-42
  拾壹 如何利用支持向量機預測中文句子依存關係42-46
  拾貳 多義詞詞義辯識46-48
  拾參 利用Lucene搜尋引擎檢索大量語料49
  拾肆 LDC所發行的中文語料庫以及Sketch Engine語料庫檢索50
  拾伍 結論與建議50-52
  附錄53-57
    附錄一 中研院中文詞性標記集對照表53-54
    附錄二 支持向量機Support Vector Machine (SVM)簡介55-56
    附錄三 Bayesian Classification簡介57
  相關軟體58
  參考文獻59-64
TOP