國家教育研究院「臺灣教育研究資訊網」

語料庫建構技術研究報告

點閱次數:2771
收藏次數:0

語料庫建構技術研究報告
	研究計畫及報告
計畫類型	個別型研究
計畫名稱	語料庫建構技術研究報告
計畫主持人	高照明；林慶隆
研究者	丁彥平；劉寶琦
執行單位	國家教育研究院
語文	中文
關鍵詞	語料庫；計算語言學
授權狀態	已授權

章節標目

表格標題
標題	頁數
壹語料庫的定義與發展的歷史	1-2
貳語料庫的資源	2-3
參語料庫語言學的工具	3-12
一、關鍵詞前後文程式(concordancer)	3-4
二、詞頻程式	4-5
三、英文還原詞原型程式(lemmatizer)	5
四、中文分詞程式	5
五、詞類標記程式(part-of-speech tagger)	5-6
六、語法剖析器(parser)	6-9
七、線上機讀辭典	9-10
八、詞彙知識庫	10-12
肆語料庫與計算語言學	12
伍語料庫處理的基本計算工具	13-14
一、字串轉換程式tr	13
二、排序程式sort	13
三、處理連續重覆行的程式uniq	13-14
四、從檔案中將包含某一字串或形式的行列出來grep	14
五、awk 一種簡單但功能強大的程式語言	14
六、perl	14
陸計算語言學中常用的公式	15-16
一、互見訊息(mutual information)	15
二、T-值(t-score)	15-16
三、熵(entropy)	16
四、n連詞語言模型(ngram language model)	16
柒中文語料庫的比較與分析	17-20
捌雙語語料庫建構技術	21-28
一、如何建構雙語平行語料庫	21-22
二、如何從平行語料庫中自動找對應句	22-28
玖如何實做中文機率式無語境語法剖析器	29-33
拾如何辨識中文名詞組(NP Chunking)	34-42
拾壹如何利用支持向量機預測中文句子依存關係	42-46
拾貳多義詞詞義辯識	46-48
拾參利用Lucene搜尋引擎檢索大量語料	49
拾肆 LDC所發行的中文語料庫以及Sketch Engine語料庫檢索	50
拾伍結論與建議	50-52
附錄	53-57
附錄一中研院中文詞性標記集對照表	53-54
附錄二支持向量機Support Vector Machine (SVM)簡介	55-56
附錄三 Bayesian Classification簡介	57
相關軟體	58
參考文獻	59-64

語料庫建構技術研究報告

章節標目

延伸閱讀

延伸查詢

語料庫建構技術 研究報告

章節標目

延伸閱讀

延伸查詢

語料庫建構技術研究報告