斷詞

【研究紀要】文本分析的基礎建設:臺灣國會研究詞庫的建置與測試

近年來,越來越多政治學者利用自然語言處理(Natural Language Processing)的技術,進行國會文本主題分類或是判別立場、情感和語意,節省人工過錄的成本。臺灣的國會是世界上唯一使用中文的民主國會,對於比較國會研究和中文文本分析的發展都至關重要。然而,在國會中使用的許多詞彙,並非一般常用的詞彙,而目前既有的中文斷詞系統不見得能區辨這些詞彙。斷詞的錯誤可能造成詞彙機率的估算偏誤,進而影響研究結果的信度與效度。本研究提出一個針對臺灣國會研究建置的斷詞詞庫(Lexicon for Taiwan Legislative Studies,以下簡稱:LTLS),蒐集約 13 萬 7 千個立法和政治相關詞彙。此外,本研究史無前例地同時評測了結巴(Jieba)、中央研究院 CKIP 以及 Articut 這三個臺灣較常使用的斷詞系統在面對國會文本的斷詞表現。我以這些系統分別在搭配與未搭配 LTLS 的情形下對立法院第 7 屆至第 9 屆(2008 ∼ 2020)口頭總質詢文本斷詞,進行主題模型分析,並同時以人工過錄文本主題,再評測何種斷詞方式更能使研究結果接近人工過錄。

訂閱 RSS - 斷詞