【研究紀要】文本分析的基礎建設:臺灣國會研究詞庫的建置與測試
Volume:
Number:
Published date:
Abstract:
近年來,越來越多政治學者利用自然語言處理(Natural Language Processing)的技術,進行國會文本主題分類或是判別立場、情感和語意,節省人工過錄的成本。臺灣的國會是世界上唯一使用中文的民主國會,對於比較國會研究和中文文本分析的發展都至關重要。然而,在國會中使用的許多詞彙,並非一般常用的詞彙,而目前既有的中文斷詞系統不見得能區辨這些詞彙。斷詞的錯誤可能造成詞彙機率的估算偏誤,進而影響研究結果的信度與效度。本研究提出一個針對臺灣國會研究建置的斷詞詞庫(Lexicon for Taiwan Legislative Studies,以下簡稱:LTLS),蒐集約 13 萬 7 千個立法和政治相關詞彙。此外,本研究史無前例地同時評測了結巴(Jieba)、中央研究院 CKIP 以及 Articut 這三個臺灣較常使用的斷詞系統在面對國會文本的斷詞表現。我以這些系統分別在搭配與未搭配 LTLS 的情形下對立法院第 7 屆至第 9 屆(2008 ∼ 2020)口頭總質詢文本斷詞,進行主題模型分析,並同時以人工過錄文本主題,再評測何種斷詞方式更能使研究結果接近人工過錄。評測結果顯示,在未搭配 LTLS 的情況下,使用 Articut 斷詞的模型判斷文本主題的表現優於 CKIP 與結巴;搭配 LTLS 後,各模型判斷主題的表現都提高,F 值最高可提升約 8%,而使用 CKIP 搭配 LTLS 之後的表現最佳,超越 Articut。本研究為中文斷詞系統的選擇提供實證依據,而 LTLS 為一個使用成本低、近用性高的斷詞改善工具,不僅可幫助文本分析的發展更為穩健,也為日後建立政治學研究通用的斷詞詞庫奠立基礎。
註:有關詞庫及文本檔案,請參閱作者提供之網址(https://tohow2011.wixsite.com/polisci/data)