文字探勘工具與方法

Text Mining Tools and Methods


本文由邱郁婷編輯

本文摘自伊利諾大學圖書館ILLINOIS LIBRARY的〈Text Mining Tools and Methods(文字探勘工具與方法)〉,由邱郁婷統整後撰文。


文章介紹

此文章之介紹主題為「文字探勘」,內容共分成5個小節,以下將針對各小節進行說明:

一、 選擇研究方法

欲研究的問題會影響分析方法的選擇,在選取使用的方法時,首先需考慮自己欲從研究中學到什麼,以及研究之結果要以何種形式呈現。本文中所介紹的各個分析方法能在進行研究的過程中相互結合,舉例來說,自然語言處理可將文本中的人名顯示出來,而這正能夠應用在網路分析,藉此研究人物之間的連結。

二、 詞頻(Word Frequency)

詞頻的計算是進行進階文本分析前的基礎之一,且有時從詞頻就能看出問題出在何處。詞頻包含了純文字字數計算,以及單個或複數文本中的單字百分比計算,並將計算結果用來進行文本之間或時間上的比較。此外,詞頻也可用來計算「N元語法(N-grams)」或一定數量(n)的短語句。

學術上常見的相關工具有:

(一) ATLAS.ti

(二) NVivo

(三) R

(四) SAS Text Miner

(五) Python

線上的相關工具有:

(一) HathiTrust+Bookworm

(二) Google Ngram Viewer

(三) Voyant

(四) HathiTrust Research Center Analytics

圖書館內相關指南:

(一) ATLAS.ti

(二) Intro to R

(三) Plot Lexical Trends using HathiTrust+Bookworm

使用詞頻的研究範例:

  • Clement, T.E. (2008) ‘A Thing Not Beginning and Not Ending’: Using Digital Tools to Distant-Read Gertrude Stein’s The Making of Americans. Literary and Linguistic Computing, vol. 23(3), 361-81. http://doi.org/10.1093/llc/fqn020.

三、 機器學習

此小節中有2個項目單獨列出說明,即「主題建模」及「自然語言處理」,詳細如下。

文本分析通常會仰賴機器學習,而機器學習則是電腦科學的一個分支,其能夠訓練電腦學會辨別不同的模式。文本分析中會使用到的2種機器學習分別為「監督式學習(Supervised learning)」及「非監督式學習(Unsupervised learning)」。前者是透過人工來訓練模式檢測之模組;後者則是在幾乎沒有人為干涉的情況下讓電腦找出文本的模式。

監督式學習的範例即是「單純貝式分類(Naïve Bayes Classification)」;而非監督式學習的例子則可參閱下方的自然語言處理與主題建模之說明。

使用分類(Classification)的研究範例:

  • Horton, R., Morrissey, R., Olsen, M., Roe, G., Voyer, R. (2009). Mining Eighteenth Century Ontologies: Machine Learning and Knowledge Classification in the Encyclopédie. Digital Humanities Quarterly, vol. (3)2. Retrieved from: http://www.digitalhumanities.org/dhq/vol/3/2/000044/000044.html.

(一) 主題建模

「主題建模」是機器學習的一種形式,其能夠辨別文本內容的模式與主題。主題建模是透過統計來完成的,例如「隱含迪利克雷分布(LDA,Latent Dirichlet Allocation)」,即藉由文本中多次共現(Co-occur)的字詞,將單字分組成「主題」的模組。

學術上常見的相關工具有:

1. R (可在網路上免費取得)

2. Python (可在網路上免費取得)

線上的相關工具有:

1. HathiTrust Research Center Analytics

2. MALLET    圖書館內相關指南:

1. Topic Modeling

2. Intro to R

3. "Text Mine HathiTrust" on HathiTrust

使用主題建模的研究範例:

  • Mendenhall, R., Brown, N., Black, M., Van Moer, M., Lourentzou, I., Flynn, K., McKee, M., Zerai, A. (2016). Rescuing lost history: Using big data to recover black women's lived experiences. In Proceedings of XSEDE 2016: Diversity, Big Data, and Science at Scale (Vol. 17-21-July-2016). https://doi.org/10.1145/2949550.2949642. - Illinois Authors

(二) 自然語言處理

「自然語言處理」是機器學習的一種,其是藉由電腦方法(Computational Methods)自任意文本中提取涵義。此外,自然語言處理能夠推導出人名、地名、日期、情緒與詞性。

學術上常見的相關工具有:

*Python (可在網路上免費取得)

線上相關工具有:

1. HathiTrust Research Center Analytics

2. Stanford Natural Language Processing Group

圖書館內相關指南:

  • "Text Mine HathiTrust" on HathiTrust

使用自然語言處理的研究範例:

  • Underwood, T., Bamman, D., & Lee, S. (2018). The Transformation of Gender in English-Language Fiction. Journal of Cultural Analytics. http://doi.org/10.22148/16.019. - Illinois Authors

四、 網路分析與引文分析

「網路分析」可用於尋找人物、概念、來源或其他事物之間的關聯,而事物之間的關係通常會在視覺化之後,形成一張網絡狀的圖表,並顯示出各節點之間的相關性。

而「引文分析」則可用來找出各文本中使用之引文間的關聯性,並將其視覺化。

線上相關工具有:

(一) Gephi (網路分析)

(二) VOSViewer (網路分析與引文分析)

研究範例有:

  • Kaufman, M. (2014-2015). Quantifying Kissinger. Retrieved from http://blog.quantifyingkissinger.com/.

五、 視覺化

「視覺化」是一種「查看」數據的方法,文字探勘的可視化能夠幫助研究人員了解各個概念之間的關係,例如標籤雲(Word Cloud)、圖表、地圖或其他能夠使數據視覺化的圖形。

學術上常見的相關工具有:

(一) ATLAS.ti

(二) NVivo

(三) R (可在網路上免費取得)

線上相關工具:

(一) Lexos

(二) Voyant

(三) HathiTrust Research Center Analytics

(四) Wordle

圖書館內相關指南:

(一) Visualizing your Data

(二) ATLAS.ti

(三) Intro to R

(四) "Text Mine HathiTrust" on HathiTrust