電腦輔助分析知多少
Computer-Assisted Content Analysis and Sociology: What You Should Know
本文由邱冠瑀編輯
本文摘自Laura K. Nelson的〈Computer-Assisted Content Analysis and Sociology: What You Should Know〉,由邱冠瑀統整後撰文。
科技日新月異,電腦輔助與自動文本分析技術已被廣泛應用在許多領域上,例如數字人文學科以及重要的政治學等。最近一期的《詩學》雜誌特別介紹了一種技術—主題模型(Poetics 41, 2013),也證明電腦輔助與自動文本分析終於被社會學領域的學者接納。但是,研究者使用這些分析法只是因為方便,並非完全了解自動文本分析的全貌。另外,在使用自動文本分析方法的時候,總會反覆出現幾個問題。而本篇文章會先介紹主題模型的功能以及盲區,在針對使用分析技術的問題進行討論。
主題建模的功能﹕
-
可直接從文本中歸納出類別。
-
可用於跨文本上、或是單一文本。
-
用於發現文本的潛在類別,可使我們深入理解文本的涵義。
-
可處理大量且多元的語料庫。
-
可判斷不同主題文本中的關鍵字或可分析主題變化與時間推移的關係。
主題模型的盲區﹕
-
主題模型不是文本分類的「唯一解」或是「最佳解」;它會出現數百種主題模型演算法,且每種都會產生不同的結果。
-
如果已經有頭緒如何分類文本,此法將不適用。
-
無法連接句與句間的關係。
-
無法識別文本與類別數據上的不同,需要其他方法來達到這點。
-
這是科學而不是魔法,任何研究都需要時間與努力;它絕對不會自動地幫助我們探討文化的未知領域。
自動文本分析百百種,主題模型只是其中的一種整合技術,其他包括機器翻譯、拼寫和語法檢查等等。學者經過數十年的鑽研,總結只要針對文本的某些特定特徵分析便可以有效研究文本;例如分辨特定句子的主語、賓語和動詞時,就必須標記每個詞的詞性。然而,盲目地增加相關的語法資訊(例如使用二元語法或三元語法來代替單元語法)將無助於分類文本。另一方面,除了針對特定的特徵分析文本,文本的生產條件也必須考慮進去。所有社會科學領域的研究人員要徹底了解研究資料,使用任何類型的資料之前,應該要探究該資料是透過什麼過程產生的。每種分析方法都以不同的方式對語言進行建模,並對語言的特定部分進行判斷。研究者必須要謹慎選擇分析技術,了解哪種分析方法與模型最符合你的研究問題與使用資料。分析方法不僅僅是簡單、方便還可以提供研究人員一個有效率的方法辨識文本內容,進而分類文本。
電腦輔助的方法很快就會將傳統的手工編碼分析技術取而代之,此結果也有利於科學的發展。為了向前邁進,多元的自動分析文本技術應該要與回歸分析等分析方法出現在教科書上。我相信這些分析方法在未來會成為研究者不可或缺的常規技術。如果這些分析方法能被更廣泛地應用,社會學領域將有飛躍性的進展。