人文學者使用電腦理解文本的七種方式

Seven Ways Humanists Are Using Computers to Understand Text by Ted Underwood


本文由余佳穎編輯

本文摘自Ted Underwood的〈Seven Ways Humanists Are Using Computers to Understand Text〉,由余佳穎統整後撰文。


隨著科技的發展,不同領域的學者開始將科技與自身學科結合,來進行更進一步的數位化研究,其中,「數位人文」學就是其中一個將資訊科技應用在人文研究的絕佳例子,本文介紹七種人文學者應用資訊科技理解文本的七種主要方式,簡介摘述如下。

科技也讓本來交流甚少的學科能以全新的方式進行互動,以社會學和人文學為例,社會科學的研究中經常使用到統計模型,利用數學方程式建模,就能預測事件的發生機率,進一步進行社會變遷的研究,然而,在過去要將這類統計模型應用在人文研究困難重重,原因包括文本數量過於大以及文本結構通常很鬆散,現在這些障礙都因有了當代科技的幫助,而開始有了解決的曙光,科技無疑讓跨學科間的對話開啟了全新的可能性。

科技能讓文本能以更多形式來呈現,在使用科技來分析文本前,學者要先決定呈現文本的方式,以及接下來要怎麼做。例如可以利用其他的圖像媒介像是漫畫等,將文本以視覺化的方式(Visualize Single Texts)重新呈現在讀者眼前,再舉一個例子,也可以利用「詞袋」(bags of words)的方式來呈現文本中的字彙特性(Choose Features to Represent Texts),在詞袋裡的單字是打散的,而非照文本順序呈現單字,這能避免讀者用以往習慣的方式檢視文本,找出讀者不同的閱讀模式。除此之外,科技也能幫忙找出特定類型的寫作文本頻繁使用的字詞(Identify Distinctive Vocabulary),例如利用語料庫(Find or Organize Works)來分析某位詩人的詩歌最常用的詞彙和其他詩人有哪些差異。

而關於數位人文學的「建模」(Unsupervised Modeling),在建立模型後,就可以更清楚明瞭且簡單易懂的方式來表達事物,舉例來說,建模可應用在辨識文體體裁的差別,因為建模能幫助學者快速找出文體的特徵(Model Literary Forms or Genres),也可應用模型來找出歷史和文本模式是否存在特定關聯(Model Social Boundaries)。

總之,科技讓學者能採取更多以往難以實行的研究方式來進行文本分析,也能進行跨領域的學科交流,然而,如果計畫較為複雜龐大,人文學者則須學習相關的量化分析方法,同時了解如何使用輔助開發工具,包括R Studio以及程式語言Python,這樣才能促使計畫的執行更為有效率與簡單。