將Voyant工具應用至日語歷史文本

Using Voyant Tools with Historical Japanese Texts


本文由邱郁婷編輯

本文摘自數位東方主義的〈將Voyant工具應用至日語歷史文獻〉,由邱郁婷統整後撰文。


網頁介紹

數位東方主義(The Digital Orientalist)為一網路雜誌,其營運組織由學者、圖書館員以及學生組成,此網路雜誌得建立目的是為了分享其於人文研究中使用數位工具的經驗,特別是與其日常工作流程相關的內容。

以下將針對該網路雜誌中其中一篇文章──〈將Voyant工具應用至日語歷史文獻〉進行介紹。

將Voyant Tools應用至日語歷史文獻

「Voyant Tools」為一熱門的網頁工具,其提供一系列文本分析工具,使用者可藉此查看文本中字詞的出現頻率、型態及趨勢。雖然Voyant Tools主要是用於分析英文文本,不過此工具其實能用於各種語言的分析,本次介紹的文章即是將此工具試用於日文文本的分析。

原文作者於此次實驗中,以島田三郎的《自由的使徒》及《佐野特報(佐野だより)》為分析對象。剛開始將文本輸入至Voyant Tools時,Cirrus、TermBerry及總結欄位中所顯示之高出現頻率項目大多為單個假名,而非我們能夠辨認的單詞,由此可知Voyant Tools的日語文本分割方式相似於Python的「Fugashi日語文本切割」插件,皆是以詞目(Lemma)為切割基準而非單詞。也就是說,助動詞及接尾詞(Suffix)大多會從其所修飾的詞語中分開來。

使用Voyant Tools分析二次世界大戰以前的文獻時所出現的問題更多。舉例來說,《自由的使徒》中的「云う(說)」是以古文形「云ふ」來呈現,雖然Voyant Tools能夠分辨出現代用語的「云う」,但在分析古文形式的「云ふ」時,卻是將其分成「云」跟「ふ」。此問題亦出現在助動詞及助詞上,此工具會將古字體分開,例如《佐野特報》中的「鉱毒(礦毒)」一詞是以古字體「鑛毒」呈現,然Voyant Tools會將其分開成「鑛」與「毒」,進而導致分析結果出現錯誤。

2016年數位人文學者永崎研宣於部落格發布的文章中寫道:「Voyant tools在處理助動詞及助詞時的過程或許能夠提供有關作者寫作風格的有用資訊,不過卻無法讓我們簡單地分析文本內容」。由此可知,將文本中的助動詞及介副詞(Particle)刪除所帶來的正面影響可能會比負面影響多一些,且能讓使用者看見文本的不同樣貌。此外,使用者可藉由將特定字詞或字母添加至「停用詞清單(Stopwords List)」來使Voyant Tools在分析文本時忽略特定詞彙。此停用詞清單之路徑為工具的定義選單→停用詞名單列右邊的編輯名單。

原文作者參考了永崎研宣所提供的停用詞清單,並將其設定至其分析文本後,得出了比原先更明確的分析結果。然而,在分析前,仍須將古代日語中常見的助動詞及介副詞加入至停用詞清單,例如き、之、ぬ、たる、つて、つた等。另,作者亦加了所有獨立的平假名字母以及字詞,例如文本中沒有出現,但包含在元數據(Metadata)中的「ファイル」一詞至停用詞清單中。若事先對數據進行額外的處理或自青空文庫中抓去數據,便可簡單地清除元數據中所出現的數據術語(Data terms)。此外,作者在使用Voyant Tools分析日語文本時,亦刪除了一些出現頻率過高,且會影響視覺效果的字詞以及「云」字。刪除之後,分析後的結果又更清晰了一些。

依照上述方式處理後,從分析結果之詞雲(Word Cloud)可看見《佐野特報》中的「足尾」與「被害」兩詞彙最為顯眼。如再將其使用於Voyant Tools所提供的另一項功能——TermsBerry後,又可知「被害」一詞與「池」以及「人民」的相關性最高;而在《自由的使徒》的TermsBerry中,「先生(老師)」與「社会」兩者間的關聯性及「条約」與「改正」與「励行(堅持)」三者之間的關聯性在文本中最常出現。

綜上所述,只要使用者願意事先針對其數據進行一些調整與處理,Voyant Tools也可能能夠運用在日語文本的分析上。然而,日語的文本切割方式較為獨特,因此並非所有的分析工具都能夠用來分析日語文本。