KH Coder:定量內容分析軟體

KH Coder


本文由邱郁婷編輯

本文摘自樋口耕一的〈KH Coder:定量內容分析軟體〉,由邱郁婷統整後撰文。


軟體介紹

KH Coder為一免費軟體,可用於定量內容分析或文本探勘,無論是問卷的回答內容、採訪紀錄亦或是新聞報導等,都可以透過KH Coder進行文本分析。此外,KH Coder所支援的語言十分廣泛,包含加泰羅尼亞語、簡體中文、德文、英文、法文、荷蘭語、義大利文、日語、韓文、葡萄牙語、俄文、斯洛維尼亞文及西班牙文。

KH Coder的分析順序大致上可分成2個階段:

一、 階段一:自動提取出數據中的字詞,再針對提取結果進行計算與解析。藉此探查數據之特徵,並進行彙整,盡可能在沒有分析者預先判斷的情況下執行分析。

二、 階段二:分析者可自行設定編碼規則,例如「若有此類表達式,則視為概念(Concept)A已出現」,藉此將概念自數據中提取出,並透過計算、解析提取結果來進一步深化分析。

值得注意的是,由於電腦無法像人類一樣理解其中意義,因此以自動處理為主的階段一運作時,可能會漏掉對於分析者而言十分重要的概念。此時,可透過階段二進行修正。

軟體功能

KH Coder的功能可分成3類,分別為「字詞搜索」、「文本檢索與編碼」及「多變量分析與視覺化」,詳細說明如下:

一、 字詞搜索

此項目又可分成3項,詳細如下:

(一) 顯示一覽表或檢索

透過KH Coder的「工具」→「提取詞」功能可查看檢索字詞的詞類、出現頻率及各動詞型態一覽表,且可將其輸出成Excel檔。

透過「前置處理」→「字詞提取結果確認」可查看文本分割的狀況是否符合使用者所需,若欲更改文本分割的方式,可至「前置處理」→「分析使用之字詞取捨選擇」進行設定。舉例來說,若欲將「畢業證書」作為一個名詞,而非拆分成「畢業」及「證書」,則可在「分析使用之字詞取捨選擇」功能視窗左手邊的「強制選擇」欄位輸入「畢業證書」,輸入完畢並點擊確認鍵後即可完成設定。

(二) 字詞的使用方式

可透過「工具」→「提取詞」→「關鍵詞索引(KWIC)」功能搜尋某字詞的使用情況。舉例來說,搜尋時輸入「使う(使用)」,則結果除了顯示出文章中的「使う(原形)」之外,亦會顯示出文中該動詞的其他動詞變化,例如「使え(可能型)」、「使い(連用形或ます形)」或「使っ(た形或て形)」等。

若想從更廣泛的文章脈絡查看某項結果,只需對欲查看之結果雙擊滑鼠左鍵,即會顯示出該字詞於文章中的位置,並以黃色螢光色標記。

此外,KH Coder也能進行「搭配詞統計」,計算出檢索字詞前後文出現的各詞彙頻率。

(三) 相關詞彙

透過「工具」→「提取詞」→「搜索相關詞彙」之功能,可查看與檢索詞彙最為相關的字詞,並計算其出現次數,例如犯罪與事件、警察及逮捕等詞彙經常一同出現。除了最基本的檢索之外,亦能設定外在條件。舉例來說,若文本為一調查問卷,則可設定查看男性或女性的回答內容特徵;若文本為一般文章,則可設定查看各章節的用詞特徵。另外,搜尋之結果亦可進行調整,除了可設定最大結果顯示數之外,亦可設定僅查看某些特定詞類。

透過「工具」→「文本」→「提取詞x文章脈絡向量分析輸出」之功能,再搭配統計軟體進行多變量分析,即可製作出詞彙間的關聯性分佈圖(如自組織映射網絡等)。截至目前為止(書寫時間2022.12.23),KH Coder上也能執行一部分多變量分析(詳情請見第三項目-多變量分析與視覺化)。

二、 文本檢索與編碼

此項目又可分為3類,詳細如下:

(一) 文本檢索

透過「工具」→「文本」→「檢索」之功能,可搜尋文本中含有檢索字詞之段落,搜尋時可透過「編碼規則(Coding rule)」設定較為複雜的搜索條件,如and、or、not或()等。此功能同樣適用於小說、新聞報導、調查問卷或一般文章等類型的文本。對檢索結果雙擊滑鼠左鍵後,可從整體文章中查看檢索文字之位置,同樣以黃色螢光色標記。

(二) 於檔案中輸入檢索條件

記載了複數檢索條件的檔案稱為「編碼規則檔(Coding Rules File)」,將此檔案讀取進KH Coder後,即可於文本檢索時自由選取編碼規則以進行搜尋。

(三) 編碼(列舉與計算)

針對文本進行定量分析時,可能會碰上複數相關的字詞,例如日文中,「死ぬ」、「亡くなる」或「自殺」等都可以代表「人的死亡」,因此為了在檢索時能得到精確的結果,必須建立編碼規則檔,將「死ぬor亡くなるor自殺or……」之編碼規則寫入檔案中。將檔案導入至KH Coder後,使用「工具」→「編碼」→「單純計算」之功能時,便能快速計算出文本中死亡之相關詞彙的整體出現頻率。

透過編碼規則檔,亦可於「工具」→「編碼」→「章、節、段落之個別計算」功能中,計算文本上、中、下段落中個別的字詞出現頻率。同樣以「死亡」相關詞彙舉例,將檔案導入後,便可計算出文本上、中、下段落中個別出現多少次「死亡」之相關詞彙,隨後即可進行各段落之比較。此外,此分析結果亦可搭配計算表格軟體製作出出現頻率圖。

藉由「工具」→「編碼」→「多次元尺度分析」之功能,即可運用編碼結果進行多元尺度分析(MDS, Multi-dimensional Scaling),編碼之間的關聯性越高,距離越是相近,藉此即可得知各事項之間的相關性,例如「犯罪之編碼」與「糾紛之編碼」的相關性極高。

三、 多變量分析與視覺化

KH Coder可執行一定程度的多變量分析,為了實現統計計算與圖像化,KH Coder中運用了程式語言「R」以達成前述目的。詳細如下:

(一) 階層式聚類分析

針對提取詞進行階層式聚類分析,並以樹狀圖顯示出分析結果。編碼亦可藉此進行分析。

(二) 多元尺度分析

提取詞或編碼皆適用。透過多元尺度分析功能,可將分析結果製成一維至三維的圖表,若是進行分析的詞彙或編碼數較多,則會以二維圖表顯示分析結果。

(三) 對應分析

提取詞或編碼皆適用。分析結果以二維圖表顯示,若是提取之成分數量較多,為求更精確且詳細的分析,建議搭配WordMiner一併使用。

(四) 共現網絡(Term Co-occurrence Network)

提取詞或編碼皆適用。以線進行連接來顯示出字詞或編碼間的共現關係。圖表中會以顏色區分其「中心性」,並以「線」的連接與否來判斷物件間的相關性,而非多元尺度分析中以「位置」來進行判斷,因此只要兩者間沒有以線連接,即便位置相近,兩者間的共現程度依舊不高。

(五) 自組織映射網絡

適用於提取詞與編碼。自組織映射網絡需要極長的學習時間。

(六) 編碼大量出現部分

此功能以圖表顯示出數據中各部分中各編碼的出現頻率。

(七) 文本的聚類分析

可透過此功能對文本進行聚類分析,並進行分類。分析結果的畫面中,可查看各聚類中分別含有多少文本內容;若再對某個聚類點擊一下左鍵,即可查看所選之聚類的文本一覽表及其特徵用詞。此外,聚類分析之結果可作為「外部變數(即文本數據中不含之資訊)」進行保存,透過此外部變數,即可製成各聚類的特徵用語一覽表,亦可用於對應分析。

(八) 圖表的保存與運用

針對各圖表點擊保存鍵後,可以4種形式進行儲存,分別為:

1. 可用於Word或PPT的EMF檔

2. 可用於LaTeX的EPS檔

3. 可用於網頁的PNG檔

4. R Source檔

若儲存成R Source檔,則組成圖表的R語言指令亦會一同儲存,只要執行儲存下來的R語言指令,即可製作出完全相同的圖表。此外,若欲對圖表進行客製,可透過編輯指令達成此目的。

上述8項功能僅是較為簡易的版本,針對R語言指令進行分析後,將結果顯示於畫面上而已,KH Coder本身幾乎不會再執行內部演算。此外,亦無法透過滑鼠操作選取部分圖表並更改字體,若欲執行這類較為精細的調整,需透過R語言指令進行客製,或是使用其他統計軟體。