Comainu 工具介紹


本文由邱郁婷編輯

本文摘自小澤俊介、內元清貴、傳康晴所建立之〈Comainu〉,由邱郁婷統整後撰文。


網頁簡介

〈Comainu〉為一語言分析工具,其可自動組出中單位(適合音聲研究)以及長單位(適合語法構造及文意研究)的詞彙。於網頁的說明當中,多次提及「短單位」、「中單位」以及「長單位」3個詞彙,其皆為語言單位。其中「短單位」與「長單位」皆出自「形態論情報(Morphological information)」,並為國立國語研究所所建立之語料庫──「Balanced Corpus of Contemporary Written Japanese (BCCWJ)」所採用。以下將針對「短單位」及「長單位」之定義進行說明:

一、 短單位:現代語言當中具有字義的最小單位,又可稱其為「最小單位」。短單位具有語素、詞類、活用形等形態論資訊,如助詞的で、に或を;單字的大、中或小等。

二、 長單位:由複數短單位所構成,習慣上會將整個長單位作為一個複合詞來看,不會將其拆分成多個構成要素。如「固有名詞假名標記」為一長單位,雖其可拆分成「固有」、「名詞」、「假名」與「標記」4個短單位,但若將其認定為長單位時,僅視「固有名詞假名標記」為一單位。

〈Comainu〉的主要功能有3種,分別為:

一、 長單位分析

輸入明文(Clear Text)或短單位列後,即可一併顯示出文中的短單位列與長單位。

二、 中單位邊界(Boundary)分析

輸入明文、短單位列或帶有長單位資訊的短單位列,即可一併顯示出文中的短單位列與中‧長單位。

三、 語句結構(文節)邊界分析

輸入明文或短單位列後,即會顯示帶有語句結構邊界的短單位列。

〈Comainu〉的網頁中有一標籤為「TRY COMAINU」,於此標籤中可體驗其「長單位分析」之功能。點擊該標籤後,頁面即會出現一文字輸入方塊,使用者可於其中輸入欲進行長單位分析之文本,最多可輸入1000字。輸入完畢後,點擊右方的「執行(Execute)」按鍵即會出現分析結果;若要清除文字輸入方塊中的所有內容,可透過「清除(Clear)」按鍵刪除。分析結果以表格形式呈現,其表格中共有兩大欄位,分別為短單位及長單位,短單位的細分項目包含「辭書形(日語動詞之普通形)」、「發音」、「語素讀音」、「語素」、「詞類」及「活用形」;長單位的細分項目則為「詞類」、「活用形」、「語素讀音」、「語素」及「辭書形」。透過該表格,使用者可清楚得知輸入之文本的短單位及長單位分別為何,亦可了解其語彙資訊。

若要使用更完整的功能,可於〈Comainu〉的下載標籤中下載其軟體。

另,透過BCCWJ運用Core data所進行的實驗(以短單位帶有合適之情報為前提),可得知長單位分析的性能中,辨別長單位邊界的解析精確度(F-measure)為99.2%;長單位詞類的解析精確度則為98.8%。

而透過BCCWJ運用一部分Core data功能所進行的實驗,在帶有合適的長單位的前提之下,中單位解析的解析精確度達到99.2%。