Web茶豆

Web茶まめ


本文由邱郁婷編輯

本文摘自國立國語研究所建立之〈Web茶まめ〉,由邱郁婷統整後撰文。


網頁簡介

Web茶豆是由日本國立國語研究所所建立,並於2015年9月15日正式公開的網頁工具,其運用各種UniDic(解析用辭典)來對文本進行型態分析(Morphological Analysis),而此工具中所使用的UniDic分成現代文UniDic及古文UniDic,此二UniDic皆可於超連結之網站中下載,只要搭配型態解析工具Mecab,便可於自己的電腦中進行分析。

網頁使用說明

開啟Web茶豆之後,即會看見兩個方框,左手邊的方框中寫有「輸入文字(テキストを入力)」,使用者可直接將欲分析之文章複製貼上至文字方塊中,若想清除文字方塊內的所有文字,按下「清除(クリア)」即可;右手邊的方框中則寫有「解析文本檔案(テキストファイルから解析)」,若欲解析之文本為一檔案,則可點擊「選擇檔案(ファイルを選択)」之按鍵選取該文件。另,上傳文檔時,可一次選擇複數檔案上傳,且執行該動作時,須注意以下3點:

一、 若上傳之檔案容量大於10MB,則須事先將此檔案拆分成各10MB的複數文檔。舉例來說,若今有一容量為50MB之檔案欲解析,則使用者須先將此檔案拆分成5個10MB的文檔才得成功上傳。

二、 輸出解析結果時,若以CSV形式下載,則上傳之檔案容量上限為10MB / 1個。

三、 輸出解析結果時,若以Excel形式下載,則上傳之檔案容量上限為100KB / 1個。   

將分析用的文本輸入或上傳完畢之後,即可於網頁下方進行更詳細的設定,共有4個設定項目,以下將針對各項進行說明:

一、 解析前處理(解析前処理)

此項目中使用者可選擇在解析文本前是否針對文本進行特殊處理,而可選項目共有5項,分別為「消除HTML標籤及《》標籤」、「半形轉換為全形」、「展開疊字(踊り字)」、「平片假名反轉」以及「數字處理」,使用者可依自身需求自由選擇,如無需任何處理則跳過該項目即可。

二、 辭典選擇(辞書選択)

此項目中提供選擇之辭典共有13種,有現代語、現代口語用詞、近現代文用語、中古日語及上古日語等可勾選,最多可選擇2種辭典同時進行解析與比較。

三、 輸出項目(出力項目)

該項目又可理解為「分析項目」,其中共有15個選項可勾選,如詞位(Lexeme)、詞位讀音、詞類、活用形(日語詞類變化)及日語語種(漢語、和語、外來語等類別)等,使用者可依需求選取欲分析之項目。

四、 輸出形式(出力形式)

完成上述3項設定之後,於「輸出形式」一覽即可決定解析完畢的文本檔案要以何種形式輸出,總共有4種形式可選擇,即「HTML」、「CSV」、「Excel」以及「Chaki import」。前述4種形式中,若是以CSV輸出,則需再選擇字元編碼(文字コード)的形式,選項有2種,分別為「UTF-8」及「SJIS」,設定完畢後即可按下網頁最下方的「解析」按鍵進行文本分析。

按下解析按鍵後,系統會自動將檔案下載至電腦中,亦或是轉跳至分析結果頁面,如此便可查看文本之分析內容。