瀏覽文章

Web茶豆

Web茶まめ

本文由邱郁婷編輯

本文摘自國立國語研究所建立之〈Web茶まめ〉，由邱郁婷統整後撰文。

網頁簡介

Web茶豆是由日本國立國語研究所所建立，並於2015年9月15日正式公開的網頁工具，其運用各種UniDic（解析用辭典）來對文本進行型態分析（Morphological Analysis），而此工具中所使用的UniDic分成現代文UniDic及古文UniDic，此二UniDic皆可於超連結之網站中下載，只要搭配型態解析工具Mecab，便可於自己的電腦中進行分析。

網頁使用說明

開啟Web茶豆之後，即會看見兩個方框，左手邊的方框中寫有「輸入文字（テキストを入力）」，使用者可直接將欲分析之文章複製貼上至文字方塊中，若想清除文字方塊內的所有文字，按下「清除（クリア）」即可；右手邊的方框中則寫有「解析文本檔案（テキストファイルから解析）」，若欲解析之文本為一檔案，則可點擊「選擇檔案（ファイルを選択）」之按鍵選取該文件。另，上傳文檔時，可一次選擇複數檔案上傳，且執行該動作時，須注意以下3點：

一、若上傳之檔案容量大於10MB，則須事先將此檔案拆分成各10MB的複數文檔。舉例來說，若今有一容量為50MB之檔案欲解析，則使用者須先將此檔案拆分成5個10MB的文檔才得成功上傳。

二、輸出解析結果時，若以CSV形式下載，則上傳之檔案容量上限為10MB / 1個。

三、輸出解析結果時，若以Excel形式下載，則上傳之檔案容量上限為100KB / 1個。　　

將分析用的文本輸入或上傳完畢之後，即可於網頁下方進行更詳細的設定，共有4個設定項目，以下將針對各項進行說明：

一、解析前處理（解析前処理）

此項目中使用者可選擇在解析文本前是否針對文本進行特殊處理，而可選項目共有5項，分別為「消除HTML標籤及《》標籤」、「半形轉換為全形」、「展開疊字（踊り字）」、「平片假名反轉」以及「數字處理」，使用者可依自身需求自由選擇，如無需任何處理則跳過該項目即可。

二、辭典選擇（辞書選択）

此項目中提供選擇之辭典共有13種，有現代語、現代口語用詞、近現代文用語、中古日語及上古日語等可勾選，最多可選擇2種辭典同時進行解析與比較。

三、輸出項目（出力項目）

該項目又可理解為「分析項目」，其中共有15個選項可勾選，如詞位（Lexeme）、詞位讀音、詞類、活用形（日語詞類變化）及日語語種（漢語、和語、外來語等類別）等，使用者可依需求選取欲分析之項目。

四、輸出形式（出力形式）

完成上述3項設定之後，於「輸出形式」一覽即可決定解析完畢的文本檔案要以何種形式輸出，總共有4種形式可選擇，即「HTML」、「CSV」、「Excel」以及「Chaki import」。前述4種形式中，若是以CSV輸出，則需再選擇字元編碼（文字コード）的形式，選項有2種，分別為「UTF-8」及「SJIS」，設定完畢後即可按下網頁最下方的「解析」按鍵進行文本分析。

按下解析按鍵後，系統會自動將檔案下載至電腦中，亦或是轉跳至分析結果頁面，如此便可查看文本之分析內容。

Comments:本文摘自國立國語研究所建立之〈[Web茶まめ](https://chamame.ninjal.ac.jp/index.html)〉，由邱郁婷統整後撰文。