全文檢索系統「向日葵」

全文検索システム『ひまわり』


本文由邱郁婷編輯

本文摘自國立國語研究所於PukiWiki所建立之〈全文検索システム『ひまわり』(全文檢索系統「向日葵」)〉,由邱郁婷統整後撰文。


軟體介紹

「向日葵」是國立國語研究所為了語言研究而設計的全文檢索系統,其主要功能如下:

一、 針對XML文檔進行快速全文檢索

(一) 若以XML文檔呈現欲檢索之資料,即可針對各式各樣的資料進行搜尋。現下(撰寫時間2022/09/25)可於「向日葵」進行檢索的資料有《太陽語料庫》、《日語口語用詞語料庫》及《分類語彙表》等語言資料。

(二) 可指定XML文檔之元件、屬性為檢索條件。

(三) 利用Index(Suffix Array 後綴陣列),即可進行快速的全文檢索。

二、 語言研究支援功能

(一) 可以KWIC(KeyWord In Context)的形式呈現檢索結果。

(二) 可顯示XML檔之附加情報(元素及屬性),亦可將其進行統計。

(三) 可導入自行準備的語言資料(純文本、HTML、XML),且在導入時亦可對形態分析結果進行註解(Annotation)。

另外,由於「向日葵」所使用的程式語言為Java,因此在Windows、MacOS或Linux等操作系統上皆可作業。

軟體使用方法

以下將介紹「向日葵」的使用方式,在說明時將分成6個部分,詳細如下:

一、 語言資料的選擇與安裝   啟動「向日葵」後,語言資料將預設為《青空文庫》,若欲變更語言資料,可至「檔案(ファイル)」→「選擇語料庫(コーパス選択)」更改,選擇頁面中有2個《青空文庫》,兩者的內容皆相同,不過其中一個有形態分析結果可查看;另,若語言資料本身具有外部註解之數據,則「外部數據庫(外部DB)」的下拉式方塊中會出現「開啟(あり)」之選項。

「向日葵」專用的語言資料包可於全文檢索系統「向日葵」中下載,檔案多為zip檔,無需解壓縮即可直接置入「向日葵」之中進行安裝。

二、 檢索方式

啟動「向日葵」後,於「檢索文字列」中輸入文字並點擊「檢索」按鍵即會出現檢索結果,其以KWIC形式呈現。而檢索結果之項目因語言資料而異,若以《青空文庫》為例則有6個項目,分別為:

(一) 檢索文字前文:檢索文字前的文章

(二) 檢索文字:檢索文字列中輸入之文字

(三) 檢索文字後文:檢索文字後的文章

(四) 路徑:原資料之檔案路徑

(五) 作品(タイトル):作品的名稱

(六) 作者:作品的作者名稱

若對表格中欲閱覽之結果欄位雙擊滑鼠左鍵,便可啟動瀏覽器,並於更大的範圍查看該檢索文字(以紅字標示)位於何處,而文本顯示之範圍同樣因語言資料而異,若以《青空文庫》為例則會顯示一完整文本,而顯示之文本為所選欄位對應之文章,若欄位對應夏目漱石的《こころ》,則會顯示《こころ》全文。

若想縮小檢索結果之範圍,可使用篩選功能。右鍵點擊欲篩選之項目後,即可於顯示之選單中選取欲查看之內容,舉例來說,若是於作者列選取芥川龍之介,則結果中僅會出現芥川龍之介相關之內容。;此外,亦可點選選單中的「指定文字列」,並透過「正規表達(Regular Expression)」進行篩選。如欲取消篩選,則同樣以右鍵點擊該項目,並選取「解除篩選(フィルタ解除)」即可。

檢索結果之表格左下方有一表格標籤,對其點擊右鍵並選取「追加表格」後,即會出現一全新檢索頁面,如此便可進行複數搜尋。若要刪除表格,同樣對其點擊右鍵並選取「刪除表格」即可。

三、 以詳細條件進行檢索

此項目將介紹如何於檢索前設定更詳細的檢索條件。「向日葵」中共有5項可進行設定,即(一)檢索對象;(二)檢索文字列;(三)篩選條件;(四)選擇語料庫;(五)檢索設定,詳細說明如下:

(一) 檢索對象

檢索對象可於「檢索文字列」左邊的下拉式方塊中自行設定。以《青空文庫》為例,當語言資料設定為《青空文庫》時,檢索對象共有4種可選,分別為:

1. 本文:以《青空文庫》之文本為檢索對象

2. 本文(正規表達):以《青空文庫》之文本作為檢索對象,並以正規表達指定檢索文字列,搜尋速度較前者慢。

3. Ruby完全相同:以《青空文庫》之漢字標音為檢索對象,並以「完全相同」的標準搜尋。

4. Ruby部分相同:以《青空文庫》之漢字標音為檢索對象,並以「部分相同」的標準搜尋。

(二) 檢索文字列

檢索文字列由3個部分所組成,分別為「檢索文字列」、「檢索文字前文」及「檢索文字後文」,後兩者將合併介紹,詳細如下:

1. 檢索文字列:

  • 檢索時,此欄務必填寫。

  • 除了一般的文字之外,亦可加上半形的[],寫入附加的檢索條件,[]中可列舉1個以上的文字。

例如:打上[国國]語,會出現「国語」及「國語」;輸入遊[ばびぶべぼ],則會顯示「遊ば」、「遊び」、「遊ぶ」、「遊べ」、「遊ぼ」。

  • 若檢索對象設定為「本文(正規表達)」,則以正規表達形式檢索,而「向日葵」的正規表達是以Java(Pattern class)為基礎。另,正規表達並非只有在檢索對象的「本文(正規表達)」才可使用,詳細可查閱各語言資料的使用說明。

2. 檢索文字前文及後文: * 此二欄位可自由選擇是否填入。

  • 於此處輸入之文字將會影響最終結果之前文及後文內容。

  • 此二欄位右側皆有下拉式方塊,可於選單中選取輸入之文字的條件,共有10項(底線處為輸入之文字):

  • 從__開始/非從__開始

  • 自__結束/非自__結束
  • 與__一致/非與__一致
  • 包含__/不含__
  • 正規表達/非正規表達

  • (進階設定)此二欄位中的文字在系統中會以正規表達呈現。舉例來說,若是指定「從の開始」,在系統內會轉換為「^の」。

  • 某些語言資料,如《分類語彙表》的檢索文字前後文欄位會有些許不同,在使用時可參閱各語言資料的使用說明。

(三) 篩選條件

檢索文字列標籤的右邊有一「篩選(フィルタ)」標籤,點擊後即可於文字方塊中輸入文字,並對檢索結果進行篩選。欲篩選之項目可於文字方塊左側的下拉式方塊中選取,而選項則為檢索結果中的各項目,如路徑、作品、作者等。

此外,文字方塊中的文字亦可設定條件,此部分與(二)檢索文字列中的第2項──檢索文字前後文相同。

(四) 選擇語料庫

若檢索對象中存在複數語料庫,可於「語料庫」標籤中查看所有項目。該頁面左側為「檢索對象」,表示已選定之語料庫;右側則是「檢索對象外」,代表尚未選定之語料庫。

如欲增加語料庫作為檢索對象,於「檢索對象外」之選單中選取所需項目,並點選追加按鍵即可;如欲刪減已為檢索對象之語料庫時,則於「檢索對象」選單中選取欲刪除之項目,並點選移除按鍵即可。

(五) 檢索設定

檢索設定中有3個小標籤,即「文章脈絡」、「抽出」與「字體」,以下將逐一介紹。

1. 文章脈絡:

此項設定與搜尋時的文章脈絡相關,共有3項:

(1) 檢索文字前後文長度:可設定檢索結果中顯示的前後文之字數。

(2) 檢索範圍:將前後文設置為檢索條件時,前後文之範圍可於此設定,同樣以字數調整。舉例來說,於檢索範圍輸入5,則前文及後文方塊中所輸入之文字會在前文5個字或後文5個字以內出現。

(3) 檢索文字範圍:此項目有2個選項,分別為「包含前文」及「包含後文」,勾選後前後文欄位中所輸入之文字將會出現在檢索文字欄位中。假設檢索文字為「私」,後文為「です」,勾選「包含後文」後,檢索文字欄位會出現「私です」,而非只有「私」。

2. 抽出:   此項設定與檢索結果的顯示方式有關,共有3項: (1) 全數:符合條件之結果全部顯示於結果欄位中。該項目中亦可設定結果顯示之數量上限,若上限設定為20,則僅會列出20項結果;若無設定則會全數列出。

(2) 隨機:從符合條件之結果中隨機列出其中幾項,顯示數量可從「樣本數(サンプル数)」中設定

(3) 僅頻率測量:不列出結果,僅顯示其頻率測量。此項中有2種呈現方式:

A. 一覽:以所選取之欄位(有函數之欄位)的對應項目為對象,並顯示該項目中各種類的測量值與出現頻率差異。假設點選欄位之對應項目為「作品」,則會顯示每個作品中各出現幾次檢索文字;若點選項目為「作品」及「作者」,則會顯示每位作者每項作品中各出現幾次檢索文字。

B. 總和:僅顯示搜尋總數。

3. 字體:

此項設定可更換字體,若使用的語言資料無字體更換功能則無此項目,而可變換之字體選項因語言資料而異。以《青空文庫》為例則有以下2種:

(1) 等效字體:檢索對象資料中,作為變體字等效使用之字體將包含至變化後之字體中。

(2) 參考字體:檢索對象資料中,非作為變體字等效使用之字體將包含至變化後之字體中。

另外,標配的字體辭典中包含了常用漢字的新舊字體,因此並無「等效字體」及「參考字體」之差別。再者,此設定僅是單純地轉換成與變體字相關之字體,檢索對象的資料中亦不一定要與「等效字體」或「參考字體」有關聯。

四、 統計檢索結果

此項目將分成4個部分介紹,分別為(一)計算頻率;(二)編輯檢索結果與計算結果;(三)將計算結果相加;(四)結合計算結果。詳細如下:

(一) 計算頻率

檢索結果中任一欄位皆可透過此功能查看其出現頻率,以下將以《青空文庫》為例。

若要查看檢索文字於各作品的出現頻率,可於「作品」列中選取任一欄位,並對其點擊右鍵,再於顯示之選單中選取「統計」,點擊後即會出現計算結果。

舉例來說,若欲得知「あの」於各作品中出現的頻率,則於檢索文字列輸入此單字並點擊搜尋後,於檢索結果中的作品列中任意選一欄位點擊右鍵進行統計,隨後即可得知在《こころ》中該單字的出現頻率為41次;《吾輩は猫である》為190次;《蜘蛛の糸》則是1次。

繼上述,在選取時亦可點選複數欄位,例如同時選取「作品」列及「作者」列中之項目,若於此情況下進行計算,則會於計算結果中再多出一「作者」列。

(二) 編輯檢索結果

以下介紹將以《國會會議記錄資料包》為例,介紹如何編輯檢索結果及計算結果。

於《國會會議記錄資料包》的檢索結果中有一項目為「舉辦日期」,此列皆以年、月、日表示,如1999-07-22,若欲使其僅以年份顯示,則可於該列中任選一項目,並對其點選右鍵,選取「置換」進行編輯。

置換頁面中可設定「欲替換文字」及「替換文字」,一般而言是能以文字替代文字,例如將「夏目漱石」替換為「夏目」;不過《國會會議記錄資料包》的置換是以「正規表達」進行,因此若要將月份及日期刪除,須於「欲替換對象」中輸入「-.*」,表示「-」之後的文字皆刪除。輸入完畢並點選OK之後,即會出現新視窗,並將置換後的結果呈現出來。

另外,「置換」是透過Java的String#replaceAll進行處理,亦可用於向後引用(Back Reference)。

(三) 將計算結果相加

若欄位中的函數為「數值」,則可將其進行相加。此處將以《名古屋大學會話語料庫》為例,並計算每位發言者說話的總字數。

計算各發言者的字數需使用「統計註解內容(アノテーション内容の集計)」功能,路徑為「向日葵」介面最上方的「工具」→「一覽」→「使用者輸入」。

點開之後,於第一階標籤(第1層タグ)的下拉式方塊中選取「u」,此為「發言」之標籤。接著,為了使發言者名字顯示出來,點選下拉式方塊右邊的「選擇部分(一部選択)」,並勾選「發言者(話者)」之選項。另,計算結果中亦需查看發言者說話頻率以及字數,因此第三階標籤下方的「頻率」及「長度」也一併勾選。前述步驟皆完成後,即可看見一含有發言者、長度以及頻率之計算結果。

此處之所以勾選頻率,是由於計算結果中可能存在多次同樣字數的發言內容,例如發言者一號說了107次13個字的內容等,因此為了精確算出發言者的總字數必須勾選此項目。最後,從欲加總的項目中選取任一欄位,並於視窗上方的「編輯」中點選「加總(合算)」進行統計即可得到每位發言者說話的總字數。

加總時,除了「欲加總列」以及「頻率列」之外,其餘列中若有複數相同函數之欄位則會合併計算,並僅留下一個總計算結果。例如結果中發言者一號共有3行,則會將發言者一號的所有「頻率」及「字數」欄位進行加總,在加總完畢後僅會留下1行發言者一號的總計算結果。

另外,在加總時頻率列的數值亦會納入計算。舉例來說,「發話者」一列中有3個「發言者一號」,其個別為「字數13字+頻率107次」、「字數50字+頻率5次」以及「字數100字+頻率1次」,則會將13107+505+100*1全部加總,並列為發言者一號說話的總字數。

(四) 結合計算結果

此項目是將2個計算結果進行結合的功能。以下將以《青空文庫》為例,並比較同一單字於不同作品中出現的頻率。

在(一)的例子中計算了「あの」一詞於各作品的出現頻率,然而每個作品的字數不盡相同,無法直接進行比較,因此需要用到「結合」功能,於頻率的計算結果中添加各作品的總字數。

若欲求各作品的總文字數,同樣需使用「統計註解內容」之功能(「工具」→「一覽」→「使用者輸入」),並於第一階標籤中選取「文章(記事)」,再於「選擇部分」中勾選「作品」,最後勾選「長度」即可得知各作品的總字數。

接下來要將頻率表格及總字數表格進行結合,首先自「總字數表格」的「欲結合列」以及「關鍵列」中各選取一欄位(任意選取即可),關鍵列是用於兩表格結合時的基準,因此此處的關鍵列即為「作品」,而欲結合列則是「總字數」。選取完畢後於「編輯」中點選「複製(包含列名稱)」,接著將鼠標移動至「頻率表格」,並選取關鍵列(作品)中的任一欄位,最後在於「編輯」中點擊「加入」即可完成兩表格的結合。結合成功的表格會有3列,由左至右分別為「作品」、「總字數」以及「頻率」。

五、 統計註解內容

此項目將分成7個部分介紹,分別為(一)基本的使用方法;(二)「頻率」設定;(三)設定「第X階標籤」;(四)「長度」設定;(五)「內容」設定;(六)「文章脈絡」設定;(七)顯示外部註解內容結果。

以下內容編輯皆透過「統計註解內容」之功能完成,路徑為「工具」→「一覽」→「使用者輸入」,詳細如下:

(一) 基本的使用方法

由於語言資料中的註解是以「標籤(Tag)」呈現,因此統計時會以指定標籤的方式進行。例如《青空文庫》中,作品帶有「文章」標籤,而標籤則會有各自屬性,「文章」的屬性即為作品與作者。接下來將以《青空文庫》為例,並說明製作作品一覽表的方法。

1. 開啟設定視窗後,於「第一階標籤」的下拉式方塊中選取「文章」標籤。

2. 點選下拉式方塊右側的「選擇部分」按鍵,並勾選「作品」與「作者」。

3. 點選「OK」即會顯示列出作品與作者的文章一覽表。

(二) 「頻率」設定

若於設定視窗中再勾選「頻率」,則計算結果表格中會再多出一列「頻率」,計算各項目的出現頻率。

以《青空文庫》為例,若欲製作《青空文庫》之文本中各漢字標音的出現頻率一覽表,可按照以下步驟:

1. 開啟設定視窗後,於「第一階標籤」的下拉式方塊中選取「r」,即漢字標音(ルビ)。

2. 點選下拉式方塊右側的「全部選擇(全選択)」按鍵,並勾選「{rt}」。

3. 點選「OK」即會顯示各漢字標音的出現頻率一覽表。

若第2步驟無勾選任何選項,則計算結果僅顯示漢字標音之總數。

(三) 設定「第X階標籤」

設定頁面中,「第一階標籤」、「第二階標籤」及「第三階標籤」皆可進行設定,並於統計時將各標籤間的關係一同納入計算。

(四) 「長度」設定

設定頁面中有一可勾選項目為「長度」,若選取該項目,則會計算選取標籤中的文字數,文字中的符號(Tag)及空格皆會以0計算。

以《青空文庫》為例,若「第一階標籤」選取「文章」,並勾選「長度」,則計算結果中將會顯示出各作品的總字數,例如《こころ》為161,509字;《吾輩は猫である》為319,370字。

(五) 「內容」設定

設定時勾選此項目,計算結果中將會追加一列「內容」列,並將標籤之內容顯示於表格中。

以《青空文庫》為例,若「第一階標籤」選取「r」(漢字標音標籤),並勾選「頻率」與「內容」,則計算結果中除了各漢字標音的出現頻率之外,亦會一併顯示其內容,即漢字標音所對應之漢字。

(六) 「文章脈絡」設定

此設定可於計算結果中,追加指定標籤裡最低階標籤後方n個標籤分量的資訊。此處的「n」為使用者所設定之數值。

以附帶形態分析結果版本的《青空文庫》為例,並介紹單字的雙字母組(bigram)之製作步驟:

1. 於「第一階標籤」處選取「morph」,「morph」是用於標記單字的標籤。

2. 於「選擇部分」中,勾選「詞類」、「詞類細分1」、「詞類細分2」、「詞類細分3」、「基本形」及「活用形」。

3. 最後勾選「頻率」,並將「文章脈絡」的數值設定為1,表示與後1個單字組成組合進行計算。

4. 點選「OK」後即可得到bigram。

若使用與例子同一語言資料,且照上述步驟進行,則於結果中可得知出現頻率最高的是「た」+「。」的單字組合。另,表格中的「morph[0]」代表第一個單字;「morph[1]」則為第二個單字,即morph[0]的下一單字。

值得注意的是,「向日葵」會將作品最後一個單字的下一個單字視為下個作品的第一個單字,因此亦包含部分不必要或不符合bigram定義之數據。    (七) 顯示外部註解內容結果

若使用之語言資料帶有外部註解(選擇語言資料時顯示「有外部數據庫(外部DBあり)」之資料),如形態分析結果等,則可按住鍵盤上的Shift鍵,並同時對檢索結果中任一欄位雙擊滑鼠左鍵,即會顯示該欄位對應作品之外部註解結果一覽表。

以附帶形態分析結果版本的《青空文庫》為例,於檢索文字列輸入「吾輩」進行搜尋,再按住Shift鍵,並同時於檢索結果中對任一對應《吾輩は猫である》之欄位雙擊左鍵,隨後會彈跳出一視窗,顯示該作品中各單字的語素(Morpheme)。

六、 導入語言資料

此項目將劃分成4個項目介紹,分別為(一)一般操作步驟;(二)文本導入時的詳細設定;(三)文本導入時的處理;(四)設定形態分析系統。詳細如下:

(一) 一般操作步驟

無論是文檔、HTML、XHTML亦或是XML等形式的文本都能導入至「向日葵」進行檢索,以下將依照步驟順序進行操作說明。

1. 準備語言資料

首先,將欲導入之語言資料整理成一資料夾,若欲於資料夾內再將各資料進行細分,如依照作者分類等,亦可於資料夾中另外建立資料夾進行分類,資料夾的構造及檔案名稱皆會讀取至語料庫當中,並可於檢索資料時使用。

在整理語言資料時,務必注意以下事項:

(1) 檔案名稱的尾端應依照檔案形式標示。不同檔案形式可同時存在於同一資料夾中。

  • .txt → 無標籤的純文字檔

  • .html/.htm → HTML, XHTML檔

  • .xml → XML檔

(2) 系統會自動辨別語言資料的字元編號。    2. 文本導入

此步驟可於「檔案」→「導入文本」中進行。另,若是使用windows系統的使用者,為確保執行上的順利,建議使用himawari_debug.exe進行。

按照前述路徑點選後,即會出現一設定視窗,此時點擊該視窗右手邊的「瀏覽(参照)」,並選取於第一步驟所製作的資料夾。選取後,下方的語料庫名稱中會出現資料夾的名稱,若無需進行修改,即可點選「導入」將檔案置入「向日葵」中。若無進行更詳細的設定,在預設情況之下,導入之資料夾的文件中,文檔及HTML檔會成為處理對象,且格式會與《青空文庫》相同。

3. 使用語言資料

在使用語言資料前,首先應確認導入過程中是否有任何錯誤。可於「工具」→「編輯」中查看有哪些檔案已導入至「向日葵」中,若確認完畢後皆無問題,則可開始進行檢索。

(二) 文本導入時的詳細設定

在文本導入時的設定視窗(即操作步驟中的第二步驟)中可進行更詳細的設定,點擊「詳細設定」按鍵後,即會跳出一視窗,內有8個項目可進行調整,以下將介紹各項目的功能:

1. 欲導入之檔案

設定欲導入之檔案的種類。

2. 文字正規化

設定導入檔案時的文字正規化處理之種類。

  • 無(なし):不進行正規化處理。不過,導入後的檔案會是XML檔,因此XML標記(Markup)所使用的文字將會強制變更為全形文字。

  • 使用者定義:依照使用者所制定的轉換規則進行文字的正規化處理。規則可於「向日葵」設定檔的import/char_convertion_table 元素中進行制定。預設的情況下會將半形轉換為全形。

  • NFKC(Unicode):依照Unicode中所制定的正規化方式NFCK(Normalization Form Compatibility Composition)進行正規化。

3. 文本變換

指定文檔中文字列的轉換規則,如以下2種:

  • aozora.htd → 導入文本版本的《青空文庫》時使用的規則
  • diy.htd → 導入自製文本時使用的規則(包含aozora.htd的規則)

4. XHTML檔用樣式表

指定用於導入XHTML檔的樣式表(Style sheet)。此外,若對象檔案為HTML檔,則可選擇是否轉換為XHTML。

5. XML檔用樣式表

指定用於導入XML檔的樣式表。

6. 設定檔(模板)

可選擇設定檔(使用導入結果時所需)的模板。

  • defaultConfig.xml → aozora.htd之設定

  • diyConfig.xml → diy.htd之設定

  • 建立語料庫

建立語料庫時的設定項目。

  • 製作子語料庫(Subcorpus):將導入之資料夾中的資料夾作為子語料庫使用。

  • 不執行索引:導入時不執行索引。導入後,可自行至「工具」→「建立(構築)」→「創立索引」建立索引。

8. 形態分析

形態分析時的設定項目。

  • 若有選擇形態分析器,則會在導入時進行形態分析。如要運用分析結果,可在選擇語料庫時,於「外部數據庫」欄位的下拉式方塊中選擇「開啟」。

  • 若無安裝形態分析器,則會顯示錯誤。可參照形態分析系統安裝說明進行安裝。

  • 「元素/屬性/數值」項目中可設定欲進行形態分析之對象的XML元素(導入後的XML檔)。若無指定,則文本中的所有元素都會成為形態分析的對象。

(三) 文本導入時的處理

此項將分成3個部分說明,詳細如下:

1. 導入TXT檔

此處所提及之「TXT檔」指的是檔名尾端為「.txt」,且未透過HTML及XML進行註解之檔案。

若欲導入的檔案中含有TXT檔,請於導入設定中的「對象檔案」選擇「TXT」。若無選擇此項目,即使資料夾中含有純文字檔,也無法將其導入。

導入TXT檔時能進行的設定為「文字正規化」以及「文本變換」,且「文本變換」的結果也可透過「文字正規化」進行處理。另,進行文本變換時所使用的規則預設為aozora.htd,其包含了文本版本的《青空文庫》中為對應特有形式的註解而存在的轉換規則。具體來說為以下3種註解,此處以《坊ちゃん》為例:

  • 《》 → 漢字讀音

例:坊《ぼ》っちゃん

  • | → 指定含有漢字讀音之文字列的開頭

例:夕方|折戸《おりど》の → 代表漢字讀音的範圍只到「折戸」為止

  • [#] → 設定者的註解,主要為外字說明或指定著重號(傍点)的位置

例:おくれんかな[#「おくれんかな」加上著重點]

aozora.htd位於「向日葵」資料夾的resource/htd/中。

2. 導入HTML,XHTML檔

若欲導入的檔案為HTML,XHTML檔,請於導入設定中的「對象檔案」選擇「XHTML」,選擇此選項後,無論檔案尾端為.html亦或是.htm皆可導入。

導入時可進行的設定有「文字正規化」及「XHTML檔用樣式表」,檔案透過XHTML檔用樣式表變換處理過後,仍可使用「文字正規化」進行處理。

「XHTML檔用樣式表」的預設中有以下2種樣式表:

  • Xhtml2xml.xsl → XHTML泛用的樣式表。

  • Xhtml2xml_aozora.xsl →《青空文庫》的專用樣式表。其盡可能置入了《青空文庫》(XHTML版)的註解資訊,除了漢字讀音、註記等,亦有作品名稱及作者資訊。

若是無指定樣式表,則會直接導入檔案;另外,預設樣式表的位置在「向日葵」資料夾中的/resource/xsl/xhtml/。

樣式表無法直接套用至HTML檔,然而若是勾選「嘗試轉換HTML檔」之選項,則會在轉換為XHTML檔後再套用樣式表,不過並非所有HTML檔都能進行轉換。

3. 導入XML檔

若欲導入的檔案為XML檔,請於導入設定中的「對象檔案」選擇「XML」,選擇此選項後,即可導入檔名尾端為.xml之檔案。

在設定時可套用「XHTML檔用樣式表」。另,導入時,透過XML用樣式表進行變換處理後,仍可使用「文字正規化」進行處理;若無選擇樣式表,則會將其直接導入。

雖「向日葵」資料夾中無XML檔的特定樣式表,不過若將自行準備的樣式表放入/resource/xsl/xml/之中,則可於選單(メニュー)中選取並使用。

(四) 設定形態分析系統

若執行形態分析,則必須事先於電腦中安裝形態分析器。對應的形態分析器可參照以下:

1. MeCab(IPADIC):執行預設安裝即可。

2. MeCab(UniDic):安裝MeCab後,將UniDic網站中下載的檔案進行解壓縮,並放置於「向日葵」資料夾的resource/unidic/中。此系統參照了MeCab的-d選項中所使用的字典。

3. Juman:執行預設安裝即可。

4. Juman++:目前(撰寫時間2022/09/26)僅對應Linux版本。   形態分析相關之設定可於「向日葵」資料夾中的.himawari_annotator_config.xml執行。