TEI-C東亞/日語SIG

TEI-C東アジア/日本語分科会


本文由邱郁婷編輯

本文摘自TEI-C東亞/日語SIG於GitHub所建立之個人頁面〈TEI-EAJ〉,由邱郁婷統整後撰文。


TEI-C東亞/日語SIG簡介

TEI-C東亞/日語SIG(Special Interest Group)成立於2016年,隸屬於TEI協會,而TEI協會即為人文學資料數位化之指引──TEI Guidelines的制定單位。

若要談及TEI-C東亞/日語SIG的成立理由,必須先從東亞的歷史背景說起。東亞地區有著悠久而豐富的文化,早期及中期的東亞文學雖大多以漢字為主,不過後續周邊文化圈也逐漸發展出各自獨有的文字系統,並將漢字元素融合在內,日語就是一個很好的例子,日本文獻中有多種文字系統,除了假名之外,亦包含部分漢文及早期韓文文字系統;另一方面,近年來日本的研究人員開始以TEI為基準對日語及東亞文本進行編碼(Encoding),然而即便網路上已有大量日語電子文本可供使用,在編碼時仍經常面臨各種挑戰,為突破如此困境,TEL協會設立了東亞/日語SIG,並期許其能成為協會及日本從業人員之間的窗口。

網頁介紹

網頁中共有5個項目標籤,分別為概覽(Overview)、儲存庫(Repositories)、專案(Projects)、程式包(Packages)及成員(People)。目前(以撰寫時間2022/09/06為準)專案、成員及程式包標籤並無公開資訊可查看,因此以下僅針對概覽及儲存庫進行介紹,詳細如下:

一、 概覽(Overview)

此標籤為預設頁面,顯示內容除組織介紹及聯絡資訊外,亦可查看部分儲存庫,頁面上方顯示之6個儲存庫為較熱門項目。概覽頁面右手邊有成員列表,然如同前述,由於成員標籤無公開資訊可閱覽,因此該欄位並無任何資訊;成員列表下方可選擇欲查看之程式語言,共有5個選項,即JavaScript、HTML、Ruby、Python、CSS,點擊後將自動轉跳至儲存庫頁面,並顯示所有與選取之程式語言相關之儲存庫。

二、 儲存庫(Repositories)

儲存庫即為一個專案,其如同一大型檔案夾,內包含大量數據與資訊,亦有各版本更新及修正之紀錄可查閱。該標籤中共有17個公開儲存庫可供他人查看或取用,其皆有各自主題,如漢文佛典、平行文本(パラレルコーパス)或青空文庫文本等相關之儲存庫。

儲存庫頁面上方有一搜尋欄位,使用者可於其中輸入關鍵字以查詢欲查看之項目;此外,搜尋欄位右邊有3個下拉式方塊,分別為種類(Type)、程式語言(Language)及排列(Sort),前兩者可用於篩選儲存庫類型,而排列則用於改變儲存庫之排列順序,使用者可依喜好或需求選擇以最後更新順序、字母A-Z順序或熱門順序顯示儲存庫。

在這17個儲存庫中有一儲存庫可謂是一大重點,即「TEI日語指引」。點開此儲存庫後,首先會看見日語書寫的TEI簡介,說明欄最下方有一連結,點擊前往後即可查看日語版本的TEI指引,其目前(同以撰寫時間2022/09/06為準)尚處於製作階段,因此僅提供試行版。該指引以TEI P5 Guidelines為基礎,製成日文版以利日本資料數位化之進行,而其製作目的即是為了讓使用者了解TEI具體的使用方式等資訊。

TEI日語指引的目次中除了TEI解說及TEI文本構造介紹等資訊外,亦列舉許多日本國內依據TEI所進行之計畫成果為例;而右手邊的欄位所顯示之內容,則是將目次中的項目進行更詳細劃分而產生,使用者可於目次或右方欄位自行選取欲查看之項目閱讀。