NDL Lab


本文由邱郁婷編輯

本文摘自國立國會圖書館的〈NDL Lab〉,由邱郁婷統整後撰文。


網站簡介

〈NDL Lab〉成立於平成23年(2011年)10月,由日本國立國會圖書館所建立,其是為了驗證次世代圖書館系統開發時所需之技術而設立的網站。

此網站提供了許多國立國會圖書館伺服器環境及該圖書館所持有的數據,如數位化後的資料及書籍數據等,讓研究人員能夠使用這些資源來進行軟體的實驗,並透過〈NDL Lab〉將開發的軟體開放給大眾試用。此外,國立國會圖書館本身亦有在執行技術開發之研究,且會公開其實驗系統與數據,並在獲得反饋後,依回饋內容修改系統功能。此網站的設立目的,是透過公開實驗成果,來提升日本次世代圖書館系統的便利程度。

〈NDL Lab〉除了分享研究成果與數據之外,也介紹了各個使用上述成果與數據所實行的案例以及相關活動資訊。

網頁中共有5個標籤,分別為「主頁」、「系統(體驗)」、「數據(活用)」、「活動(參加)」以及「NDL Lab簡介」,以下將針對各項目進行介紹:

一、 主頁

〈NDL Lab〉的主頁中放了許多精選資訊,使用者可以透過主頁大致了解此網站的用途,亦能快速找到重點消息。

二、 系統(體驗)

此標籤中分享了8個系統,以下將個別介紹:

(一) 次世代數位圖書館

此為一檢索系統,尚處於實驗階段,其目的在於驗證技術的有效性,檢驗對象的技術如:

  • 透過全文檢索功能或機器學習所進行的自動處理

  • International Image Interoperability Framework (IIIF) API等   可透過次世代數位圖書館進行檢索的資料為「國立國會圖書館數位蒐藏」中所公開之著作權保護期限已滿之圖書或古典書籍等數位化資料,目前(撰寫時間2022/10/16)約有33萬6千種資料可使用。

該系統所提供之功能有:

1. 全文檢索

2. 自動裁切插圖並進行圖像搜索

3. 將資料的背景變為白色

4. 自動產生目錄

5. 自動將圖像進行調整,以順利顯示於手機上

6. 自動偵測翻頁方向

7. 活用IIIF

8. 透過圖像辨認加上相關標記或進行篩選搜尋

(二) NDL Ngram Viewer

此系統可自OCR所製成的文本數據中,列舉出搜索項目於各出版年代的出現頻率,亦可將其以圖表進行視覺化。

截至2022年5月,「國立國會圖書館數位蒐藏」所公開的資料中,著作權保護期限已滿之28萬種圖書資料的OCR文本數據,總計有大約8.3億的單字及片語。於該系統中,可輸入多個欲查詢之關鍵詞,並查看各單字的出現頻率。輸入關鍵詞時,除了可透過「/」區分複數關鍵詞,如モダンボーイ/モダンガール等,亦可透過正規表達搜尋。

結果所呈現的圖表亦可進行調整,除了可以自行設定圖表中顯示的項目數量外,亦能將個別的項目進行刪除,例如「登別溫泉」、「有馬溫泉」及「草津溫泉」三項目中,若使用者僅想查看第一項與第三項,則可自行將「有馬溫泉」的數據從圖表中刪除。此外,若使用者有保存該圖表之需求,亦可將結果下載至電腦中。

(三) NDC Predictor

此系統由國立國會圖書館次世代系統開發團隊所開發,其運用機器學習技術建立了能夠透過日本十進分類法(NDC9版本)來自動推斷分類符號的應用程式。將書目資訊貼至文本輸入方塊之後,即可進行推算。此系統的原始碼可至NDL Lab的Github查看。

(四) Japan Search

此系統是各領域機構相互合作,並由國立國會圖書館所開發‧運用的數位工具。其集結了各領域的數位檔案庫,如書籍領域、媒體藝術領域等,並將日本所擁有的各種原資料(Meta data)進行整合,因此使用者可透過此系統來搜尋、閱覽或運用這些資料。此外,Japan Search中亦提供了NDL Lab的實驗系統,其中應用了國立國會圖書館所開創的圖像搜尋等技術。

(五) 書目資訊搜索及視覺化系統

「書目資訊搜索及視覺化系統」可用於檢索國立國會圖書館的數位化圖書資料之書目資訊以及目錄資訊,亦能將前述資訊視覺化。

此系統運用了美馬秀樹教授所開發的檢索‧視覺化系統──「MIMA」,其能以文本之間的語意關聯為依據來進行資料探勘(Data mining)。若將其搜尋結果進行視覺化,即可更加快速地進行必要資訊的探查。

(六) 數位翻刻(翻デジ)

「數位翻刻」是由人文情報學研究所的主席研究員──永崎研宣所開發。透過此系統,便可藉由雲端來共通編輯或校正「國立國會圖書館數位蒐藏」所公開之著作權保護期限已滿的圖書資料。

(七) 國立國會圖書館圖像牆

此系統同樣由人文情報學研究所的主席研究員──永崎研宣所開發。「國立國會圖書館圖像牆」是將「國立國會圖書館數位蒐藏」中含有插圖的頁面抽出,並以縮圖的方式展示給大眾的系統。點擊這些縮圖,便可將圖片放大顯示,亦會簡單地將書目資訊與該圖像的頁數連結一併顯示。

(八) 電子閱讀協助系統

此系統能透過一定的文字資訊來進行關聯搜尋,並提供使用者其他資訊來源的相關參考資料,目的是希望能透過此來協助使用者閱讀與調查電子書籍。

此系統的功能如下:

1. 將書籍本文頁面中所含關鍵詞之說明或與本文相關之外部內容等顯示於畫面的左右邊的註腳處

2. 目錄顯示功能

3. 透過文本內容自動產生索引之功能

上述這些功能,僅能使用於「國立國會圖書館數位蒐藏」所公開之著作權保護期限已滿的圖書資料。

目前(撰寫時間2022/10/16)此系統仍處於實證階段,將國力情報學研究所特任准教授──阿邊川武所開發的電子閱讀系統導入至NDL Lab後,運用國立國會圖書觀所擁有的數位資料,以此評估此系統是否能夠適用於次世代圖書館系統中。

三、 數據(活用)

此頁面中整理了國立國會圖書館所提供的數據以及技術資訊供使用者參考。

四、 活動(參加)

此頁面中可查看過去的活動資訊以及未來預定舉辦的活動詳情,讓有興趣的使用者能更加了解相關的活動資訊。

五、 NDL Lab簡介

此頁面集結了〈NDL Lab〉的創建歷史、營運說明、給研究員的話以及NDL Lab相關論文列表等資訊,亦有英文版可查看,使用者可藉由此更加了解〈NDL Lab〉。