digitalnagasaki的部落格

digitalnagasakiのブログ


本文由邱郁婷編輯

本文摘自永崎研宣的個人部落格〈digitalnagasakiのブログ(digitalnagasaki的部落格)〉,由邱郁婷統整後撰文。


部落格簡介

此部落格為日本人文情報學界研究員──永崎研宣的個人部落格,發布於此的文章皆與數位領域相關,從專業書籍的出版消息到研究及數位工具的介紹等皆收錄於此,且文章所涵蓋之範圍並不侷限於日本,十分豐富。

此部落格的文章分類方式共有兩種,一為依年份分類,最早可追溯至2011年;另一種則為依主題分類,分別為IIIF、IIIF應用、Mirador、線上教學、Open Access、IIIF環境準備、TEI、研究數據、Apache Solr、數位小技巧、JATS/XML、Goobi、Omeka以及數位人文學,共14個主題,值得注意的是並非所有文章都會給予分類,帶有主題標籤的文章多與數位技術或研究等有所相關。

數位人文相關文章

以下將介紹兩篇數位人文學相關之重點文章:

一、 建立人文學文字資料(Text Data)的國際標準,第一本日語入門書

《人文學文字資料建構入門(人文学のためのテキストデータ構築入門)》是第一本以日語書寫的TEI入門書。所謂TEI是人文學文字資料建構的國際標準,特別在歐美先進國家更是有許多建立於此基準的文字資料;然而日語文化圈因某些因素而遲遲無法普及,這使得在蒐集TEI相關資訊時,雖然仍能於網路上取得所需資料,但由於其數量龐大且分散瑣碎,因此常令人摸不著方向。此書便是為了應對前述狀況,讓讀者能更清楚了解TEI而出版。

《人文學文字資料建構入門》不僅提及人文學、TEI之歷史沿革及其掌握方法、Transkribus之使用方法、文字資料結構化的基本技巧解說及適用於TEI的事例研究介紹,亦談及SAT TEI化研究會所實行之研究及其成果,前述研究為使漢文佛典《大正新脩大藏經》結構化,而以大規模的標記(Markup)為前提實施。

此書內容十分多元,讀者可藉此更加理解TEI,亦能從中取得有益的資訊加以運用。

二、 近五年數位人文協會發表者之動向(+Palladio的使用方法)

數位人文協會ADHO(Alliance of Digital Humanities Organizations)舉辦的年度國際學術大會是最盛大的,若想知道會議中的發表者來自哪個國家/地區,可於GitHub中找到相關數據,其公開了2016年至2018年的發表論文數據,由於會議的發表論文是以TEL/XML形式提交,因此數據皆以該形式存在,不過2017年除外,該年度僅有html數據,即便能透過mailto:查獲電子郵件地址,仍難以取得從屬資訊(Affiliation Information);2019年及2020年的發表論文數據則可至各學會網站下載,並可透過簡單的抓取程式(Scraping Program)取得完整檔案。

以下將介紹3種於GitHub取得之數據的運用方式:

(一) 各國發表者總數之數據(2016-2020)

取得數據後,即可查看各國分別有幾位發表者參與會議,雖然基本上是以各國域名進行大致區分,但使用Python3的Beautifulsoup能使其更加容易。由於中的中的中含有等元件,因此從的文字資料所獲取的頂級域(Top-level domain)若為國家域名則直接以國家計算,若為.com則透過的數據判定為何國,依照國別域名區分後,最後再將.edu及.org算作.us,一連串的步驟完成後即可取得CSV檔案。

計算上採取重複計算,同一發表若有10人參與則計為10人,其中如有2名美國人及8名德國人,則同一發表中包含美國2場、德國8場。另外,由於計算時並無人員鑑別,因此同一人於3場不同發表中皆作為共同著作者記名,則計作3場,因此或許也可將此數字看作為各國研究的規模。

(二) 各國發表者總數之推移(2016-2020)

持有數據亦能於Excel製作簡易的摺線圖。由2016年至2020年的數據所呈現之圖表可知基本上美國的發表者人數較多,加拿大及歐洲各國亦是不容小覷,而日本在這5年間似乎共有100位以上的研究員參與了會議中所發表的研究。

(三) 國際共同研究網路之狀況(2016-2020)

若同一發表中有多名來自各國的著作者記名,並欲於世界地圖上繪製出其合作網絡,則可參照以下步驟(使用以國家域名區分之數據):

1. 運用段落(一)所述之數據與程式,設定為「若同一發表有多國著作者記名,則提取其組合」後,取得CSV檔案。

2. 結合Location Data of World Capitals – ASTI技術,於數據標上各國首都座標。

3. 將數據複製貼上至Palladio並點選上傳。

4. 點選網頁左上方的「地圖(Map)」,並點選「新圖層(New Layer)」。

5. 顯示圖層設為上傳之數據,再設定「名稱(Name)」、地圖樣式、來源位置(Source Places)、目標位置(Target Places)及顏色,並勾選「圓圈大小區別(Size points)」之選項。

6. 最後點擊「增加圖層(Add layer)」便完成。

地圖上的圓圈坐落於各國首都,而圓圈間之線條呈現出各國間的合作關係,將鼠標移至圓圈後即可查看該國與他國研究者進行的共同研究件數,件數愈多圓圈愈大。以德國為例,2016年至2020年間,德國與他國聯合進行之研究共有222件。