密西根大學圖書館 研究指引

Digital Humanities Starter Kit


本文由邱郁婷編輯

本文摘自密西根大學圖書館的〈研究指引〉,由邱郁婷統整後撰文。


網頁介紹

此網頁為美國密西根大學的圖書館官網,除了能於此搜尋文章、書籍、影音檔等資料之外,亦能從此網站查閱研究指引。其研究指引共有14種類別,分別為「藝術」、「商業」、「工程」、「政治與法律」、「衛生科學」、「人文」、「科學」、「社會科學」、「科技」、「時事與活動資訊」、「國際研究」、「一般資訊」、「課程幫助」以及「多樣、公平、包容與可行性」。

本次將針對國際研究之日本研究中的「數位人文研究入門」進行說明。

數位人文研究入門

此項目中的資訊皆與數位人文相關,主要有4個欄位,以下將針對各欄位進行介紹:

一、 數位人文資源(按主題分類)

此欄位細分成4個主題標籤,詳細如下:

(一) 文本

此標籤中分享了許多日語文字資料探勘(Text mining)相關文章及其工具與資源等,使用者可自行點選所需項目查看。

1. 日語文字探勘相關文章

(1) 利用文字探勘進行人文與社會科學研究

(2) 人文學者利用電腦理解文本的7種方法

(3) 文本分析101

(4) NLTK手冊(英文版/日文版)

(5) NLTK日文語料庫-以NLTK使用的日文語料庫:此文章介紹了於日語文本中使用NLTK的例子。

(6) (書籍)遠距閱讀(Distant Reading)

2. 工具

(1) NDL N元語法(N-gram)查看工具

可針對日本國立國會圖書館所提供之版權已期滿之書籍進行日語文字探勘。

(2) 日語文字探勘

(3) IIIF

(4) 東亞數位人文入口網站

(5) 線上OCR

可對圖像或PDF檔案進行OCR(光學字元辨識),若以訪客身分使用此線上服務,則一次只可轉換一個檔案;使用免費帳戶登入則一次只能轉換25頁的檔案。

(6) 免費OCR軟體

此網頁有許多適用大型文本之OCR的電腦軟體,且為CNet Download上免費提供的程式。

(7) KH Coder

此結合了各種文字探勘工具,如R、ChaSen和MeCab等,其專為日語分析而設計,不過也能使用在其他語言的文本上。

(8) Kuromoji

此工具可呈現出簡易的形態分析結果,亦可將文本分割成電腦能辨別的字詞。

(9) 茶まめ(茶豆)

日語文本之形態分析工具。

(10) 統一性與同一性之電子辭典

(11) NLTK(自然語言工具包)

此為一程式碼平台,可藉由Python進行文本分析。

(12) TinySegmenter

此為日語文本標記化(Tokenizing)之編碼,且可導入至NLTK。

(13) Yahoo文本分析網頁API

(14) Himawari

此工具可用於檢索及分析XML檔的日語文本。

(15) Koji:日文史料之標記式語言

(16) Voyant Tools 2.0

此工具可適用於日語文本,除了能進行語料庫分析、創建、修改或存取語料庫,亦具有更完善的搜尋及分析功能。

(17) 如何使用Voyant

(18) Comainu

此工具可自動將文本切割成中單位(適合語音研究)或長單位(適合句法及語意研究)的詞彙。

(19) SMART-GS

此系統可用於手寫文檔的轉錄與研究,因此能運用至草書的解析。

(20) AutoMemo(此為商業產品,非公開)

此工具可將語音轉變為文字檔。

(21) 溝通與帝國(中文DH)

提供工具與視覺化平台以運用至漢字文本,如日語中的漢字。

(22) 繪入源氏物語

(23) Wayback Mahine

3. 資源

(1) 人文公開數據中心(CODH)

(2) 國立國語研究所(NINJAL)-數據庫頁面

(3) NIJL數位資料館

(4) 人文研究可用數據及API等之清單(じんもんそんで使えそうなデータやAPI等のリスト)

(5) 書籍數位化委員會數位圖書館

(6) 青空文庫語料庫

(7) 青空語料庫操作說明

(8) 語料庫清單

(9) 自發性(Spontaneous)日語之語料庫

此為口語日語語料庫,包含語音檔(含轉錄檔)及其衍生出的各種元數據。

(10) 日本NII之資料集儲存庫

(11) 日語字網(Wordnet)

此為日語語義辭典,且其為各應用程式與線上辭典所用。

(12) NDL Lab

(13) 給日語文本的OpenMWE

此為日語成語及使用範例之語料庫。

(14) SAT大正新脩大藏經文本數據庫

(15) 田中語料庫

英日語配對句之語料庫,其例句來自線上辭典《WWWJDIC》,且為Tatoeba.org的基礎。

(16) 維基百科

(17) 國文學研究資料館數據集之使用方式

(18) 國文研古籍數據集(第0.1版)

(19) 為了日語日本文學研究的未來

近藤みゆき教授及近藤泰弘教授於此網頁分享了其使用N元語法分析技術進行日語與古典文學研究之資源。

(二) 地圖

1. 介紹

若欲於地圖上覆蓋其他地圖或數據,可運用密西根大學圖書館的Clark Library來進行。其不僅提供了地圖與數據,亦有軟體、Q&A以及課程以協助使用者學習使用。

(1) GIS Lounge

此為一資訊入口網站,內含新聞、介紹文章、使用資源與職缺消息等資訊。

(2) GIS簡介

逐步介紹如何將GIS與QGIS軟體一併使用。

(3) 地理資訊系統之基礎

此為Jonathan E. Campbell教授與Michael Shin教授共同書寫的教科書。

(4) GIS介紹

使用於MIT工作坊之簡報檔。

(5) 人文與社會科學之GIS基礎研究

書中詳細介紹了將GIS導入至經濟與社會研究的過程與工具,可藉此更加了解如何使用GIS技術進行更進階的研究。

2. 工具

(1) Google地圖

(2) Google Fusion Tables統計地圖(現已下架)

可使資訊及地圖繪製視覺化。

(3) Mapbox

以OpenStreetMap所建的工具組合與API。

(4) GeoCommons

此網頁包含了地圖及數據之儲存庫,亦有地圖繪製與分析工具及API,且其內容皆來自於社區之貢獻。

(5) GeoNLP計劃

此為一NII網頁服務,內包含地理名稱字典、地圖繪製工具及地名檢測。

(6) Batch Geocoding

此為一快速線上工具,可用此將地址轉為經緯度表示,亦可反向操作,此外亦有其他功能可使用。

(7) QGIS

此為免費開源GIS軟體。密西根大學的電腦實驗室配有此軟體。

(8) ArcGIS

專業人士專用GIS軟體。密西根大學的某些電腦配有此軟體,尤其是Clark Library。

(三) 組織

此欄位介紹了13個日本的數位人文組織與機構。

(四) 其他

此欄位中可看見數據集與日本歷史數位人文研究平台「Bodies and Structures」之連結。

二、 基礎知識

數位人文尚為一嶄新的領域,且有能用不同的方式來對其進行定義或處理。原則上來說,數位人文指的是使用數位化、數據分析工具來進行數位人文研究。以下皆為數位人文的介紹文章與書籍:

1. 日本研究中的數位人文

2. 數位人文指南(英文版/日文版) 3. 數位人文之介紹 4. 數位東方研究-亞洲數位人文線上期刊 5. 數位人文(書籍)

三、 常用技術

此項目介紹了許多在進行數位人文研究時常用的技術。

(一) GUI vs. Command Line

與軟體進行互動的兩種主要方式,可透過圖形輸入指令來進行。GUI的介面較為簡易;而Command Line則是習慣之後,使用起來較為快速。

(二) OCR(光學字元辨識,Optical Character Recognition)

此技術能讀取圖像中的文字並將其轉錄為可編輯的文本形式。

(三) 文本編碼與Unicode

「文本編碼」會影響軟體讀起與顯示單個文字的方式。

(四) 正規表達

使用者可透過「正規表達」來搜尋文字的模式(Pattern)。

(五) Python

此為一程式語言,具靈活性且易學。

(六) R

此為一程式語言,可用於數據的操作(Manipulation)與視覺化,且其具有內建的統計功能。

(七) .CSV

將數據整理成表格的基本文件格式,通常用於其他格式之數據的加載或移載(Load out)。

(八) HTML

此為網頁的基本語言,若要抓取網站便須了解HTML。

(九) API

此為一應用程式或網站服務的程式,其可供其他應用程式訪問其或使用其數據。

(十) XML

其結構類似於HTML,最常用於文本建構與元數據的組織。

四、 數位影音

(一) AutoMemo-數位錄音機+轉錄文本

此為付費商品,適用於日語檔案。

(二) Rev.ai

(三) Speech-to-Text APIs(語音轉文本APIs)

(四) 利用Youtube進行影音轉錄(開放訪問)

Youtube與Google皆為草稿自生成的實用工具,只要將影音檔案上傳到Google後,再建立一份轉錄檔,下載之後便可對其進行調整。

(五) Google雲端語音轉文本

(六) 如何使用Google雲端語音API轉錄大型影音檔

(七) U-M會員的轉錄服務

此服務包含轉錄、翻譯與字幕功能。

(八) Trint

「Trint」包含了轉錄語翻譯功能,可適用多種語言,包含日語。

(九) Google文檔的影音置入