NTT Technical Review


本文由邱郁婷編輯

本文摘自NTT科學與核心技術實驗室的〈NTT Technical Review〉,由邱郁婷統整後撰文。


網頁介紹

〈NTT Technical Review〉為一網路月刊,由電信協會(The Telecommunications Association)負責營運,NTT科學與核心技術實驗室(NTT Science and Core Technology Laboratory Group)負責更新與編輯,而此網站的網頁寄存服務(Web hosting service)由GMO CLOUD K.K.提供。

此網路月刊之主題以電腦網路與通訊、電腦科學應用以及電機工程為主,使用電子郵件註冊會員(免費)後,即可查看該網站過去至今的所有文章,亦可將其下載至電腦中。

知識抽取平台之基礎日語文本分析技術

2008年9月,金村健二、齋藤邦子與淺野久子於月刊中發布了一篇與日語文本分析有關之文章──「知識抽取(Knowledge Extraction)平台之基礎日語文本分析技術」,以下將針對此文章進行說明。

此文章一共分成6個章節,接下來將一一介紹:

一、 3種文本分析技術

(一) 形態分析

形態分析即是將文本分割成一個個單字,且同時會將該字詞的詳細資訊,如發音、詞性等呈現出來。

(二) 命名實體辨別

所謂「命名實體(Named Entities)辨別」即是從字句中提取出人名、位置、組織等資訊。命名實體通常是與主題有密切連結的關鍵字,因此對於資訊檢索極有幫助。

(三) 依存句法剖析

依存句法剖析即是透過觀察片語之間的修飾關係(Modifying Relationship),來分析日語語句結構。若要掌握文本中的語意資訊(Semantic Information),例如誰做了什麼,就必須要確定文本的結構。

二、 形態分析工具:JTAG

由於日文的詞彙之間並無空格,因此首先要先找出文本中的所有單字,並了解該字詞的開頭與結尾位置。形態分析時,會透過辭典中所記述之詞彙來進行文本分割,並以可能性最高之結果來切割。若是辭典中包含了額外的資訊,如讀音、詞性等,則可將各類型的資訊添加至其中。

一般而言,形態分析從辭典中獲取字詞的選項時,亦會將文本分割成一個個單字,且同時檢視與評估字詞間是否能夠相互連結。舉例來說,在分割「百貨店店長」一詞時,系統會自動計算「百貨」與「店」之間的連結以及「店」與「長」之間的連結。

而作者所開發的形態分析工具「JTAG」為一規則基礎(Rule-based)分析器,辭典中不僅包含詞彙的詞性與讀音,亦有語義類別(Semantic Categories),而語義類別之資訊來源為日語辭典「日語語彙大系(日本語語彙大系)」。辭典中包含大約900,000個單字,且能夠快速地處理大量文本。

除了為日語形態分析而特別設計的「JTAG」,由Cyber Space實驗室所開發的多語言形態分析工具也能用於分析其他與日語相同,字詞間沒有間隔的語言,如中文及韓文(英文亦可),而其是透過機率模型(Probabilistic)來進行高精確度的分析。

三、 命名實體辨別工具:NameLister

將文本分割成一個個單字時,可知其包含了複數具有意義的詞彙,例如「日本」、「電信」、「電話」三個單字,各自具有不同的解釋,但組合成「日本電信電話」一複合單字後,則代表著日本的電信公司。由於單字的組合並無數量的限制,因此在進行形態分析時,還需額外的處理程序。

而命名實體辨別工具NameLister能夠提取出8種不同類別的命名實體,分別為「人物」、「地點」、「組織」、「製品」、「日期」、「時間」、「金額」及「百分比」。這些命名實體皆有可能是與文本有著密切關係的關鍵詞,因此能為搜尋目的提供基礎的資訊。

為了從詞語序列中提取出命名實體,NameLister採用了「標記」的概念。將字詞的開頭標上「開始標記(B-tybe name)」,第二個字詞以及其後的字詞則標上「連續標記(或稱中間標記,I-type name)」;若字詞不屬於命名實體,則給予「其他標記」。當每一個單詞皆附加上最適標記,則能使得命名實體的提取更加容易。這稱作「順序標記」。

NameLister順序標記的運作方式,是透過機率模型──條件隨機域(Conditional Random Field,CRF)從所有標籤組合中找出最適標記。而此機率模型是從一定數量的正確標記文本(語料庫)中自動學習命名實體的出現模式,進而建立一套獨自的標記模式,因此NameLister也能夠找出人類沒有注意到的細微可能性。

所謂的命名實體辨別,是在搜尋機率模型的同時,亦從所有的標記組合中找出最適標記序列。舉例來說,以「店長の藤沢さん」進行命名實體辨別時,會先運用該詞彙的前後文計算標記之可能性,再挑出最適合的結果。以其所舉之例子中,「藤沢」一詞前面是「の」,後面則是「さん」,因此最有可能的標記是以人名為開頭的單詞(B-PSN),即「藤沢さん」。由於最適標記是透過上下文進行判定,因此在「横須賀から藤沢まで電車で行きました」一句中,「藤沢」會被分類至地點標記。

NameLister的順序標記除了能夠應用至日語文本之外,也能夠用在相似語言的中文及韓文文本,英文文本亦可使用。

四、 依存句法剖析工具(Dependency Parser):Jdep

形態分析與命名實體辨別皆為字詞層面的分析功能,而依存句法剖析則是語句層面的分析功能。依存句法剖析的目的是實施文本涵義理解的各項過程。為了達到這項目標,首先要確定其語法結構,而依存句法剖析即是用於文本結構分析的功能。以下將分成3節介紹:

(一) 何謂依存句法剖析

日語結構中,通常會由2種元素呈現,分別為「單詞(文節)」以及「單詞之間的依存關係及修飾關係」。例如「望遠鏡でカゴを持った少女を見た」一句可拆分成「望遠鏡で/カゴを/持った/少女を/見た」5個部分,而「望遠鏡」與「見た」相依存,因此解釋為「透過望遠鏡看見了一名手持提籃的少女」;若是將依存關係分析錯誤,誤解為「望遠鏡」與「持った」相依存,則語意變為「少女在望遠鏡中拿著提籃」。由此可知,釐清語句結構是了解句子含意的重要步驟。

(二) Jdep的架構

依存句法剖析工具Jdep能透過與NameLister相同的順序標記手法來實行語義組塊(Phrase Chunking)。當Jdep在分割片語時,每個單字皆會附加上標記以表示其為開頭(B)亦或是連續詞彙(I)。

確定片語之後,下一步便是確定片語之間的修飾關係。狹義來說,這稱為依存關係,順序標記亦是用於此處。在依存句法剖析時,每個片語皆會以其所修飾之相對關係的字詞進行標記。舉例來說,「横須賀百貨店店長の/藤沢さんって、/本当に/いい/人かもね」一句中的片語「藤沢さんって」與「人かもね」有著依存關係,因此會標記上「3D」,意即該片語修飾其後第三者。

(三) CGM文件的分析

所謂的「CGM(Consumer Generated Media,消費者自主媒體)」即是使用者直接發布至網路平台或部落格等的文本,其數量十分龐大。此類文本內容含有許多口語詞彙以及獨立片語(即不與其他片語存在依存關係),例如表情符號、填充詞(Filler Word)等。而Jdep於順序標記中採用了自立標記(Self-dependency Tag),如此即可在分析CGM文件時,清楚地辨認出獨立片語,並僅提取對語意有直接影響的語句結構。

五、 可使用該技術之領域

前述3項技術──「形態分析」、「命名實體辨別」及「依存句法剖析」皆可應用至網路上的各類文本。

形態分析可用於搜尋引擎,且搜尋引擎在檢索時能考量到語意,而不僅僅只是文字的匹配,這能夠避免在搜尋「京都」時,卻出現包含「東京都」的搜尋結果。

命名實體辨別能夠提取有用的表達式做為關鍵詞,因此能夠有效地提高搜尋結果的排名與品質。

而依存句法剖析則能確定語句中的關係,例如誰做了什麼。因此能夠應用至資料探勘的領域中,舉例來說,當大量有關於「停止(Stopping)」的文本被寫入時,透過依存句法剖析便能找出運作突然終止的確切原因。

六、 未來展望

理想狀況之下,作者們希望能夠讓電腦了解並處理網路上任一文本的涵義。文中介紹的3種基礎分析技術是語意分析的基礎元素,然而即便將其一併使用,仍然無法理解更加複雜的語句關係,例如誰在何時、在哪裡做了什麼事。另一個問題則有關於「元素的省略」,文本中經常省略掉一些元素,對於讀者來說或許不成問題,但對於電腦來說卻並非這麼一回事,因此要讓電腦完全理解並處理這些文件,仍有很長一段路要走。今後,作者們將會從日語著手,繼續研究分析技術,如省略語意的解決方法及文本語意理解等,使其能有更加完整的功能。