在Facebook上關注我們,隨時得到最新消息 在Twitter上關注我們,隨時得到最新消息 在新浪微博上關注我們,隨時得到最新消息 在豆瓣上關注我們,隨時得到最新消息
中國哲學書電子化計劃

語意標記

簡介

語意標記指的是為原典文獻內容提供機器可讀的訊息,明確註明語詞在具體脈絡中的意義。這些訊息有助於電子文獻的進階自動處理,包括在本系統中給使用者顯示相關的內容。舉實例,以下段落中,具有語意標記的版本(左)可提供關於段落中提到的時間、人名和典籍的相關內容:

有語意標記沒有語意標記
1 夏四月乙巳呂夷簡上《景祐法寶新錄》。甲子呂夷簡王曾宋綬蔡齊罷,以王隨門下侍郎同中書門下平章事昭文館大學士陳堯佐同中書門下平章事集賢殿大學士盛度知樞密院事韓億程琳石中立參知政事王鬷同知樞密院事
1 夏四月乙巳,呂夷簡上《景祐法寶新錄》。甲子,呂夷簡、王曾、宋綬、蔡齊罷,以王隨為門下侍郎、同中書門下平章事、昭文館大學士,陳堯佐同中書門下平章事、集賢殿大學士,盛度知樞密院事,韓億、程琳、石中立參知政事,王鬷同知樞密院事。

基本原則

本站中,實現語意標記的過程需要建立以下三種數據:

  1. 標記:一個標記一些文字(通常是一個或幾個單詞)並提供訊息表示該文字在當下脈絡中所代表的意思。例如,在「孔子適齊。」這段話中,我們可以為「孔子」這兩個字建立一個標記,表示在這句話中「孔子」所代表的意思是某一個歷史人物,即孔丘
    本站中有兩種標記:
    • 實體標記 - 表示對應字詞指稱某一個實體對象,如「ctext:855132(宋代歷史人物王安石)。
    • 日期標記 - 表示對應字詞指稱某一個具體歷史日期或時段。日期由相關年號(或帝王),如「ctext:27110(宋真宗年號『天禧』)」,再加上日期的相關數據,如「二年正月」。
  2. 實體紀錄。 一個實體紀錄代表某一個體事物,包括具體事物(如:一個人、一座建築等)和抽象事物(如:某一個官位)。例如,歷史人物和虛構人物(如王安石有相關的實體紀錄;歷代著作,如《宋史也有實體紀錄;朝代,如北宋也有。實體紀錄可用以紀錄相關該實體的訊息,也用以實現文本中的標記。在上述關於「孔子」的例子中,標記會把「孔子」兩個字連接到孔子其人的實體紀錄。實體紀錄有助於讓電腦分明同名異實的事物,同時準確處理異名同實的情況。每一個實體紀錄有一個唯一辨識碼,如「ctext:27110」(表示天禧年號)。這些辨識碼可用以明確分明同名異實的食物,如「ctext:474358」表示「紹興」(宋代年號),而「ctext:63988」表示「紹興」(西遼年號)。每一個實體紀錄頁面在資料標題直下註明相關的辨識碼。
  3. 知識宣稱。一個知識宣稱表示有關一個實體的一件訊息;實體紀錄的內容由知識宣稱所構成。每一個知識宣稱連接著三件事物:一個主體(即該宣稱所形容的實體)、一個動詞或關係、以及該動詞或關係的對象。例如,有關王安石的一個知識宣稱會把王安石(主體)和王益(對象)透過動詞「father(父親)」連接,這樣紀錄「王安石的父親為王益」這件事。舉另一個例子,可以把王安石和官位翰林學士透過動詞「held-office(任官)」連接,紀錄「王安石曾經任過這個官位。
    有時候在紀錄訊息時,會需要提供相關於該宣稱的進一步資訊。這些資訊可透過增加一個或多數的限定詞(qualifier)來實現。限定詞為知識宣稱的一部分,把該宣稱和另外兩個事物相連接:另外一個動詞(即限定詞),和另外一個相關對象。例如,雖然說王安石曾任過翰林學士是一個有效的宣稱,但如果能同時紀錄他從什麼時候開始任過此官則資訊就會更完整。在這個例子中,可以增加一個「from-date(自某時起)」的限定詞,並把相關日期作為限定詞對象,表示此事。

出處引用

大部分的知識宣稱需要提供具體的出處引用才能建立。出處引用必須採取指定格式,由兩個部分構成:一個URN代表某部書某個版本的某篇或卷,以及相關引用內容(用繁體字)。這兩個部分有「@」符號連結著,如:

引用出處時,請選擇作為相關宣稱的證據的完整語句或部分語句。上下文脈絡不需要引用,因為系統會把引用內容連結到它脈絡中的出處。

大部分的宣稱需要引用出處作為證據,除以下的例外:

標記慣例

為了保持資料的一致性和實現資料的有效自動處理,請在標記過程中遵守以下的原則:

日期

日期是很重要的歷史資料,在此系統中扮演重要角色。一個日期標記把文本中的日期記載(如:「二月」)和足夠相關資訊連結,使得它能夠行程一個精準的日期說明:例如,表示該「二月」指的是某年號、某年中的二月。標記客戶端提供輸入這些資訊的方法,把每一個日期記載和某一個年號相連結。大多數日期記載本身不包括年號等資訊,而讀者能通過脈絡來推出之,如以下例子中:

1 開寶九年冬十月癸丑太祖崩,帝遂即皇帝位。乙卯,大赦,常赦所不原者咸除之。

上文第一個日期記載是完整的:它本身提供年號以外的足夠資訊,即第九年、第十月、癸丑日,明確指稱歷史上的一天。第二個記載「乙卯」則本身不重複寫「九年十月」,也不重複寫年號「開寶」,而依靠脈絡來傳達這些訊息。日期標記過程中,需要明確提供這些本來依靠脈絡的訊息,使得系統能夠準確處理所有的日期記載。

在此過程中,標記客戶端會利用上文指出最近被提到的年號、年份、和月份,但是這些推薦未必都正確。因此,在標記日期時,請務必注意脈絡中的訊息流,特別是括號型提及,以免輸入錯誤的日期訊息。例如,在下述段落中,紫色的箭頭代表真實的日期訊息流:

標記客戶端會為大多數日期準確推出資訊,例如,據上文準確推出」乙卯「指的是開寶九年十月乙卯,但在這個例子中會錯誤地推出」十一月癸亥「指的是開寶八年十一月癸亥,因為上文剛剛提到過開寶八年。在類似例子中,請留意日期的訊息流:如果不小心把」十一月癸亥「定為開寶八年,很容易影響到下文的日期,因為系統會繼續把」八年「訊息往下流,錯誤地推出」甲子「和」庚午「也指八年而不是九年。尤其在史書中,這類錯誤很容易引發一連串的錯誤,因為大部分的日期資訊依靠上文脈絡傳達。

有語意標記的文本

每一種文獻只要對其中一個版本加上標記。一般情況下,這應該是該資料的代表性文獻

以下的文獻和版本已經有部分標記。如果想要加上新的語意標記,請使用這些版本:

二十五史

  1. 史記
  2. 漢書
  3. 後漢書
  4. 三國志
  5. 晉書
  6. 宋書
  7. 南齊書
  8. 梁書
  9. 陳書
  10. 魏書
  11. 北齊書
  12. 周書
  13. 南史
  14. 北史
  15. 隋書
  16. 舊唐書
  17. 新唐書
  18. 舊五代史
  19. 新五代史
  20. 宋史
  21. 遼史
  22. 金史
  23. 元史
  24. 明史
  25. 清史稿

其它史書

書目、目錄等