前言:尋找寫作靈感?中文期刊網用心挑選的語義網下的動態知識管理論文,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
1本體在解決動態知識管理時的不足
1.1問題描述
動態知識指的是隨時間或情境的延續或變化,用于揭示知識內涵的特征屬性的狀態,以及這些特征屬性之間的關系都會隨之演化的知識。動態知識廣泛存在于各個領域。例如,對于電子政務領域中的電子檔案來說,它往往是動態變化的:由于國內外形勢的變化,各種政策的創建、修改甚至否定都非常普遍,如對于“住房問題”,中央曾經在2001年一個政策文件,湖北省針對這個政策文件在2002年制定了自己適合本省情況的省一級別的政策,其中包括對中央政策的貫徹,以及一些省一級的地方情況條款。2003年,湖北省又頒布了2002年政策的“增修條款”。這是一種動態知識。在數字圖書館服務領域,不同用戶的位置、興趣、愛好都會隨著時間的變化而變化,最典型的是用戶位置的變化,導致IP地址脫離原有機構的合法IP段,超出資源使用權限范圍,需使用服務器或VPN的方式使用資源。這里,隨著位置的變化,用戶使用資源的方式不同,也是一種動態知識。實際上,隨著語義網和本體技術研究的不斷深入,已經在很多領域產生了應用,可以說語義網已經深入到了人類知識的方方面面。現在已經很難找到哪個領域可以宣稱與語義網沒有關系。如在生命科學領域(如大規模基因本體庫)、出版領域(如DubinCore標準和知識分類本體庫)、醫療保健領域(如癌癥本體庫)和文化傳承領域(如博物館與藝術家本體庫等),就連在冷僻的領域如石油勘探與開采、紅學研究、政治學分析等方面都有人在開發本體產品。這些領域同時也存在著大量的動態知識,動態知識無處不在,那么如何對動態知識進行有效的管理,從而為用戶建立一個全新的個性化、專業化和智能化的服務機制是當前亟待解決的重要課題。
1.2語義網中的本體層功能定位
萬維網之父TimBerners-Lee在1998年首次提出了語義網(SemanticWeb)的概念及其技術線路,2001年2月,W3C正式成立“SemanticWebActivity”來指導和推動語義Web的研究和發展,語義Web的地位得以正式確立,其后有大量研究人員和業界伙伴的參與。語義網是現有網絡的延伸,在這樣的網絡中,信息都被賦予了明確的含義,使機器能夠理解和自動處理網上可用信息,以便給用戶提供更有針對性的網絡信息,而不僅僅是顯示數據而已。語義網的研究是一步步地推進的,每一步都要在前一層之上搭建新的一層,一般情況下,會有多個團隊沿著不同方向研究同一個問題,由此產生的不同想法之間的競爭是科學發展的主要驅動力。對于語義網的體系結構,TimBerners-Lee用蛋糕層(TheSemanticWebLayerCake,該蛋糕圖是2007年新給出的語義網層次圖)的方式形象的作了解釋:語義網中的層次關系是以XML和RDF/RDFS為基礎,并在此之上構建本體和邏輯推理規則,以完成基于語義的知識表示和推理,從而能夠為計算機所理解和處理。在這個層次結構圖中,位于較高一層的能夠解釋和使用低層的信息,即向下可兼容性。例如,掌握OWL語義的具備足夠的能力,可以充分利用由RDF和RDFSchema描述的信息;而且位于較低一層的能夠部分的使用更高層的信息,即向上部分可理解性。例如,一個只掌握RDF和RDFSchema語義的可部分地解釋用OWL表達的知識,而無視RDF和RDFSchema之上的其他成分。我們自下向上來看看每一層的功能:URI/IRI:URI(統一資源標識符)保證網上資源的惟一。IRI(國際化資源標識符)作為URI的泛化形式,提供的是對語義網資源加以惟一標識的手段。為了能夠在頂部層面之中實現對于資源的可驗證的操作處理,語義網需要惟一性標識機制。XML:語法層。XML解決基本語法(commonsyntax)問題,使每個人可以創造自己的標簽來標注網頁或網頁的部分文本。XML允許用戶為他們的文檔添加結構信息,但并沒有說明這些結構的含義。只有標簽名并不能提供語義,所以在語義網結構中XML只是作為語法層,來為語義網的建立提供語法基礎。RDF/RDFS:數據層。RDF利用三元組的方式定義和描述網絡資源和元數據。RDFS在RDF基礎之上為RDF提供基本詞表,包括類結構定義、屬性定義和屬性約束等,它是一種原始的本體定義框架。OWL,Ontology:語義層(本體層)。OWL是RDFS的擴展,允許聲明額外的約束,如基數、取值的限制,或者可傳遞性之類有關屬性的特征。OWL建立在描述邏輯的基礎之上,因而為語義網帶來了推理能力。SPARQL:SPARQL可用于查詢任何基于RDF的數據(也就是說,包括那些涉及到RDFS和OWL的聲明)。要從語義網應用程序那里檢索信息,查詢語言是不可或缺的要素。UnifyingLogic:邏輯層。提供了基于本體層上的智能推理規則和方法,進而得到有用的語義信息。即對于沒有顯式定義的知識進行推理。Proof:提供邏輯驗證。它跟蹤邏輯推理過程,對邏輯推理結果的正確性進行驗證。Trust,Crypto。對下層所有的內容進行數字簽名,使得用戶信任語義Web處理的結果和質量。主要包括:資源來源跟蹤(Provenance),資源是誰定義的在哪里定義的;資源權威度認證(Certification,Authentication),資源是否是權威機構的(如果是則可信度高);資源權限隱私控制(Privacy,AccessControl)。UserInterface&Application:作為最后的層面,使人類用戶能夠使用語義網應用程序。從這個框架可以看出本體和語義網的關系:本體是語義網體系結構中的一個層次,語義網利用本體層來解決知識描述和與語義問題。通常我們所說的本體層,指的是OWL層,而RDF/RDFS也能夠在一定程度上表達語義,因此也可以說RDF/RDFS屬于本體層。對于語義網體系結構中的本體層來說,它只解決它這一層所能解決的問題,而其他關于邏輯和信任的問題都交給本體層的上層來解決。W3C聯盟在制定本體描述語言RDF和OWL的時候,定位很明確,就是利用XML語法定義一種能夠描述資源和資源之間關系的基本框架,從而達到知識的重用和共享。RDF/OWL很好的完成了本層的任務,并為上層提供了實現的基礎。然而,RDF/OWL當初并沒有考慮到動態知識和相對知識這些復雜知識形式的問題。這是本體不能很好的解決動態知識管理問題的原因之一。
1.3RDF對動態知識描述的不足
資源描述框架(ResourceDescriptionFramework,簡稱RDF)是一個用于表達關于萬維網(WorldWideWeb)上的資源的信息的語言。RDF基本概念是資源、屬性、陳述(statement)。其中資源是用Web標識符(稱作統一資源標識符,UniformResourceIdentifiers或URIs)來標識的,屬性是一類特殊的資源,用來描述資源之間的關系,也是用URI標識的,陳述用于描述資源所具有的屬性,1個陳述是1個“對象———屬性———值”三元組,由1個資源、1個屬性和1個值組成,值可以是資源,也可以是文字(lit-eral)。在三元組表示法中,每個陳述都是由主體(sub-ject)、謂詞(predicate)、客體(object)組成的,確切地說,關于事物的陳述中用于識別事物的那部分就叫做主體,而用于區分陳述對象主語的各個不同屬性(譬如:作者,創建日期,語種等等)的那部分就叫做謂詞,陳述中用于區分各個屬性的值的那部分叫做客體。而且每一個三元組均對應于圖中的一條弧,且這個弧的起始節點和終止節點分別是陳述中的主體和客體。由以上描述可知,RDF在設計時,就存在著先天不足。RDF是基于主語、謂語、賓語這樣的三元組的方式來描述一個二元關系,RDFS和OWL都是基于RDF之上的擴展,通過使用一組描述邏輯詞表,建立了分類、約束等推理機制,在知識描述能力上仍然等同于基于RDF的三元組描述。這種數據結構清晰簡單,非常容易理解和使用,但是卻不太適合描述復雜的動態知識。例如,對于歷史領域“政治信仰”問題,對于建立的“eg:政治信仰”的這個屬性,“eg:”(主語)的“eg:政治信仰”(謂語)是“eg:中國共產黨”(賓語),“eg:”(主語)的“eg:政治信仰”(謂語)是“eg:中國國民黨”(賓語),這些都沒有什么問題,因為在任何時候,這兩個人的政治信仰都是不變的,也就是說這些知識都是靜態知識,適合使用RDF來描述。但是對于“葉挺”這個人物來說,他在“1919年”加入了“中國國民黨”,又于“1924年”加入“中國共產黨”。對于這種隨時間而變化的動態知識,RDF無法直接描述。因為RDF三元組的主語、謂語和賓語已經用來描述“葉挺”的“政治信仰”了,沒有辦法對于“1919年”和“1924年”這兩個時間進行進一步的直接的描述了。如果權宜去掉這兩個時間約束,那么使用RDF建立的知識就是不完整的。由此可見,動態知識相對復雜的特點與語義網本體簡單的知識描述模型產生了矛盾。這也是本體不能很好地解決動態知識管理問題的原因之二。
2國內外動態知識管理相關研究
2.1國外動態知識管理相關研究
根據語義Web頂級國際會議論文ISWC、ESWC以及ISKO國際會議論文的調查,國外研究起步于2003/2004年,已經有不少初步的成果和解決方案。但是這些方法的思路和實現各有千秋,目前并沒有統一標準,也沒有公認的具有決定性優勢的解決方案。W3C在制定RDF/OWL規范的時候,也考慮到某些復雜知識描述的情況,動態知識就是其中重要的一種。因此,W3C也提出基于現有語義網框架的解決方案。比較典型的有2個:一是由W3C語義網活動小組之一的語義網最佳實現和部署工作組(SemanticWebBestPracticesandDe-ploymentWorkingGroup)針對語義網語言,如RDF和OWL中,1個屬性是1個二元關系:它是用來連接2個個體或1個個體和1個值,而某些情況下,自然和方便的表示一定概念的方法是利用關系來連接1個個體和多個個體或值,提出了N元關系(N-aryRelations)的本體設計模式。用來指導本體庫建設者如何在RDF/OWL框架下解決動態知識描述問題。其中主要有兩種設計模式:關系類引入模式(Pattern1:Introducinganewclassforarelation)和關系參數列表模式(Pattern2:Usinglistsforargumentsinarela-tion)。這些本體設計模式并沒有提出新的模型從根本上解決問題,只是針對動態知識的設計提出指導性建議。另一個是由W3C聯盟語義網興趣工作組(SemanticWebInterestGroup)于2004年提出的具名圖(NamedGraphs)技術方案,將多個RDF圖歸并到單一的文件/庫中,并且用URIs命名以達到RDF推薦之上的附加功能。具名圖由1個RDF三元組和1個具有清晰的語法和語義屬性的第四元組成。W3C聯盟在2005年制定的本體檢索語言SPARQL就支持這種“具名圖”檢索。DepartmentofCSEE,UniversityofMaryland和Knowl-edgeSystemsLaboratory,StanfordUniversity提出了“RDF分子”(RDFmolecule)的概念。RDF分子本質是本體三元組的擴展:如果三元組不包含匿名結點,那么這個三元組就是RDF分子;如果三元組包含匿名結點,必須把含有相同匿名本體的多個三元組組合起來形成RDF分子。他是“最小的無缺失的語義單元”。通過把本體文檔拆分成“RDF分子”的集合,來追蹤本體知識的出處,能夠解決匿名本體的語義缺失問題。但是它的粒度還是太細,不太適合粗粒度本體知識管理。美國斯坦福大學知識系統實驗室和IBM研究院,提出“上下文參數”(ContextArguments)的概念,通過對三元組添加第四個參數形成“四元組”(Quads)的方式表達上下文相關的相對知識。Franz的著名本體服務器AllegroGraph甚至引入了第五元結點來擴展三元組的邏輯結構。AllegroGraphRDFS-tore是一個現代化、高性能、持久RDF圖數據庫。Allegro-Graph使用基于磁盤的存儲,使之擴展到可以存儲數十億的三元組,同時保持卓越的性能。除了上述應用項目外,國外也有部分論文對動態知識管理的相關問題進行了研究和探討。OleksiyKhriyenkoandVaganTerziyan在RDF基礎之上做了擴展,增加了“TrueInContext”組件,提出“語義背景描述框架ContextDescriptionFramework(CDF)”來描述動態知識和相對知識;OlenaKaykova,OleksiyKhriyenko等人也是在RDF基礎之上做擴展,利用上層本體來描述動態知識或者是上下文條件的變化,提出“資源狀態/條件描述框架”Re-sourceState/ConditionDescriptionFramework(RscDF);其后SergiyNikitin,VaganTerziyan等人還專門撰文,用RscDF來描述Web資源狀態的變化及條件的變化,進而探討了一種新的存儲和管理動態知識的辦法,從而達到查詢動態知識的目的。PaoloBouquet、FaustoGiunchiglia等人在OWL語言的語法和語義規則基礎上做了擴展,提出ContextOWL(C-OWL)豐富了OWL語言的語義,用來描述動態知識和相對知識。OlivierCorby在2007年也提出了RDF/SPARQL情境元數據設計(RDF/SPARQLDesignPatternforContextualMetadata)來解決動態知識元的問題。PieterDeLeenheer,AldodeMoor提出了DOGMA框架和方法來支持復雜的動態知識的管理,其中DOGMA框架不受限于任何一種特定語言,采用二層架構,即theLex-onBase(conceptualisation)和theCommitmentLayer(axi-omatisation),該框架中對于LexonBase的描述也使用了類似五元組的結構來表示動態知識。JacopoUrbani,Ales-sandroMargara等人針對網絡上的內容極具動態性,如在線報紙、博客、社交網絡等,都要經常變化,過時的內容要被移除,并用新的數據來替換,開發了一個原型系統Dy-namiTE,用以有效的計算當三元組增加或刪除時,知識庫中的實體變化過程。從上述研究可見,有的研究如CDF、RscDF、C-OWL等都是通過不同的方式擴展RDF或OWL詞表來表示動態知識,有的研究是針對現有本體存儲系統擴展第四元或是更多元設計來存儲動態知識。不管是哪種理論或技術,都只是部分解決語義網下的動態知識問題,且只能解決某一方面的問題。目前仍然缺乏一個全面的、統一的、深入的動態知識解決方案。
2.2國內動態知識管理相關研究
國內對動態知識管理的研究起步比較晚,目前大多停留在理論探索及實驗原型系統階段,深入研究乃至真正投入應用的成果并不多。研究的目光主要集中在本體層和推理Logic層,也就是對于RDF/OWL標準本身的實現的研究,以及在此之上的本體推理機的應用研究。而關注推理層之上的Trust信任層則非常少。清華大學計算機系知識工程研究室,吳剛發表過1篇論文《細粒度語義網檢索的研究》,主要討論以本體元素為知識單元的細粒度知識檢索模式和檢索排序機制;廖良才、秦偉等人發表過《基于本體的動態知識管理系統》,針對現有知識管理系統知識組織的動態性不足以及知識結構缺少靈活性等問題:知識庫組織形式單一固定,層次結構不明晰,知識的存儲和檢索都是靜態的,無法在工作實踐中根據新情況擴展知識類別及屬性,動態參與性、交互性差;系統架構固定不可變,無法根據企業應用的實際情況靈活地配置系統、無法對知識結構內容進行自由擴充,適應性不強。提出了一個基于本體的動態知識管理(Ontology-basedDynamicKnowledgeManagement,ODKM)系統框架。李廣建等人通過調研分析當前數據庫出版商與收錄在線電子期刊的情況,以此設計基于情景的知識庫,通過設計網絡蜘蛛抓取數據,自動構建知識庫,并實現知識庫的實時更新,最后給出基于情景知識庫的工作原理及工作流程。李書寧根據數字圖書館的實踐特殊需要確定用戶情景敏感服務所要描述的情景類,利用OWL對這些情景進行本體建模,并提出用戶情景敏感數字圖書館中間件系統框架。陸泉等人認為基于情感的圖像檢索研究是基于語義的圖像檢索中的最高層語義研究領域,他們全面梳理了基于情感的圖像檢索領域的已有研究工作,總結了基于情感的圖像檢索的關鍵性問題,并歸納比較了已有的圖像情感標注方法,簡要介紹了基于情感的圖像檢索系統框架,進而指出基于情感的圖像檢索研究的發展方向。武漢大學董慧、王菲等人,重點探討了數字圖書館內的動態知識描述、動態知識演化過程的可視化顯示等內容。
3結語
從國內外動態知識管理研究現狀來看,主要呈現出3個不同的思路:一是在現有的語義網框架內來解決動態知識管理問題,但是在知識表達能力和知識推理功能上比較欠缺;二是通過引入新的類和屬性來描述動態知識,但同時帶來了很多的冗余數據,雖然知識描述的問題解決了,卻給知識存儲帶來了困難,也為之后的知識檢索服務造成了性能上的障礙;三是通過擴展三元組的物理結構,即引入第四元、第五元節點來接解決動態知識問題,但始終滿足不了更為復雜的動態知識管理問題。當然現有的研究成果也有很多可以借鑒的地方,如在動態知識表示方面可采用擴展OWL詞表的方式,在動態知識存儲方面可選擇既支持RDF三元組結構存儲又提供擴展字段的服務器等等。語義網下的動態知識管理問題是當前語義實踐的現實需求,鑒于本體不足以很好地解決動態知識管理問題,且語義網中目前尚缺少一個全面的、統一的動態知識管理問題解決方案。因此有必要深入分析語義網下動態知識的特點,結合現有語義網技術,提出一個更好的動態知識管理解決方案。
作者:周義剛 單位:北京大學圖書館