前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的國外專利全文圖像數(shù)據(jù)質(zhì)量管理思考,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。
摘要:專利數(shù)據(jù)質(zhì)量管理是專利信息服務的首要問題。本文根據(jù)國外專利全文圖像專利數(shù)據(jù)的特點,從數(shù)據(jù)質(zhì)量評價和質(zhì)量改進兩方面探討專利全文圖像數(shù)據(jù)的質(zhì)量管理,給出質(zhì)量維度評估方法,并基于該質(zhì)量評價提出了質(zhì)量改進策略。
關(guān)鍵詞:全文圖像;專利數(shù)據(jù);質(zhì)量評價;質(zhì)量改進
0引言
為了專利文獻信息資源的建設(shè)與傳播,有效提高專利信息服務工作水平,滿足公眾對專利文獻的需求,除了提供專利文摘數(shù)據(jù)和全文數(shù)據(jù),高質(zhì)量的專利圖像數(shù)據(jù)更是必不可少[1]。通過不同途徑收錄的專利圖像數(shù)據(jù)缺乏高效、規(guī)范的質(zhì)量管理,影響圖像數(shù)據(jù)資源的有效利用。對數(shù)據(jù)生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、改進等一系列數(shù)據(jù)質(zhì)量管理,其目的在于保障數(shù)據(jù)的質(zhì)量。專利全文圖像數(shù)據(jù)質(zhì)量管理主要包括數(shù)據(jù)質(zhì)量評價和數(shù)據(jù)質(zhì)量改進兩個方面。通過定期執(zhí)行質(zhì)量評價,促進數(shù)據(jù)質(zhì)量的持續(xù)改進。
1國外專利全文圖像數(shù)據(jù)的特點
來源于不同的國家、地區(qū)或組織的專利全文圖像數(shù)據(jù)格式豐富,數(shù)據(jù)組織形式各異,數(shù)據(jù)內(nèi)容不一,且很多沒有提供文獻基本信息或文獻內(nèi)容標注信息,需要通過標準化數(shù)據(jù)加工對數(shù)據(jù)進行統(tǒng)一規(guī)范。另外,國外專利全文圖像數(shù)據(jù)時間跨度長,獲取周期不穩(wěn)定,其數(shù)據(jù)源的不斷擴展,數(shù)據(jù)總量的不斷增加,可能帶來數(shù)據(jù)重復和數(shù)據(jù)缺失等質(zhì)量問題,因此,周期持續(xù)地數(shù)據(jù)質(zhì)量評價和改進是非常必要的。
2數(shù)據(jù)質(zhì)量的評價方法
數(shù)據(jù)質(zhì)量評價的功能在于基于評價方法,對數(shù)據(jù)有全面的了解和認知,基于評價結(jié)果,發(fā)現(xiàn)潛藏的數(shù)據(jù)質(zhì)量問題,依據(jù)國外專利全文圖像數(shù)據(jù)的特點,專利全文圖像數(shù)據(jù)的質(zhì)量評價遵守獨立性原則、可操作性原則、定性與定量相結(jié)合原則,主要從數(shù)據(jù)的準確性、完整性、唯一性三個維度及主觀客觀兩個角度展開。
(1)三個維度
數(shù)據(jù)的質(zhì)量是一個復雜的、多維度的概念。專利全文圖像數(shù)據(jù)質(zhì)量的評價指標,依據(jù)自身特點和質(zhì)量評價原則劃分為三個維度,分別是:準確性、完整性、唯一性。
①準確性
數(shù)據(jù)的規(guī)范性和差錯率的結(jié)合。數(shù)據(jù)規(guī)范性的評價基準為經(jīng)標準化加工的全文圖像數(shù)據(jù)是否符合《專利文獻數(shù)據(jù)規(guī)范》[2],滿足用戶對標準化專利全文圖像數(shù)據(jù)的要求。數(shù)據(jù)規(guī)范性主要涵蓋文件格式規(guī)范、標注內(nèi)容規(guī)范和文獻信息規(guī)范等內(nèi)容;差錯率是指文獻信息或標簽信息與圖像數(shù)據(jù)不一致的比率。數(shù)據(jù)的差錯率可從定量角度評估,量化為某國家指定時間范圍內(nèi)差錯數(shù)據(jù)的量與數(shù)據(jù)總量的比值。
②完整性
完整性可定義為全文圖像數(shù)據(jù)產(chǎn)品庫收錄的某一國家、地區(qū)或組織的專利全文圖像數(shù)據(jù)與該國家、地區(qū)或組織的權(quán)威文檔或者官方公布專利文獻數(shù)據(jù)比對的一致性。數(shù)據(jù)完整性通常用數(shù)據(jù)完整度來衡量。為全文圖像數(shù)據(jù)庫收錄的某一國家、地區(qū)或組織的專利全文圖像數(shù)據(jù)與其權(quán)威文檔或者官方公布專利文獻數(shù)據(jù)一一對應的量和其權(quán)威文獻或官方公布量的比值。
③唯一性
數(shù)據(jù)唯一性是指全文圖像數(shù)據(jù)產(chǎn)品庫不得含有重復數(shù)據(jù),專利文獻信息與全文圖像一一對應。評估方法為按時間范圍抽取一定比例數(shù)據(jù),統(tǒng)計庫中的記錄文獻信息的數(shù)據(jù)量和圖像實體的量,其比值可表現(xiàn)唯一性。
(2)兩個角度
①主觀角度
主觀角度是基于定性的概念,主觀角度的數(shù)據(jù)質(zhì)量評價主要是從專利全文圖像數(shù)據(jù)的收集者、管理者和使用者的視角來考查數(shù)據(jù)的質(zhì)量問題[3],通過數(shù)據(jù)的收集者、管理者對全文圖像數(shù)據(jù)的直接處理,以及設(shè)立用戶溝通和交流機制,定期收集用戶對數(shù)據(jù)準確性、唯一性及完整性的反饋,綜合表現(xiàn)為滿意度評價。
②客觀角度
基于客觀角度的評價主要方法如下:選取全文圖像數(shù)據(jù)產(chǎn)品某國家、地區(qū)或組織某時間范圍對應的數(shù)據(jù)集,給不同維度賦予相應的權(quán)值,并依據(jù)各維度的評估方法給出具體的量值,由此計算出數(shù)據(jù)質(zhì)量。
3數(shù)據(jù)質(zhì)量的改進策略
基于上述數(shù)據(jù)質(zhì)量評價,對存在的質(zhì)量問題可從數(shù)據(jù)清理、數(shù)據(jù)補全、數(shù)據(jù)糾錯等方面進行改進。針對可能出現(xiàn)的問題提出預防措施,不斷提升全文圖像數(shù)據(jù)產(chǎn)品的整體質(zhì)量。
(1)準確性改進
依據(jù)《專利文獻數(shù)據(jù)規(guī)范》,對全文圖像數(shù)據(jù)進行文件格式標準化、標簽標準化和文獻信息標準化,在此基礎(chǔ)上通過程序控制、機器全量質(zhì)檢和人工抽檢的方式對標準化數(shù)據(jù)進行質(zhì)檢,質(zhì)檢內(nèi)容為圖像實體與文獻信息是否相符,標簽標注是否與圖像一致,并對質(zhì)檢結(jié)果進行狀態(tài)標識,對質(zhì)檢反饋的問題進行分析,并以該狀態(tài)觸發(fā)數(shù)據(jù)修正流程,啟動二次加工,有效地控制不合格數(shù)據(jù)的輸出,提高數(shù)據(jù)的準確性。
(2)完整性改進
為了查明數(shù)據(jù)缺失情況,全文圖像數(shù)據(jù)產(chǎn)品應與其他國家、地區(qū)或組織官方公布的專利文獻清單或其他類型專利數(shù)據(jù)進行比對。數(shù)據(jù)缺失情況歸為三類,一為文獻信息完整情況下的圖像實體的缺失,二為圖像實體完整情況下的文獻信息的缺失,三為文獻信息與圖像實體都缺失,缺失原因可歸結(jié)為源數(shù)據(jù)的缺失和加工過程帶來的數(shù)據(jù)缺失。加工過程帶來的數(shù)據(jù)缺失定義為源數(shù)據(jù)存在,經(jīng)加工過程的一系列流程未輸出標準化的圖像產(chǎn)品數(shù)據(jù)而導致的數(shù)據(jù)缺失,通過對缺失數(shù)據(jù)的類比分析結(jié)合數(shù)據(jù)的狀態(tài)值,啟動相應的補救措施,如完善和補充加工規(guī)則,對相關(guān)的輔助工具和處理流程進行優(yōu)化升級等。源數(shù)據(jù)缺失定義以下兩種情況,一是源數(shù)據(jù)庫存在該數(shù)據(jù),則可能是在入庫過程中由于數(shù)據(jù)解壓失敗、傳輸中斷等原因引起,需要對該部分數(shù)據(jù)重新加工,若源數(shù)據(jù)中不存在該數(shù)據(jù),則從其他數(shù)據(jù)源尋求補錄的可能性,并對可補錄的數(shù)據(jù)進行標準化加工。
(3)唯一性改進
①加入狀態(tài)標識
數(shù)據(jù)源多樣,數(shù)據(jù)量大造成的數(shù)據(jù)重復冗余,表現(xiàn)為同一文獻信息對應多條實體文件,通過加入狀態(tài)標識,當出現(xiàn)文獻信息重復時,狀態(tài)觸發(fā)數(shù)據(jù)修正流程,對已有的圖像實體進行更正,從而建立文獻信息與實體一一映射,保證其唯一性。
②建立清洗規(guī)則
通過對數(shù)據(jù)源的約束和規(guī)劃以改進數(shù)據(jù)的唯一性,多個數(shù)據(jù)源的數(shù)據(jù)集成導致幾個獨立維護的數(shù)據(jù)源經(jīng)常提供相互重疊的數(shù)據(jù)內(nèi)容,出現(xiàn)不一致的數(shù)據(jù),建立數(shù)據(jù)清洗規(guī)則,通過檢測及合并不同數(shù)據(jù)源中的重復集,補充不完整或遺漏的數(shù)據(jù)集,達到消除重復、數(shù)據(jù)增強的目的。
4結(jié)語
通過對國外專利全文圖像數(shù)據(jù)質(zhì)量的評價,可以及時發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量問題,并針對性改進,保障數(shù)據(jù)質(zhì)量,使其更好地為專利信息服務。
參考文獻:
[1]郭威.國外全文圖像專利數(shù)據(jù)的標準化研究[J].數(shù)字與縮微影像,2017.
[2]曲曉光.專利文獻數(shù)據(jù)規(guī)范概述[J].標準科學,2012.
[3]谷斌.信息系統(tǒng)建設(shè)中的數(shù)據(jù)質(zhì)量管理體系研究[J].情報雜志,2007.
作者:廖雅靜 單位:中國專利信息中心