前言:中文期刊網精心挑選了科研對比方法范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
科研對比方法范文1
【關鍵詞】研究方法;比較;分析
隨著社會的發展,以及教育的需求、教育的實踐、教育的規模等教育領域發生了深刻的變革,這就需要人們對教育科學研究方法進行研究,探索其中的規律,從而更好地為教育服務。目前國內公開出版的教育科學研究方法有40多個版本,本文選取的四本相關著作以出版順序排列分別是:(1)裴娣娜:教育研究方法導論(合肥:安徽教育出版社,1995);(2)袁振國:教育研究方法(北京:高等教育出版社,2000);(3)孫亞玲:教育科學研究方法(北京:科學出版社,2009);(4)韓延倫:教育研究方法(北京:高等教育出版社,2011)。下文以A、B、C、D分別代表這四本著作。
一、寫作目的
四本著作出版時間先后不同,時間跨度較長,不同時期,不同背景以及個人的研究方向或側重點不同。這些因素將會對他們的寫作目的產生影響,筆者從他們的序或前言中認為:
(一)A的這本著作是她在多年來為本科生、研究生講授時的講稿的基礎上整理而成,她的目的是:“試圖在總結我國豐富的教育研究實踐經驗和借鑒國內外有關研究成果基礎上,建立符合中國實際的教育研究方法學科體系的一種嘗試和探索。”她的寫作目的可以理解為是教育科學研究方法的一種探索。
(二)B版這本著作是這四本著作中唯一沒有序和前言,但是我們可以從內容提要中看書,本書寫作的目的是為高等教育學校教育學科而撰寫的教學用書,是面向21世紀的課程教材。
(三)C在前言中認為隨著我國教育事業的蓬勃發展,教育研究隊伍不斷壯大,教育研究的價值取向和研究方法,有了長足的發展,舊的一些觀點和內容已經不能滿足這些需求,因此,需要提出新的觀點和研究方法。所以說她的寫作目的很明確。
(四)D著作為高等院校教師專業發展系列教材,可見,本書的寫作目的是為教師的專業發展而量身訂做的。當然也可作為本專科生教學用書。
二、章節、結構安排
(一)A在章節的安排上共分為四編十五章,第一編教育研究方法的一般原理,第二編教育研究的構思與設計,第三編教育研究的基本方法,第四編教育研究的結果與評價。從一般原理——構思設計——研究方法——成果表達,可見編與編之間邏輯性強。但章節內容較多,都比較詳細,看不出側重點,各種研究方法都有介紹。另外,成果表述及評價安排在了倒數第二章,筆者認為應該安排在倒數第一章更為妥當。
(二)B共十四章,前三章論述教育研究的意義,過程,一般性原理,第五章到最后具體論述了各個研究方法的具體步驟、運用。第十三章,兩個案例單獨成章,這則是本書的亮點之一,不足之處是本書的最后沒有成果的表述與評價。應該把成果表達與評價這的內容加進去,樣安排才使得整個教育研究更加完整,系統化。
(三)C共十一章,第一章是教育科學研究方法的概述,然后是一般步驟、選題,抽樣,論證,建立假設、6種具體的教育科學研究方法、統計法與SPSS操作以及成果的表達。從孫版的章節看出該書思路清晰、循序漸進、一氣呵成。
(四)D共十二章,前兩章是概述、確定問題。第三章到第十一章具體論述了各個研究方法的含義、分類、步驟、案例。最后一章則是成果的表達。總體上說,思路清新,每一章的題目都是“如何……”,可見,本書的側重點是怎么做,如何做,操作性很強。
三、研究方法的選取
教育科學研究方法根據研究性質、目的、范圍、對象等的不同,可以把教育科學研究分成20多種,這四本著作都選取了5-9種研究方法進行論述,但各版本選取的側重點不同。
(一)A選取了五種,分別是教育科學的歷史研究法、教育科學的調查研究法、教育科學的比較研究法、教育科學的實驗研究法、教育科學的理論研究。這五種研究方法比較傳統,由于年代久遠,以及時代的發展,這五種研究方法目前很少見了,近年新編的教材里較少選取這些研究方法。
(二)B選取了實驗研究、調查研究、定性研究、文獻研究、比較研究、行動研究等,包括了目前經典和一般的研究方法,各研究方法都有具體的操作步驟介紹。
(三)C選取了文獻法、教育調查法、觀察法、教育實驗研究、行動研究、教育敘事研究、統計法及SPSS操作。涵蓋了目前經典和流行的幾種研究方法,其中統計法及SPSS操作,其他三版本中是沒有,這也是本書的亮點。
(四)D選取了文獻研究、定量研究、教育實驗研究、調查研究、定性研究、比較研究、現場研究、歷史研究、行動研究等共九種研究方法。每一種研究方法按照“含義、特點——分類、設計——運用”的順序介紹。另外大多數的研究方法的最后都有案例分析。
按照質和量的構成,教育研究方法可分為定量研究和定性研究。問卷調查、統計法、實驗研究等屬于定量研究。行動研究、比較研究、教育敘事研究等屬于定性研究。這四本著作根據自己的寫作目的、知識背景、研究方向的不同選取了幾種不同類型的教育研究方法。研究方法的種類不是越多越好,也不是越少越好。在選用的時候是選取其中的一種還是多種,要根據問題的具體情況具體分析。將定性研究和定量研究有機地結合起來是未來教育科學研究的發展趨勢。
四、語言表達
(一)A是在上世紀90年代出版的,在語言表達上很嚴謹,語體很正式、詳細、準確,更加傾向于學術性的著作特點。該著作專業性很強,里面有很多專業性的術語。如第19頁:“熟知人的思維的歷史發展過程,熟知各個不同的時代所出現的關于外在世界的普遍聯系的見解,這對理論自然科學來說是必要的,因為這位理論自然科學本身所建議起來的理論提供了一個準則。”可以看出,直接運用恩格斯的《自然辯證法》深思難于理解,更傾向于學術性。
(二)B在語言表達上也是更傾向于學術性,書中有很多專業名詞的字體都加工成黑色粗體,在解釋概念的時候較多地運用了圖標、數據等方式加以闡釋。有些詞語專業性很強,比較難懂,應該需要進一步說明。
(三)C在語言的表達上出現了一種清新的特點,語言幽默詼諧、通俗易通。比如在導入的時候,作者這樣寫道:“自從有了人類,就有了教育現象,當教育經驗有了一定的積累之后,人類開始了對教育這一社會現象的研究。我們不能確切地說出教育研究是從什么時候開始的,因為有關這一問題的記載沒有確鑿的文獻來佐證,所以,我們只能說教育研究很早以前就有了。”從這段文字中,我們可以看出,作者好像和讀者對話,講故事似的。從這里也可以看出作者做學問是很嚴謹的。語言令人親切,通俗易懂。
(四)D的語言在表達上總的來說還是比較通俗易懂的,用詞嚴謹、準確。有些詞語的引導性很強。比如第65頁:“對我國而言,校本課程開發畢竟是一個新手事物,有許多課題亟待研究,國內對校本課程的研究始于20世紀80年代,開始的探索大多停留在‘概念引人’階段的新奇,并未走入實質化的研究。”
五、各自的特色
(一)A版最大的特點就是歷史與現實結合、理論與實際結合以及中西結合。該書對教育科學研究的發展歷程作了比較系統的回顧。注重從中國的實際出發以及吸收西方最新科研成果。該書又吸收了自然科學、社會科學、思維科學等方面的成果。把數學方法也運用其中,這突出反映了教育研究時代的特點。
(二)B版的這一著作中,最顯著的特點就是第十章,加人了統計法及SPSS的具體操作。這部分內容在其他版本中是沒有的。正所謂“物以稀為貴”,這更說明了該著作的獨特性,具有新穎性。全書思路清晰,前后編排連貫性強。在內容的安排上有似于人的思維、學習習慣。課后的思考題需與本章的內容結合回答。另外,每一章后面有文獻鏈接,這一點很好,而且選取的案例都是比較經典的。這一做法可以讓讀者更加廣泛地了解到相關知識及最新的學科動態。
(三)C版的亮點、最吸引讀者的地方則是書中有很多圖式、案例。這樣會使讀者一目了然。重要性的概念都會黑色加粗,這種則突出了該專業術語的重要性。
(四)D版的亮點則是各章的題目上,都有“如何”,這種句式在著作中并不多見,可作者的這一做法更加突出了本書的亮點。更加具有操作性,章前有內容提要、學習目標等是讀者在閱讀之前就可以瀏覽到相關的知識點,有助于理解,在文中有許多信息欄,這也有助于讀者拓展課外知識。章后的資源連接,并有該資源連接的簡單介紹,這一特點是其他版本所沒有的。
六、結語
教育科學研究方法是一門內容豐富、結構復雜的學科,實踐性強,以上四種不同版本的教育科學研究方法,作者根據自己的寫作背景、研究方向等出發寫作,側重不同,但是都有自己的寫作特色,可謂是各具特色、各有千秋。
參考文獻
[1] 裴娣娜.教育研究方法導論[M].合肥:安徽教育出版社, 1995.
[2] 袁振國.教育研究方法[M].北京:高等教育出版社,2000.
[3] 孫亞玲.教育科學研究方法[M].北京:科學出版社,2009.
科研對比方法范文2
1類比思想方法的相關理論和作用
類比思想是研究數學非常重要的一種方法,而類比是從希臘文衍生出來的。比如1和2、5和10這是兩組完全不同的數字組合,但是他們的比例卻是一樣的,這種思想就是類比。類比是可以推斷的一種方法,是通過對比來完成的。類比方法的運用可以讓初中生遇到的數學問題簡單化。學生要認真觀察兩者的關系,找相像的地方,從而解決問題得出正確的答案,掌握了這種方法可以讓類似的問題都得到解決。學生用相似的方法去解決,減少了很多不必要的解題麻煩。
類比法在數學發展過程中起到了很大的作用。正是因為合理運用了類比法,波利亞才可以在學科研究中發揮他的能力。類比法可以培養學生的直覺思維能力。學生如果對數學這一科目感興趣,可以通過第一感覺判斷題目,快速準確得出結論。因為學生通過自己的記憶,將以前遇到的問題可以快速和現在出現的問題加以比較,找出他們的相似之處,然后得出解題規律解決問題。類比思想還可以增強課堂教學的有效性。數學學習不是一蹴而就的,它需要整合所有學過的內容,自行加以總結聯系,將零散的學習內容串成一個整體脈絡。比如當學習反比例函數的時候,就可以借助已經學習過的一次函數進行講解;學習相似三角形的時候就可以根據全等三角形的相似定理來學習。類比方法加快了學習進程,提高了學習效率。
2類比思想在教學中存在的問題
國家對于教育方面的發展十分重視。數學作為一門基礎的邏輯性學科,也可以對世界有很深遠的影響。但是根據實際調查發現,學生們在課堂上并不能將身心全部放在學習探索中,多數情況下會打瞌睡,或者走神,身心不集中就導致了課堂效率不高,不能理想的學習運用類比方法。而且在調查中發現,部分老師講課循規蹈矩,沒有創新,沒有要求學生舉一反三,這在很大程度上影響了學生學習的積極性并且不利于學生學習。所以老師和學生存在的這些問題不能忽視,要及時解決,不能影響學習進程和學習成績。
3如何培養學生的類比思想
類比思想如此重要,當然要利用合理的方法來培養。首先在學生方面,學生自己要重視起來,通過各種適合自己的方法調動自己的主動學習性。學生通過自己對數學方面知識的理解,加以延伸學習,通過對比新舊知識,找出相像的地方,得出類比結論。其次從老師角度來說,老師是學生的引導人,是指引學生的指明燈。作為老師,要清楚了解學生對知識的掌握程度,善于引用生活中或者數學中簡單的事物來做類比,將類比思想深入學生們的心里,這樣才能讓學生掌握好類比思想并且廣泛使用。培養學生類比思想這件事情不是幾天就可以做到的,需要通過不斷的學習,日積月累進行對比分析,找出類比方法的關鍵。所以培養好學生的類比思想,需要老師和學生共同磨合進步。通過不斷磨合,學生對于類比思想的理解學習才會更加深入,在初中數學的全部學習過程中也會起到很大的作用,學習成績也會提高。
4初中數學類比思想的教學案例分析
在北師大版數學中有這么一個案例:通過尋找圓與球的相似之處,利用類比思想將圓和球進行比較。我們很熟悉圓的一些性質,比如圓心與非直徑的弦中點連線垂直于弦、圓的面積公式是S=πr2、圓是一個對稱圖形。通過類比思想發現,球可以理解成是由多個等半徑同圓心的圓組成的,所以我們就可以類比一下球的性質。球的球心與任意一條非直徑的弦中點連線也垂直于弦,通過相同的方法計算出球的面積公式為S=4πr2、體積公式為V=4/3πr3,球也是一個對稱體。
再比如中點坐標公式的類比推廣。在一維空間里僅僅只有一個方向就可以,所以中點坐標公式為(x1+x2)/2;在二維空間里,通過一維空間的坐標公式就可以推斷出二維的中點坐標公式為[(x1+x2)/2,(y1+y2)/2];以此類比,三維空間和多維空間的中點坐標公式就也很容易推出來了。
科研對比方法范文3
關鍵詞:病案管理;問題;解決方案
研究顯示:醫院病案管理作為醫院檔案管理體系中的重要構成元素,當前還存在一定的不足[1],這些問題使得醫院對于病案資料的利用度較低,無法發揮病案資料對醫療衛生服務的指導價值,故而導致了一定的不良事件產生[2,3]。特別是在當前新醫療體制改革的背景促進之下,大量的醫改方案出臺,相關配套改革措施進一步落實,對于醫療信息化建設所提出的研究更加的具體[4]。在這一背景下,提升醫院病案管理工作質量無疑有著重要的意義與價值。
1資料與方法
1.1一般資料 對我院當前病案管理工作中存在的問題進行分析,針對問題探究相應的解決方案,對比方案實施后的效果與價值。
1.2方法
1.2.1病案管理中存在的問題 病案管理工作當中存在的問題可歸納為以下幾個方面:①思想意識上不夠重視:當前絕大部分醫院管理的中心為醫療服務,對經濟的關注高于對病案管理工作的關注。病案作為醫療衛生機構的科技型檔案之一,沒有在醫院醫療衛生服務中發揮相應的價值與功效,一定程度上造成醫療糾紛等不良事件發生率的增長;②病案質量低下,信息利用率低:一份完整的病例資料除需要涵蓋患者的一般資料信息以外,還應當覆蓋包括疾病診斷、疾病治療、以及疾病護理在內的相關內容,但當前部分病案在資料信息上不夠詳實,書寫記錄不夠規范,甚至存在胡亂涂改的問題,潛在一定的安全隱患;③管理人員業務水平低下:醫院缺乏集中組織病案管理人員進行培訓的故障制度,知識更新速度較慢,缺乏對病案管理工作的系統認知。
1.2.2 病案管理問題的解決方案 針對病案管理工作中存在的幾點問題,建議從以下幾個方面入手,對病案管理工作加以完善:①促進病案管理規范性的提升:病案作為能夠直接反應患者疾病臨床治療干預情況的第一手資料,醫師大多是通過借閱的方式展開對病案信息的研究。病案的借閱管理,在醫學教學研究、公檢法和保險等方面都有涉及,所以需要對病案的借閱過程進行規范化的管理。在病案的借閱中,不能夠把病案的原文本給相關部門。要借用一些掃描的文件。從這一角度上來說,建議醫院方面購置專門的掃描儀和打印機設備儀器,這樣能夠有效的防止把病案帶出病案室,一方面為患者保守秘密,另一方面還提供了借閱的服務;②促進循環性監控工作制度的全面落實,推行基于三等級的循環監控機制:加強"三級循環監控"是加強責任落實的重要措施,即主治醫師對住院醫師、科主任對主治醫師、職能部門對科主任的監控體系的建設,各級都要把握好質量關卡,積極加強監控和反饋,及時修改審閱病案,對病案的質量管理可以起到良好的效果;③引入質量管理理念的方法,提高相關病案信息資源的利用率:在醫院病案管理工作中引入ISO質量管理體系,促進病案管理中,有關醫療文書的書寫、診療資料的記錄等關鍵工作環節流程得到規范。特別是針對分類、等級處理后的病案資料而言,需要安排專人進行保管,嚴禁對這部分資料數據進行涂改、偽造、或竊取;④加強對信息資源的開發質量:改變被動的服務方式,提高病案信息資料開發的主動性,通過統計、歸總等方式,定期面向醫院領導、管理層人員提供階段性的病案信息,拓展病案資料的利用途徑,將病案信息的利用范圍進一步擴展至包括醫院管理、醫療保健、醫療糾紛、以及醫療科研等多個方面當中;⑤重視對病案管理工作人員綜合素質與技能的提升:醫院方面需要根據工作人員的不同工作崗位,制定對應的教育培訓工作計劃,特別重視對病案管理專門性人才的培訓,定期在崗學習、專家講學、外派參加學習班等均是人才培養的有效手段,將學習情況與晉升、與績效掛鉤,及時結合行業發展需求,更新相關人員的病案管理理念與知識。
1.3統計學處理 本文數據使用SPSS 17.0軟件進行分析與計算,計數資料以%表示,以X2檢驗,可信區間95%,檢驗水準為0.05,當P
2結果
在醫院落實相關病案管理措施后,病案質量完善率、患者滿意率均明顯高于實施前數據,投訴率明顯低于實施前,數據對比存在顯著差異,P
3討論
在醫療服務項目、醫療服務數量迅速提升的背景之下,醫療衛生服務開展過程當中所形成的病案資料無論是從數量,還是從完備性方面上來說,都取得了相當長足的進步。有關研究中指出:健全、有效的病案管理工作制度與措施有助于維護醫院醫療環境的和諧、穩定,在降低醫療糾紛以及不良事件發生率方面意義重大。
本次研究過程當中,針對當前醫院病案管理在思想意識、在信息利用度、在人員業務水平等多個方面存在的問題,展開了積極的探索與創新,在重視對相關法規、標準的宣傳與學習基礎之上,促進了醫院檔案管理工作體系與病案管理工作的進一步融合,同時通過引入質量管理理念的方法,提高了相關病案信息資源的利用率,在加強對信息資源開發質量的同時,更進一步重視對病案管理工作人員綜合素質與技能的提升。在以上相關措施的引導下,病案管理措施實施后,病案質量完善率、患者滿意率均明顯高于實施前數據,投訴率明顯低于實施前,數據對比存在顯著差異,P
綜上所述:當前醫院在病案管理工作的開展中還存在一定的問題與不足,需要通過對病案管理規范性的提升、推行基于三等級的循環監控機制、提高信息利用率、加強信息資源開發、提升病案管理人員綜合素質與技能等多項措施的落實,進一步提高病案管理的工作質量與水平。
參考文獻:
[1]黃鋒,陳劍銘.醫院病案管理工作現狀及發展趨勢探討[J].中華醫院管理雜志,2013,29(3):192-194.
[2]唐麗華,沈玉梅,朱崇光,等.質量控制在病案管理工作中的應用效果分析[J].中國醫院管理,2013,33(12):57-59.
科研對比方法范文4
關鍵詞:地區產業 競爭力 評價
一、引 言
在目前世界競爭力評價方法和指標體系中,較有代表性的有:美國經濟學家邁克?波特的“鉆石模型”;瑞士洛桑國際管理發展學院(IMD,1998)和瑞士日內瓦世界經濟論壇(WEF,1998)的整體國家競爭力評比方法;荷蘭格林根大學建立的ICOP(International Comparison of Output and Productivity)方法。在國內較有代表性的有:中國人民大學國家競爭力分析模型;金碚的工業品國際競爭力分析框架;裴長洪的研究模型;魏后凱的區域競爭力評價模型等。
由于國家和國內區域性質的不同,鉆石模型、IMD和WEF的整體國家競爭力評比方法顯然不適合區域競爭力的評價。目前,在區域競爭力研究方面運用比較廣泛的是荷蘭格林根大學建立的ICOP方法。此方法主要根據對不同地區、不同行業按同一分類體系標準化得到可比數據,計算出研究競爭力的一些主要參數。其缺陷是理論性不強,特別是各種參數的經濟含義難以直觀解釋。
目前在國內區域競爭力評價指標體系中,人民大學體系是基于IMD和WEF模型,金碚的工業品國際競爭力分析框架中對鉆石模型進行了拓展,裴長洪提出了產業國際競爭力的顯示性、分析性評價指標,這些模型均不適用于地區競爭力的評價。而魏后凱的區域競爭力評價模型較有代表性地反映了構成地區競爭力的基本要素,從指標選取的經濟性到測量結構的解釋性都較前人有所突破,對比較和測評地區工業競爭力具有重要意義。
二、競爭力指標體系構建
區域競爭力是競爭主體在爭奪資源或市場的過程中表現出來的一種綜合能力。就地區工業競爭力來說,它決定于單個企業的核.亡.、競爭力及其群體優勢,并主要體現在市場影響力、工業增長力、資源配置力、結構轉換力和工業創新力上。這五個方面共同構成了一個地區的工業競爭力的基礎。由此,我們可以構筑如下函數關系:地區工業競爭力=F(M,G,D,T,I)。公式中M、G、D、T、1分別代表地區工業的市場影響力、增長力、資源配置力、結構轉換力和工業創新力。市場影響力:用地區工業占全國工業市場的份額(市場占有率)來衡量地區工業市場影響力。工業增長力:用地區工業總產值的增長率來反映工業增長力。資源配置力:用工業銷售利潤率和全員勞動生產率加權平均來衡量地區工業資源配置力。結構轉換力:用高增長行業產值占地區工業總產值的比重和加工工業產值占地區工業總產值的比重兩個指標,用這兩個指標的加權平均來反映地區工業的轉換能力。工業創新力:用非國有工業產值占地區工業總產值的比重來反映該地區的制度創新能力,用企業科技經費支出占GDP的比重(簡稱R&D投入比重)來反映地區的技術創新能力,以二者的加權平均來反映該地區工業的總體創新能力。
三、指標測算和分析
在評價分析中,我們對各個具體指標數據進行了標準化處理,并對分項評價指標進行了適當的加權處理。首先,對各地區的各項評價指標數據都以相應的全國各地區數據的平均值為標準進行了標準化處理。然后,在計算地區工業資源配置力、結構轉換力和工業創新力系數時,均采用0.6、0.4加權辦法計算上一級指標的數值。即銷售利潤率、高增長行業比重和非國有工業比重采用權重0.6,而勞動生產率、加工工業比重和IK&D投入比重采用權重0.4。
云南省工業競爭力系數一直處于略高于全國平均水平的狀態,在2005年達到最低點后開始反彈,2006年達到最高點,在2007年出現回落,2008年略有上升。在影響工業競爭力系數的五大指標中,資源配置力系數、結構轉換力系數、工業增長力系數在全國處于優勢指標,工業競爭力系數和工業創新力系數處于劣勢指標。具體影響指標變化趨勢分析見圖1。
其一,云南省市場影響力系數數值從2004-2008年一直低于全國平均水平的一半,且沒有較大幅度的增加。云南工業市場影響力成為制約云南產業競爭力發展的最大因素。工業市場影響力主要反映一個地區工業的整體規模水平,這是一個絕對量的指標。由于歷史的原因,云南工業發展長期滯后,沒有形成規模化的產業結構和布局,隨著市場競爭的加劇,致使云南的輕工制造業快速萎縮,進一步減少了云南工業的總體規模。直至2007年,云南銷售收入過百億的企業也只有10戶,規模以上工業企業只有2698戶,與全國相比這個數字就顯得太小了。因此,企業規模小、數量少,是導致云南省工業規模指標偏低的主要原因。
其二,云南省工業增長力系數數值在2005年后一直保持良好增長趨勢,在全國處于優勢水平。云南省工業持續高速增長與云南省政府實施的一系列產業政策密切相關。從“十五”開始,云南省開始走新型工業化道路,政府提出了實施工業強省戰略。為實現云南省工業增長的持續穩定奠定了堅實基礎。
其三,云南省工業資源配置力系數數值從2005年后在不斷下降,從絕對值上來看云南省該項指標在全國還是處于優勢地位。云南省雖然工業增加值總量較小,然而已上市的公司所占的比重很大,上市公司在工業銷售利潤率和全員勞動生產率等指標上處于同行業領先水平。
其四,云南省工業結構轉換率系數數值從2004年以后一直處于穩步上升的態勢。該項指標數值的提升與云南省政府近幾年大力扶持新興工業,延長原有傳統產業的產業鏈的思路聯系緊密。近年來,云南省能源、原材料、有色金屬深加工、化工等非煙產業持續增長,成為推動工業增長的主要力量,天然藥物、生物化工、綠色保健食品等新興生物資源產業增長速度明顯加快,成為新的經濟增長點。
其五,云南省工業創新力系數數值從2005-2007年逐步下降,到2008年有所回升但仍均低于全國平均水平。云南工業創新力系數已經成為制約云南工業競爭力提升的短板。究其原因云南省大中型工業企業R&D經費總量少,民營企業數量少,技術創新和技術開發水平有待提高。從近幾年的數據看,云南省R&D活動經費來源于企業的比重雖然在不斷上升,但投資主體還是以政府為主。企業離科技投入主體的要求仍有較大差距,制約了企業技術創新能力和產業科技競爭的進一步提高。
四、指標對比分析
以下抽取沿海發達省浙江省為代表與云南省在該競爭力指標體系下作對比,見表1、表2。
相對于東部沿海發達省浙江,云南省工業競爭力處于落后水平。具體指標中,市場影響力系數和工業創新力系數處于絕對落后水平。工業企業的絕對數量、企業的科研創新能力方面的不足已經成為云南工業競爭力與發達地區形成較大差距的重要原因。優勢的資源配置力系數和結構轉換力系數指標表明:相較于浙江省工業企業的平均水平,云南的工業企業具有更好的整合資源的能力和更高的經營管理效率。較高的工業增長力系數也顯示出作為全國資源大省的云南省工業在今后的發展中具有更大的潛力可挖。
五、結論及對策建議
科研對比方法范文5
1.1課程設置改革
首先,資源環境科學專業是文理兼收的,故選擇葉芬霞主編的“無機及分析化學”和“無機及分析化學實驗”作為教材。本課程作為專業基礎課,課程大綱要求學生掌握分析化學的基本原理和方法以及無機及分析化學試驗的基本操作技能,培養嚴謹的科學態度、分析解決環境科學問題的能力,并為學習后續課程和將來從事環境監測工作和環境化學的學習奠定基礎。因此本課程確定選取容量分析(酸堿滴定法、沉淀滴定法、氧化還原滴定法、配位滴定法)和儀器分析(吸光光度法、原子吸收分光光度法、離子色譜法等)作為重點教學內容,設定教學計劃,理論環節50學時,實驗環節22學時,實驗分別設計入門項目、驗證性項目、綜合性項目等多種層次的8個實驗項目來反復訓練學生,培養學生獲得整體行動能力,同時注重與本專業其他課程的銜接和滲透,真正通過本課程學習為后續專業理論學習和實踐能力的培養打下良好的基礎。
1.2理論教學改革
在分析化學的理論教學中,既要講授分析化學的基本原理和方法,使學生嚴格樹立起“量”的概念,培養學生從事理論研究和實踐的嚴謹的科學作風和能力。又要將新發現的現代分析方法和技術巧妙的融合到經典分析化學中,如介紹分析化學在環境監測、環境毒理學、環境化學等課程方面的應用,特別是環境污染治理、生命科學在分析化學方向使學生認識到分析化學的重要性,充分調動學生的積極性,激發學生學習興趣,積極參與到教學活動中。教師教學不應重在講授,而應重在“授之予漁”,引導學生提出問題,指導學生解決問題。首先,教師提出能夠涵蓋課堂教學所有知識點的問題,讓學生課前帶著問題去預習,既培養獨立自主學習能力又可讓學生發現自己遇到的難點。然后,通過啟發引導,鼓勵學生提出問題,引導學生尋找解決問題的途徑和方法,并給出一定的時間讓學生去思考,去查閱相關的資料,培養學生獨立解決問題能力,同時讓學生自己挖掘每個問題所涵蓋的知識點,并引導其掌握問題在實際中的應用,以學生為主體通過問題的解決而掌握相關的知識點,不但幫助學生自主分析、解決問題,還提高了學生學習的興趣,使所學知識體系和創新能力不斷提高和發展。比如新課前先留下問題水中Cl-和CrO4-同時存在,緩慢加入濃的AgNO3哪種離子先沉淀呢?實驗現象又如何?學生帶著問題去預習,學習分步沉淀的原理,同時鼓勵學生小組設計實驗,理論課前可以先進行實驗,觀察現象,通過查找資料分析原因,課堂上教師根據學生解答問題情況講授新課,理論與實踐相結合,充分調動學生學習的積極性,培養了學生自主學習、團結協作分析解決問題的能力。課堂教學過程中注重靈活引導學生掌握學習方法,如對比方法,包括將有關同類滴定分析方法原理知識進行橫向或縱向的比較、幾種常規容量分析法的相似點不同點、化學鍵與分子間作用力的異同點、三種銀量法的異同點等,又如如何選擇最適的指示劑,重點講根據酸堿滴定曲線中滴定突躍選擇指示劑,而配位滴定和氧化還原滴定,就不再詳細講授,讓學生分組討論學習,而且滴定分析重在應用,加以案例分析教學,有助于提高學習興趣,讓學生學以致用,了解本方法的用途,進而開展實踐教學。
1.3創新實踐教學模式,多種實驗教學模式相結合
現階段分析化學實踐教學中,多數是老師為學生準備好試驗水樣、土樣、藥品試劑等,學生僅按照試驗步驟依次操作即完成實驗,這并不能滿足全面提升學生綜合實踐能力、創新能力的培養要求,針對上述問題,我對分析化學實踐教學做如下改革。以學生為主體、教師為引導,強調以工作任務為驅動組織實踐教學,開展實驗,同時提倡讓學生參與試驗的布點、采樣、試劑配制、試驗耗材準備等實驗整個過程的教學模式。即根據工作任務讓學生分小組完成任務分配表,包括試驗樣品的選取、實驗藥品用量的計算和配制方法、實驗原理、實驗注意事項等,在實踐教學方法上注重互動式、啟發式教學模式,鼓勵學生小組籌備實驗,實驗過程中出現問題,引導學生查找分析問題原因,注重培養學生能夠掌握基本的分析原理和方法基礎上,培養學生進行自主式探索研究,能夠自主提出問題、分析問題、并通過分工合作解決實際問題,真正實現教學相長。整個實驗過程,不僅提高了解決分析問題能力,也培養了學生團隊合作精神。實踐教學中工作任務的設置應注重基礎實驗和綜合設計實驗相結合,如基礎項目、驗證性項目、自主性項目、綜合性項目等多種層次的8個實驗項目來反復訓練學生。基礎項目的選取以學生基本操作規范、實驗常用儀器使用方法為主。如天平的使用、基本儀器操作規范及注意事項等。驗證性項目則在規范操作基礎上,與課程教學大綱相結合,學會如何著手解決工作任務,教師給出概要的指導性問題和解決問題可選擇的途徑,學生通過實驗過程記錄現象和課后查閱資料分析現象,形成總結報告,教師根據結果用部分課堂時間予以點評,如開設水中氯化物含量測定、硫代硫酸鈉的標定、EDTA的配制和標定等等。自主性項目則以小組為單位,進行自主式探索研究,分工合作,引導可以選擇食用米醋酸度的測定、食用鹽中碘含量的測定、自來水中總硬度的測定等。綜合性項目為設計研究跨課程的大型綜合項目,如草溪河水體富營養化評價等,根據所學的知識和操作技能和查閱相關資料,小組合作寫出設計方案,在教師論證其可行性后籌備實驗,完成實驗,寫出實驗小論文。
1.4改革考試方式,推行全面而科學的考核方法
改革以考核知識的積累、實踐能力為目標,考核采取全過程考核,考核方式有閉卷筆試、實驗操作、平時作業、實驗報告等多種形式,既注重結果又注重過程。理論部分占總成績的60%,實驗部分占總成績的30%,考勤占10%,共100分。考核內容以應用為主,主要考核學生掌握知識點和靈活運用能力,達到培養學生綜合應用能力的目標。
2成果與展望
科研對比方法范文6
關鍵詞:關鍵詞提取;共現矩陣;關鍵詞詞庫;關鍵詞語義網絡;電力項目
中圖分類號: TP391.1 文獻標志碼:A
英文摘要
Abstract:In order to solve the problems of keyword extraction and project keyword lexicon establishment of technological projects in professional fields, an algorithm for building the lexicon based on semantic relation and cooccurrence matrix was proposed. On the basis of conventional keyword extraction research based on cooccurrence matrix, the algorithm considered several advanced factors such as the location, property and Inverse Document Frequency (IDF) index of the keywords to improve the traditional approach. Meanwhile, a method was given for the establishment of keyword semantic network using cooccurrence matrix and hot keyword identification through computing the similarity with semantic base vector. At last, 882 project experiment documents in power field were used to perform the simulation. And the experimental results show that the proposed algorithm can effectively extract the keywords for the technological projects, establish the keyword correlation network, and has better performance in precision, recall rate and F1score than the keyword extraction algorithm of Chinese text based on multifeature fusion.
英文關鍵詞
Key words:keyword extraction; cooccurrence matrix; keyword lexicon; keyword semantic network; power project
0 引言
關鍵詞提取是一項對文檔索引、網頁索引、文檔分類、文本挖掘等領域非常重要的技術。關鍵詞詞庫則是特定領域關鍵詞的合集,關鍵詞和關鍵詞詞庫的優劣對各類檢索系統、搜索引擎的性能有著重要影響[1]。關鍵詞和關鍵詞詞庫的質量不僅是評價檢索系統優劣的重要標志之一,同時對我國主題詞表和文獻檢索語言的發展有重大意義。
目前的情況下,無論是提取文檔關鍵詞,還是建立關鍵詞詞庫,人工給出的結果都是最為理想的。然而,隨著網絡的發展,信息量的增長越來越快,網絡資源正在以爆炸式的速度增長。據中國互聯網絡信息中心(China Internet Network Information Center,CNNIC)的《第33次中國互聯網絡發展狀況統計報告》,截至2013年12月,中國網頁數量達1500億個[2]。人工進行關鍵詞標注是不現實的,所以,對于關鍵詞高效自動的提取就顯得十分重要。
針對關鍵詞的提取技術,學術界已經開展了許多研究。研究者提出了很多關鍵詞提取方法,主要分為三類[3]:1)基于統計的方法,如詞語文檔的頻率統計;2)基于詞語網絡的方法,根據一定規則將文檔映射為詞語網絡,利用詞語網絡計算詞語的關鍵度;3)基于語義和自然語言理解的方法,利用詞語的語義特征提取關鍵詞。
在統計方法領域,詞頻逆向文件頻率(Term FrequencyInverse Document Frequency,TFIDF)是一種常用的統計模型,在關鍵詞抽取中應用廣泛。文獻[4]是基于多特征信息對中文網頁進行關鍵字提取,具體處理上,文章綜合考慮了網頁上的標題和交互信息,對TFIDF進行了改進。文獻[5]也是在統計方法方面對TFIDF進行改進,以解決IDF值的大小和代表文本特征之間不匹配的問題。文獻[6]考慮了詞長、位置、詞性的啟發知識,提出了改進的詞頻逆向詞語頻率(Term FrequencyInverse Word Frequency,TFIWF)權重算法。在詞語網絡方面,文獻[7]利用了參考文獻和原文獻重要的上下文關系,通過創建詞語共現圖和概率主題模型,對詞語的相關性進行計算。文獻[8]將候選詞項與文獻引用之間的關系抽象為二部圖,使用CoHits方法迭代計算詞項重要性得分至收斂,選出得分最高的詞項作為關鍵詞。與上述處理參考文獻的方法不同,文獻[9]則是基于訪問日志文件進行關鍵詞提取的,由于訪問日志文件和用戶的搜索行為關系很大,文章利用了記錄和用戶索引語句的關系,用聚類的方法將相似的關鍵詞進行分類。在網頁關鍵詞提取方面,文獻[10]利用網頁的社會化標簽(Tag)來提高網頁關鍵詞抽取的質量,提出了TagTextRank方法。該方法通過對目標文檔中的每個Tag引入相關文檔來估計詞項圖的邊權重并計算得到詞項的重要度,最后將不同Tag下的詞項權重計算結果進行融合。語義和自然語言理解方面,大部分考慮了詞語的語法語義、詞語的關聯關系,以及詞的共現關系等。文獻[11]在傳統特征基礎上增加了維基百科和文檔類型的語義特征,利用分類模型進行提取關鍵詞。詞匯鏈為一系列語義相關的詞匯的集合,用于表示將文本中相關的詞構成一個鏈的過程。文獻[12]利用基于知網的詞語語義相關度算法對詞匯鏈的生成算法進行了改進,對關鍵詞進行了標引。
上述文獻中,對關鍵詞研究主要集中在識別特定關鍵詞,以及如何對文檔進行關鍵詞的抽取等方面。但是對于關鍵詞詞庫的建立相關的研究,卻相對較少。
在科研活動中,項目評審或咨詢發揮著不可替代的作用,如何選擇合適的專家及有關專業技術人員將直接影響到相關工作的質量,正確選擇專家對于保證評審結果的公正、準確、合理是至關重要的。對科技項目進行量化分析,其中的一個基礎工作是建立項目關鍵詞詞庫。因此,本文針對科研項目評審的場景,選取電力行業相關數據[13]作為數據源,對關鍵詞詞庫的建立進行研究。
本文主要思路是在詞共現矩陣的基礎上建立項目關鍵詞庫。目前,詞共現矩陣的構造方法主要是計算兩個關鍵詞共同出現在同一個文檔中的次數,即通常意義的詞頻作為矩陣元素的度量,但它們都存在著缺陷。基于詞頻的方法只考慮高頻詞對文檔主題的貢獻,而沒有考慮非高頻詞對文檔主題的貢獻。特別是一些高頻詞,在所有文檔中出現的頻率都非常高,但是它們包含的信息卻非常少。另外, 根據詞項在文中出現的位置不同,詞項被選為關鍵詞的概率也是不同的。如出現在題目和摘要中的詞往往比出現在正文的詞所含信息量更多,被提取為關鍵詞的概率更大。還有詞性的因素,如名詞、形容詞、動詞等成為關鍵詞的概率比介詞、連詞、助詞等大得多。本文在基本詞共現矩陣的基礎上,綜合考慮了關鍵詞在文章中的位置、詞性以及逆向文件頻率IDF的關鍵信息,提出了改進的關鍵詞詞庫建立算法。
本文的主要工作如下:
1)改進傳統的基于詞共現矩陣的關鍵詞提取算法,在語義層面上考慮了詞語出現的位置、詞語的詞性和逆向文件頻率等關鍵信息。
2)利用關鍵詞共現矩陣,計算了關鍵詞的語義關聯網絡,用于發現熱點詞。
3)本文方法對項目數據自動篩選分詞并獲取項目關鍵詞,實現了關鍵詞庫的建立和動態更新。
1 相關工作
1.1 原來未加中間連接符,是否應統一為加連接符的形式應該統一加中間連接符,另外TF前面“”這個符號是否人為添加?后面很多處這種問題,應該去掉。TFIDF統計方法
TFIDF是信息檢索系統最常用的一種統計方法和加權技術,用來評估關鍵詞對于一個文件集或語料庫中一份文件的重要程度。對于不同的問題而言,TFIDF有很多不同的形式[14]。TFIDF基于這樣一種假設:字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。TFIDF分為兩個部分原文是否掉了內容?核實目前添加的內容是否正確這里tf前面也有“”符號,這個不應該添加。
1.2 詞語語義相似度
詞語語義相似度反映的是詞語間的關聯程度,如“閱讀”“書籍”兩個詞,“閱讀”可以作為動詞也可以作為名詞,“書籍”只作為名詞。“閱讀”和“書籍”之間存在語義關聯關系,因此兩者具有語義相似度。計算語義關系的方法分為兩種[3]:基于規則和基于統計的方法。基于規則的方法需要借助于世界知識來計算,根據資源中概念間的語義關系來計算詞匯間的相似度;基于統計的方法常借助于大規模語料的訓練來判斷兩個詞匯的上下文的相似度。本文主要利用統計的方法進行語義相似度的計算。
由于詞匯的相似性由人為判斷而具有較強的主觀性,因此通常先計算詞匯間的語義距離然后再用公式轉化為相似度值。一般而言詞匯間的語義距離是一個大于等于0的實數,數值越大相似度越大;相反,相似度越小。相似度計算方法有很多種,如歐氏距離、曼哈頓距離、夾角余弦等。本文主要利用的是機器學習中應用比較廣泛的夾角余弦[15]。對于兩個文本向量,夾角余弦度量方法通過計算兩者向量空間中的夾角余弦,將兩者相似度映射到坐標上,結果越接近1,表明兩者越相似。夾角余弦的計算方法如下:
1.3 語義基向量
語義基向量是領域關鍵詞語義向量空間的中心值,是領域簇的聚類中心,它和Kmeans等聚類算法中的簇中心類似。對于本文所研究的專業領域來說,語義空間是聚合在一類的,語義基向量是語義空間傾向性的量化。通過計算候選詞向量和語義基向量的相似度,量化候選詞的重要性。
通過計算核心關鍵詞與基準向量之間的相似度作為此核心關鍵詞重要程度的度量。定義基準向量權重的各個屬性的值是所有關鍵詞向量權重向量對應屬性值的平均值[16-17],即:
其中:Wb[k]表示基準權重向量的第k個屬性,wi[k]表示權重向量i第k個屬性的值,n表示權重向量的個數。
1.4 中文詞性和文章結構特征
與英文由空格進行自動分詞不同的是,中文的詞語需要進行專門的分詞,然后對文檔進行分析。進行中文關鍵詞的提取需要特別重視詞語的屬性特征和文章結構特[5]。從詞語屬性特征來說,一般來說,動詞、名詞、形容詞是句子的主干部分,副詞、數詞、代詞等針對本文的應用目的也具有重要的意義,助詞、連詞、代詞、擬聲詞等虛詞只起修飾作用。本文重點考慮名詞、動詞以及形容詞。
在文章結構方面,在特征提取之前先對文本的各個部分的重要程度作區分,無論哪種類型的文本,一般都會有標題。通常標題部分特征信息的含量都比文章其余部分要大,文章的開頭和結尾含有的信息量比正文的其他部分要大。對于本文的電力研究文章來說,分為題目、摘要、關鍵詞以及正文等主要部分。各個部分的重要程度不同,題目和關鍵詞部分相較于其他部分更重要,因此對各個部分賦予不同的權重,對關鍵詞的提取是有幫助的。
1.5 詞項間關聯度
詞共現矩陣是詞共現模型的量化,詞共現模型是基于統計方法的自然語言處理研究領域的重要模型之一。它的基本假設的基礎是:在大規模語料中,如果兩個候選詞經常共現在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關聯的,并且共現的概率越高,其相互關聯越緊密[17]。
2 關鍵詞詞庫和關鍵詞關聯網絡建立算法
建立關鍵詞的初始部分是選取種子關鍵詞,又稱為核心關鍵詞,作為后續算法的種子詞庫。考慮到項目關鍵詞是整個項目中作者人工選取的關鍵詞,具有較好的分辨作用,因此本文選取項目關鍵詞組成種子關鍵詞詞庫。利用種子關鍵詞庫和分詞工具對項目文檔進行分詞獲得待選關鍵詞,然后通過建立關鍵詞共現矩陣,選擇與基向量相似度最高的關鍵詞加入到離線詞庫中。對核心關鍵詞詞庫建立權重的詞共現矩陣,然后計算各個節點之間的相似度,得到關鍵詞關聯網絡。下面將詳細闡述該算法的主要過程:
步驟1 計算關鍵詞基向量Wb。首先對數據進行預處理,對數據庫項目數據進行剔除標點符號、剔除停用詞等無關詞的操作。項目題目和項目關鍵詞是對項目內容以及相關領域的高度概括,因此本文通過對項目數據庫項目題目和項目關鍵詞進行分詞和統計獲得核心關鍵詞。首先對項目關鍵詞進行剔除標點等操作,將項目關鍵詞加入核心關鍵詞詞庫;然后利用中國科學院分詞工具ICTCLAS將項目題目進行分詞,剔除停用詞后,將結果加入核心關鍵詞庫;最終,根據核心關鍵詞詞庫的統計結果建立核心關鍵詞共現矩陣Mc=[核實矩陣內各元素是否黑?各元素是否為向量或矩陣1:元素為列向量,需要加黑。
其中Si, j表示i, j核心關鍵詞之間的相似度。Gs會根據相似度大小確定圖中節點之間邊的權重。之指代什么?之指代矩陣中的“關鍵詞”。可以修改為,“對于矩陣中的關鍵詞,若與之相似的其他關鍵詞越多,同時相似性越高,則該關鍵詞對文檔集的重要程度更高”對于矩陣中的關鍵詞,若與之相似的其他關鍵詞越多,同時相似性越高,則該關鍵詞對文檔集的重要程度更高,如圖1中的是否黑?不黑w1。在圖1關鍵詞語義關聯網絡中,邊的粗細代表節點間的相似度,關鍵詞wi的面積大小代表該關鍵詞對文檔集的重要程度。
其中:m為待選關鍵詞的個數,n為核心關鍵詞的個數,Ci, j為待選關鍵詞i和核心關鍵詞j的共現度。
步驟4 計算待選關鍵詞與基向量的相似度,根據相似度的關鍵詞詞庫。由步驟3計算得到的關鍵詞詞庫Mw=[w1w是否應黑?是否應為一字空間隔?應該為黑。抱歉這里是我的失誤,各元素間應為一字空格間隔,不是逗號間隔。, w2, …, wn]T,利用式(4)計算每個詞wi與關鍵詞基向量Wb的相似度Similarity(wi, Wb),并利用相似度大小進行排序從而得到關鍵詞,存入離線詞庫中。
步驟5 如果項目發生更新,重復步驟為何沒有步驟2。這里沒有問題,步驟2是中間建立關鍵詞網絡的操作,更新詞庫的順序是1,3,4.1、3、4過程,在線更新詞庫。
3 實驗與數據分析
3.1 實驗設置和數據源
為了進一步驗證基于詞共現矩陣獲取關鍵詞庫的有效
性,本文用Java語言仿真了上述算法。本文選取的數據集是電力行業研究項目數據[13],數據存儲在SQL server 2008數據庫中。該數據源一共包含882條數據,每條數據代表一個研究項目。每條數據包含項目名稱(project_name)、內容摘要(content_abstract)、研究現狀(country_study)等多列屬性。其中本文選取的列屬性為項目名稱 (project_name)、內容摘要(content_abstract)、研究現狀(country_study)、項目需求(project_need)、 研究基礎(study_term),其他摘要(profit_abstract)等6列數據。該6列數據對應的權重分別為λk(k=1,2,…,6),經過多次實驗,相關參數設置如表1。對于詞性方面的考慮,由于本文的實驗數據源為電力方面的科技項目,核心關鍵詞主要為名詞,因此本文目前僅對名詞進行提取,相關參數qua=10。然而,本文對詞性方面的加權技術適用于其他類型的文檔,可以根據文檔類型的不同,對不同詞性的待選詞賦予不同權重,根據實驗結果進行優化調整。在此數據源的基礎上進行分詞并建立關鍵詞網絡和關鍵詞詞庫。
3.2 實驗結果
實驗將882條數據分為6個數據量級,并用兩組方法分別對每個數據集進行了關鍵詞提取。首先對步驟2建立的關鍵詞關聯網絡Gs進行分析。利用分析工具Ucinet對獲得關鍵詞關聯網絡進行可視化處理,得到圖2。可以發現,882條項目數據核心詞匯主要集中在“研究”“電網”“結構”“系統”,這與實際項目基本吻合。本文所選電力項目數據中,大部分集中在電力方面的研究,主要討論的是電力系統的結構設計等方面的內容。
在關鍵詞提取的準確性方面,實驗用三種性能評估標準:準確率(precision)、召回率(recall)、和一般是F1measure,是同一概念嗎同一個概念F1score對兩組方法的結果進行測量。由于提取的關鍵詞數量巨大,實驗對結果進行了抽樣測評,隨機抽取100個詞,并對該100個詞進行實驗分析,每次實驗進行10次隨機抽樣。為方便起見,下面的分析中,方法1指代本文提出的方法,方法2為基于多特征融合的中文文本關鍵詞提取方法[18]。對比方法和本文提出的方法都是利用多特征的方式對關鍵詞加權,然而對比方法利用了詞語間的關聯特性進行關鍵詞提取,并沒有考慮詞與詞之間的語義和共現關系。兩者有一定的相同性,同時存在原理上的差異性,因此選取該方法做對比實驗可以比較充分地說明本文方法的正確性。
首先對準確率進行對比實驗,準確率為提取的關鍵詞中被確認為正確關鍵詞的比率:
precision=nhit/n(11)
其中:nhit為正確關鍵詞的個數,即命中個數;n為提取的關鍵詞總數。在實驗中發現本文提出的方法在項目文檔數較少時不夠穩定,如圖3中項目文檔數為300時,本文提出的方法的準確率低于對比實驗。然而隨著文檔數的增加,盡管兩種方法的準確率都在增長,本文提出的方法的準確率較對比算法更高,最終趨于穩定。綜合來看,本文提出的方法在準確率上基本均高于對比方法。
通過上述實驗過程,查看相關數據結果也發現了一些問題,導致準確率和召回率不高的原因主要是高詞頻詞匯,由于出現次數過高被算法提取作為關鍵詞。經過多次實驗發現,“行政”“員工”“所長”“歐洲”等不能有效區分研究領域的詞項大量出現,并被系統提取出作為關鍵詞。利用式(8),考慮逆向文件頻率IDF并不能完全消除過高頻詞匯帶來的影響。
4 結語
關鍵詞詞庫的建立是對科技項目進行量化分析時的一個基礎工作,是對專家專業領域、科技項目進行學科分類和領域分類的關鍵。以往的詞庫構建往往基于大量語料庫并利用傳統的中文分詞程序分詞,由于行業關鍵詞具有很強的專業性,僅僅依賴普通的分詞方法很難準確識別專業術語。本文在傳統的關鍵詞提取的基礎上,提出了基于詞共現矩陣的關鍵詞詞庫建立算法。該算法綜合考慮了關鍵詞在文章中的位置、詞性以及逆向文件頻率(IDF)。實驗表明,在電力系統相關數據資源上,本文方法能有效提取關鍵詞并建立相應的關鍵詞詞庫。同時,在實驗中也發現過高詞頻詞匯會使得關鍵詞詞庫中關鍵詞的準確率下降。通過考慮更多語義上的因素,減小高詞頻詞匯的影響,也是下一步將要研究的重點。
參考文獻:
[1]FANG J,GUO L,WANG X. Semantically improved automatic keyphrase extraction [J]. Computer Science, 2008, 35(6): 148-151. (方俊,郭雷,王曉東.基于語義的關鍵詞提取算法[J].計算機科學,2008,35(6):148-151.)
[2]ZHANG Z. Statistical report on Internet development in China [J]. Computer & Network, 2014(2): 5-5. (張紫. 第33次中國互聯網絡發展狀況統計報告[J]. 計算機與網絡, 2014(2): 5-5.)
[3]WANG L, HUAI X. Semanticbased keyword extraction algorithm for Chinese text [J]. Computer Engineering, 2012, 38(1): 1-4. (王立霞,淮曉永.基于語義的中文文本關鍵詞提取算法[J].計算機工程,2012,38(1):1-4.)
[4]HE Q, HAO HW, YIN XC. Keyword extraction based on multifeature fusion for Chinese Web pages [C]// Proceedings of the 2011 2nd International Congress on Computer Applications and Computational Science. Berlin: Springer, 2012: 119-124.
[5]LI J, LI P, ZHU Q. An improved TFIDF based approach to extract keywords from Web pages [J]. Computer Applications and Software, 2011, 28(5): 25-27. (李靜月,李培峰,朱巧明.一種改進的 TFIDF 網頁關鍵詞提取方法[J].計算機應用與軟件,2011,28(5):25-27.)
[6]YANG C, HAN Y. Fast algorithm of keywords automatic extraction in field [J]. Computer Engineering and Design, 2011, 32(6): 2142-2145. (楊春明,韓永國.快速的領域文檔關鍵詞自動提取算法[J].計算機工程與設計,2011,32(6):2142-2145.)
[7]LU Y, LI R,WEN K, et al. Automatic keyword extraction for scientific literatures using references[C]// Proceedings of the 2014 International Conference on Innovative Design and Manufacturing. Piscataway: IEEE, 2014: 78-81.
[8]CHEN C, LUO P, WANG S. Extraction of keywords with citation information [J]. Library and Information Service, 2014, 58(1): 101-108,116. (陳,羅鵬程,汪十紅.利用引用信息的關鍵詞提取[J].圖書情報工作,2014,58(1):101-108,116.)
[9]PARK N H, JOO K H. Log based keyword extraction and spread based clustering for an efficient information searching [J]// International Journal of Software Engineering and Its Applications, 2013, 7(6):201.
[10]LI P, WANG B, SHI Z, et al. TagTextRank: a webpage keyword extraction method based on tags [J]. Journal of Computer Research and Development, 2012, 49(11): 2344-2351. (,王斌,石志偉,等.TagTextRank:一種基于 Tag 的網頁關鍵詞抽取方法[J].計算機研究與發展,2012,49(11):2344-2351.)
[11]YANG S, ZHANG B, LI S, et al. Keyword extraction using multiple novel features [J]. Journal of Computational Information Systems, 2014, 10(7): 2795-2802.
[12]LI G, DAI Q. Keywords automatic indexing based on lexical chains [J]. Documentation, Information and Knowledge, 2011(3): 67-71. (李綱,戴強斌.基于詞匯鏈的關鍵詞自動標引方法[J].圖書情報知識,2011(3):67-71.)
[13] State Grid Information and Telecommunication Branch. State grid[EB/OL]. [2014-12-01]. http://.cn/.給出對應英文,給出的是首頁是否恰當?不具體,作者指出是保密考慮未給出具體網址(國家電網公司信息通信分公司.國家電網公司[EB/OL].[2014-12-01].http://.cn/.)
[14]AIZAWA A. An informationtheoretic perspective of tfidf measures [J]. Information Processing and Management, 2003, 39(1): 45-65.
[15]DEHAK N, DEHAK R, GLASS J, et al. Cosine similarity scoring without score normalization techniques [EB/OL]. [2014-12-01]. http://groups.csail.mit.edu/sls/publications/2010/Dehak_Odyssey.pdf.
[16]MONGE A, ELKAN C. The field matching problem: algorithms and applications[C]// KDD 1996: Proceedings of the 1996 Knowledge Discovery and Data Mining (International Conference). Menlo Park: AAAI Press, 1996: 267-270.