前言:尋找寫作靈感?中文期刊網用心挑選的大數據技術前沿與熱點研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:文章以WebofScience數據庫為基礎,以2015—2021年大數據領域高被引論文為樣本,運用知識圖譜軟件VOSview-er對樣本中的關鍵詞頻次進行統計,對關鍵詞數據進行手動預處理后生成科學知識圖譜,然后從研究熱點、研究前沿以及演進路徑對大數據技術進行量化和聚類分析。結果表明,大數據技術前沿有三個研究方向,分別是大數據開發與挖掘技術、大數據分析與管理技術、大數據運維與云計算技術。數字化、智能化、網絡化是大數據技術的未來發展方向,大數據運維與云計算是大數據技術的研究前沿,數據安全是大數據技術的未來研究熱點。隨著人們對大數據技術研究的不斷深入,大數據理論體系和大數據治理體系會更加完善和成熟,人類將進入信息技術引領下的萬物互聯新時代。
關鍵詞:大數據技術;VOSviewer;熱點研究;高被引論文;數據安全
引言
大數據這一科技術語并不是近幾年才出現的。2008年9月,Nature雜志推出Bigdata:ThenextGoogle專刊,討論大數據技術用于處理未來可能會遇到的問題,其中便首次使用了“大數據”的說法[1]。而首次提出大數據的定義是在2011年,麥肯錫全球研究院(MGI)在其發布的《大數據:創新、競爭和生產力的下一個前沿領域》(Bigdata,Thenextfrontierforinnovation,competition,andpro-ductivity)研究報告中清晰表述:大數據是指其大小超出了常規數據庫工具獲取、儲存、管理和分析能力的數據集[2]。隨著信息和通信技術的發展,大數據不再只是一個概念,而是逐漸融入人們生產和生活的方方面面,社會呈現出萬物互聯的趨勢。大數據技術的繁榮與各個國家的政策和經濟投入密切相關。2020年3月,數據首次被納入生產要素范圍,成為繼土地、勞動力、資本和技術之外的第五大生產要素[3]。數字技術發展到今天,計算機算法越來越復雜、穩定和科學,數據的產生、傳輸和處理的方式也發生了翻天覆地的變化,深刻地影響著人們的生活方式。大數據的基礎技術是基于云計算對數據進行存儲、管理、挖掘和分析,核心技術包括數據采集、機器學習、數據預處理、數據庫等。大數據技術意味著數字化進程的新階段,驅動人類社會發展,推動社會生產格局的調整。《2021年IDC全球大數據支出指南V1》(IDCWorldwideBigDataandAna-lyticsSpendingGuide,2021V1)[4]中,對全球大數據市場的未來發展做出推斷,稱到2025年IT投資規模將得到巨幅增長,數額將超過3500億美元,其復合增長率(CAGR)也將達到12.8%左右。IDC中國新興科技研究組分析師王麗萌認為,隨著互聯網經濟的升級和加速發展,政府、企業等終端用戶正在廣泛開展數字化轉型,完善數據全生命周期管理,運用大數據分析和解決方案提升管理決策水平、改善內外部用戶體驗、支持創新應用,中國大數據市場支出將在五年內穩定增長。政府、企業對大數據技術投之以更多的關注。信息和數據規模增長,人們的思維方式也受到大數據技術的影響發生改變,學界也涌現出大量大數據領域的相關研究。隨著國內外研究深度和廣度的不斷延伸,形成了復雜的研究網絡,這些龐雜的文獻數據信息亟需梳理和總結。知識圖譜法和文獻計量分析方法中的共詞共現法是分析學術領域研究態勢的基本方法,科技術語和高被引論文可以在一定程度上代表學科領域的研究內容,顯示出該學科領域的學者對某一方向的重視程度和研究傾向。因此,本文以VOSviewer可視化軟件為工具,以WebofScience核心合集檢索到的大數據領域的高被引論文為數據源,構建關于大數據領域的科技術語知識圖譜,然后對該領域的前沿和熱點進行挖掘、分析和解讀。
1數據準備
1.1數據收集
研究數據來源于2015—2021年WebofSci-ence核心合集中大數據領域的文獻,通過主題字段檢索,檢索標題、摘要、作者關鍵詞和KeywordsPlus,以“bigdatatechnology”作為主題詞,截止到2022年4月9日,共檢索出8944篇文獻,為了使數據分析的結果更有意義,對這些文獻進行清洗,過濾掉信函、會議摘要、綜述論文、被撤回論文等無效文獻,最終以7169篇文獻為樣本。然后根據被引頻次從高到低進行排序,選取出前1000篇高被引論文。最后將這些文獻數據信息以純文本文件的格式導出,作為本文的數據源。
1.2研究方法
主要采用文獻計量分析方法和知識圖譜法,以WebofScience核心合集中的論文為研究對象,以大數據技術為主要研究領域,時間跨度為2015—2021年,借助科學知識圖譜軟件VOSviewer對從WebofScience導出的文獻數據信息進行Authorkeywords和Keywordsplus共現可視化,從而確定大數據技術的研究熱點,構建關鍵詞共現矩陣,并通過呈現出的聚類譜系圖、標簽視圖、密度視圖進行聚類分析,以便直觀和動態地揭示大數據技術的知識結構和演化路徑,從而實現對2015—2021年大數據技術文獻的前沿和熱點研究。
1.3數據預處理
將1000篇高被引論文作為源數據導入VOS-viewer軟件,共析出5130個關鍵詞,關鍵詞的選取規則為:共現次數達到5次及以上,共得到252個關鍵詞。但是軟件自動合并出的結果中存在一些未達到共現分析要求的無效關鍵詞以及重復關鍵詞,需要進行手動篩選。在新建txt文檔中加入如下關鍵詞處理規則:(1)去除語義過于籠統、意義過于寬泛以及無意義的詞,如bigdata、things和0等;(2)統一單詞單復數,如network與networks,model與models;(3)合并同義詞,如:network與In-ternet,industry4與industry4.0。最終得到174個符合共現要求的關鍵詞。
2大數據領域論文計量分析
2.1年度發文數量分析
WebofScience核心合集2015—2021年共發表了23540篇大數據相關論文,圖1是2015—2021年該領域所發表的相關研究的逐年趨勢。可以看出,近幾年大數據相關研究文獻的發表數量呈現出逐年穩定上升的趨勢,學界對大數據技術的研究在7年間從每年331篇上升到2075篇。大數據相關研究論文近年來的持續增長,究其原因,主要在于大數據技術進入各行各業,從而導致全社會出現了對大數據技術的應用需求。從國家層面講,大數據技術已經成為國家建設數字強國的強大驅動力;從企業層面而言,大數據技術在生產、傳播和反饋信息方面具有突出作用;在科研領域,大量學科領域均有基于大數據技術的應用研究。除此之外,也離不開人們對數據本身的采集、管理、處理、分析等技術需求。社會生產活動需要用到大數據技術以及大數據的思維方式,因此,對大數據技術的需求與日俱增。大數據技術產生自數據庫,集大成于分布式系統,現在又重新落地于數據庫系統。近年來,人們不斷追求和改進現有的技術,推動了對大數據技術的研究。如今新型分布式關系數據庫技術和以分布式計算為特征的云計算技術將我們帶入人工智能和信息化社會,大數據技術的相關研究仍在繼續,在大數據領域相關研究文獻數量逐年上升的大趨勢和分布式計算的技術背景下,未來幾年對數據庫和云計算的研究將持續增長。
2.2高被引論文分析
高被引論文之所以被多次引用,一方面在于其研究具有一定的代表性,學者們普遍認可論文成果在學術領域的貢獻;另一方面也和論文關注的領域發展較快有關。因此,高被引論文可以在很大程度代表人們對某一問題研究的重視程度和研究傾向。表1列出了2015—2021年WebofScience核心合集中大數據領域排名前10的高被引論文。可以看出,大數據領域的三個主要研究方向為大數據挖掘、大數據運維、云計算。2021年我國圍繞大數據技術的資金投入繼續增加,大數據技術在實踐落地的過程中也存在風險和挑戰,在數據的運營和維護過程中,如何有效地管理和應用大數據技術,以及在大數據的價值轉化過程中切實保障用戶數據信息的安全,也是大數據領域需要研究和解決的問題。
3大數據領域高被引論文聚類分析
3.1基于聚類譜系圖的關鍵詞共現分析
VOSviewer可以對文獻知識單元進行關系構建,對數據信息進行可視化分析,從而繪制出可以展現某一領域的知識結構、演進和前沿熱點的知識圖譜,實現對關鍵詞共現的聚類分析。將上述2015—2021年大數據領域高被引論文的174個關鍵詞導出到txt文檔,接著在Excel文檔中整理這些關鍵詞數據,依照出現頻次重新排序,選取前20個高頻關鍵詞,得到大數據領域高被引論文關鍵詞頻次表(見表2)。VOSviewer軟件可以生成聚類譜系圖,將經過數據預處理的174個符合共現分析要求的關鍵詞導入軟件,設置聚類規則為最小聚類中包含的關鍵詞不少于25個,通過統計和梳理大數據領域的高被引論文中各個關鍵詞出現的頻次,以及各個關鍵詞之間的關聯程度,以展現大數據領域的研究熱點和結構分布。圖2是VOSviewer對樣本數據分析生成的關鍵詞聚類譜系圖,圖中的結點表示在大數據領域高被引論文中共現的關鍵詞,結點的大小表示該詞共現的頻次高低,結點越大,體現出其研究熱度越高。圖譜中有174個標簽,3017條連接線,總體關聯強度為6567。可以看出,2020—2021年間,大數據領域的研究形成了3個聚類,分別圍繞“大數據。開發與挖掘”(紅色)、“大數據分析與管理”(藍色)、“大數據運維與云計算”(綠色)這三個技術方向進行研究。聚類一:大數據的開發與挖掘這個類簇包含73個關鍵詞,其中系統(sys-tem)、框架(framework)、計算機應用(applications)、算法(algorithm)、模型(model)、機器學習(machinelearning)、人工神經網絡(artificialneuralnetworks)這些詞的結點最大,是這個聚類的中心結點。而分布式計算系統(MapReduce)、數據融合(datafu-sion)、智慧農業(smartfarming)、數字醫療保健事業(digitalhealth)、智能電網(smartgrid)、清潔生產(cleanerproduction)、碳排放(CO2emissions)等詞,在該聚類的網絡邊緣。從圖2還可以看出,系統一詞的結點最大,可見對于系統的開發是大數據領域的一個研究熱點。大數據挖掘技術通過建模和構造相關算法便于人們在海量數據中獲取信息。其中,算法是由基本運算和規定運算順序構成的運算規則和步驟[5]。機器學習是對計算機模擬人類神經網絡和學習行為的研究,計算機可以根據算法智能地進行大數據挖掘與分析,從而構建、豐富和完善自身知識網絡結構,并通過建立數據模型,實現對同類型數據的預測分析。深度學習是一種含多隱層的多層感知器,起源于機器學習,卷積神經網絡屬于深度學習的范疇[6]。而機器學習屬于人工智能的范疇,是人工智能的一個研究分支。在大數據時代,憑借大規模的數據信息,通過構建數據模型,不斷改善人工智能對數據預測的準確性,研究更加科學合理的數據挖掘算法,實現對人類神經網絡的模擬,構造大數據網絡體系,從而獲取信息。隨著在采集、挖掘過程中的數據沉淀和積累,融合了數據庫技術、人工智能和機器學習的大數據挖掘技術也不斷得到優化。近年來,人們越來越重視大數據技術和以大數據技術為支撐的人工智能技術。根據調查,11.1%的企業對大數據技術和人工智能技術的累計投資超過5億美元,有84.1%的企業在大數據技術和人工智能方面已開展工作[7]。可以預見,這樣的趨勢在未來仍將繼續。大數據技術的應用包括多個領域,如在農業、醫療保健事業和電網技術等方面的應用,此外,還可以看到,在大數據開發、大數據挖掘這兩個技術方向的理論研究到技術落地的應用研究過程中,對大數據技術的清潔生產和碳排放也很關注。從大數據、大環保到大治理,大數據技術在環境管理和決策過程中發揮了越來越重要的作用。聚類二:大數據分析與管理這個類簇包含49個關鍵詞,有大數據分析(bigdataanalysis)、工業4.0(industry4.0)、服務(service)、信息系統(informationsystems)、持續性(sustainability)、創新(innovation)、供應鏈管理(supplychainmanagement)等結點較大的詞,還有專業化生產系統(manufacturingsystems)、數據科學(datascience)、情感分析(sentimentanalysis)、業務分析(businessanalytics)、競爭優勢(competitivead-vantage)、用戶認可(useracceptance)等結點較小的詞。大數據分析和管理技術與工業4.0的時代背景密切相關。工業4.0時代具有智能化、個性化、虛擬與現實相融合的特征[8]。人們的需求通過在網絡留下的數據信息表現出來,通過大數據整合分析,可以實現產品生產和分發的定制化。社會生產朝著個性化定制、服務性產品和數據要素驅動產業新業態和新模式創新的方向前進和發展,企業在工業4.0時代需要應用大數據分析和管理技術,繪制目標群體的用戶畫像,通過對數據加工、系統分析,實現從大數據到具體信息又到服務的轉化,進而做出科學決策,獲得企業在自己產業領域的競爭優勢。此外,還有對大數據技術的績效評估和數據管理。信息數據的生產沒有盡頭,但是并非所有的數據都具有信息價值,也并非所有的數據都可以實現信息到服務的價值轉換,如何對數據進行科學和可持續的管理以及對未來的發展趨勢進行預測,在工業4.0時代受到廣泛關注。聚類三:大數據運維與云計算這個類簇包含52個關鍵詞,其中,互聯網(in-ternet)、云計算(cloudcomputing)、物聯網(iot)、安全(security)、架構(architecture)、區塊鏈技術(blockchaintechnology)、信息與通信技術(ict)是該聚類的中心結點。此外,處于網絡邊緣的結點主要有:數據共享(datasharing)、數據隱私(datapriva-cy)、邊緣計算(edgecomputing)、霧計算(fogcom-puting)、云(cloud)、智慧城市(smartcity)等。信息網絡系統與物理網絡信息系統進行融合,出現物聯網、工業物聯網等新興概念。社交媒體每天都制造大量的數據信息。《我們究竟產生了多少數據?》一文曾預測,到2055年全世界將產生高達175ZB的數據[9]。分布式計算使企業可以更加方便快捷地處理社交媒體上規模巨大的數據信息,通過大數據應用程序對數據進行挖掘和分析,從而繪制用戶畫像,提供個性化的服務和服務性產品。在碎片化信息時代,數據也是碎片式的,如何面對這些碎片式的數據構建數據模型是大數據技術發展應用的一個挑戰,并且在構建數據模型的過程中,數據源并非全部真實可靠,有些信息涉及個人隱私或國家機密,難以獲取完整的數據信息,因此數據質量難以保證。此外,互聯網帶來了數據的流動共享,人們在互聯網中的所有行為都會留下數據信息印記,而數據信息的傳播不再受限于空間和時間,可以大量無成本擴散,對數據的隱私保護與安全帶來巨大挑戰。同時,數據的流動共享還帶來數據泄露的風險,無論從個人數據權利出發還是從國家數據利益出發,都需要對數據流動共享給予一定的限制。構建大數據監控報警體系,可以保證數據的可靠與安全。人們的生活與互聯網的關聯程度比以往更加緊密,例如以數字化為特征的智慧城市建設,實現數據信息安全是建設智慧城市的重要內容和評價標準之一。根據美國國家標準技術研究院的統計,云計算涉及的安全問題主要在虛擬機隔離、數據保護、云計算體系結構、身份訪問與控制等多個方面[10]。云計算是以分布式計算為特征的技術,通過云計算,各種數據和信息可以從一臺計算機提供給另一臺計算機。在云計算環境中,虛擬的操作系統建立在服務器上,數據信息都儲存在服務器中,比如用戶上傳的身份認證信息。數據信息一旦被上傳到云中,用戶便不再擁有對數據的控制權,一旦服務器遭到入侵,用戶數據就會被盜取,從而造成數據泄露。此外,區塊鏈技術與比特幣密切相關,通過對數據的層層處理改變數據存儲形式,將區塊鏈技術應用到數據隱私保護與安全,數據在網絡中的流動將會更有保障。
3.2基于標簽視圖的關鍵詞演化分析
使用VOSviewer軟件對2020—2021年大數據領域關鍵詞進行演化分析,生成關鍵詞標簽視圖(圖3)。視圖中結點的顏色表示關鍵詞出現的平均年份,結點的大小表示關鍵詞共現頻次的高低。從2015年到2021年顏色逐漸由藍到黃,從中可以看出大數據領域研究熱點的演變。近幾年大數據研究的關鍵詞大多集中出現在2018年,有較高共現頻次的關鍵詞集中分布在2017—2018年。2015—2016年有關大數據的論文發表數量較少。由于大數據技術發展極快,相關的研究論文越來越多,到2021年大數據相關研究的論文數量從每年331篇增長至2075篇,出現的高共現頻次的關鍵詞有:系統(system)、挑戰(challen-ges)、大數據分析(bigdataanalysis)、物聯網(iot)、云計算(cloudcomputing)、工業4.0(industry4.0)、框架(framework)、模型(model)、算法(algorithm)、機器學習(machinelearning)、隱私(privacy)、區塊鏈技術(blockchaintechnology)。可以看出,大數據分析、數據管理、數據模型、云計算的研究熱度比較高,是大數據領域的研究熱點。此外,2019—2021年間出現了邊緣計算(edgecomputing)、安全(security)、數據隱私(dataprivacy)、企業績效(firmperformance)、數字雙胞胎(digitaltwin)、工業4.0(industry4.0)、人工智能(artificialintelligence)、區塊鏈技術(block-chaintechnology)、循環經濟(circulareconomy)等關鍵詞,對大數據技術的研究更加深入,理論研究的廣度和深度進一步提高,從對單一技術到技術群,再到“技術+管理”“技術+運維”,可以看出,數據安全與隱私保護方面的技術受到重視,相關技術的研究是近年來的新興熱點。
3.3基于密度視圖的熱力分析
關鍵詞密度視圖可以對相關領域的研究重點予以可視化。通過對2020—2021年大數據領域關鍵詞密度視圖進行熱力分析,可以了解大數據領域的研究現狀。如圖4中,可以看出大數據分析(bigdataanalytics)、系統(system)、機器學習(machinelearning)、挑戰(challenge)、物聯網(iot)、工業4.0(industry4.0)、云計算(cloudcomputing)這些詞的密度最高,可見大數據的開發、挖掘、分析、管理、運維與云計算這幾個技術方向的研究最受學者關注。
4結語
對科技術語和高被引論文進行統計分析并加以解讀,能夠了解學科領域的研究前沿和熱點。借助計量分析法以及科學知識圖譜分析,通過知識圖譜軟件VOSviewer對大數據領域2015—2021年高被引論文中的關鍵詞進行可視化呈現,并對其進行共現分析解讀,最終得出如下結論:(1)近年來大數據領域的研究熱點主要集中在三個方向。一是大數據開發與挖掘。如大數據處理系統、應用程序、建模、算法以及與大數據相關的數據庫技術、人工智能與機器學習;二是大數據分析與管理。大數據并不是簡單的建模、算法,也不只是對數據的挖掘整理,而是通過系統分析將數據轉化為信息,為國家、企業和個人做出科學決策提供依據;三是大數據運維和云計算技術。大數據是海量的,人們接收的數據信息與日俱增,與此同時每個人又都是大數據生產的參與者,人們的生活與大數據的聯系更加緊密,機構與個人數據的隱私與安全越來越得到重視。(2)大數據技術研究在推進數字化社會的進程中起到重要作用。大數據開發與挖掘、大數據分析與管理、大數據運維與云計算在數字化社會的建設進程中必不可少。大數據開發與挖掘的研究能夠推動機器學習更加完善,促進構建智能化知識網絡,推動人工智能的發展;對云計算技術和區塊鏈技術的研究能夠為數據安全提供保障,推動智慧城市的建設。(3)數字化、智能化、網絡化是大數據技術的未來發展方向,數據安全是大數據領域未來的研究熱點。從2015—2021年大數據領域高被引論文關鍵詞的演化分析也可以看到,近年來,尤其是2019—2021年,隨著對數字技術研究的深入,學者對循環經濟和數字安全更加重視,在數字化、智能化和網絡化的時代背景下,數據技術也朝數字化、智能化和網絡化的方向發展,數字安全是智慧城市的評價標準,也是數字化社會的評價標準。數字安全將成為未來大數據領域的重要研究方向之一,相關的區塊鏈技術將成為研究熱點。
作者:孫晨霞 施羽暇 單位:北京印刷學院新聞與出版學院 中國信息通信研究院政策與經濟研究所數字經濟研究部