国产一区二区三精品久久久无广告,中文无码伦av中文字幕,久久99久久99精品免视看看,亚洲a∨无码精品色午夜

網(wǎng)絡輿情的采集獲取和處理

前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的網(wǎng)絡輿情的采集獲取和處理,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。

網(wǎng)絡輿情的采集獲取和處理

 

1我國網(wǎng)絡輿情發(fā)展現(xiàn)狀及分析   據(jù)第29次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計顯示:截至2011年12月底,中國網(wǎng)民規(guī)模突破5億,達到5.13億,全年新增網(wǎng)民5580萬。   互聯(lián)網(wǎng)普及率較上年底提升4個百分點,達到38.3%。中國手機網(wǎng)民規(guī)模達到3.56億,占整體網(wǎng)民比例為69.3%,較上年底增長5285萬人。家庭電腦上網(wǎng)寬帶網(wǎng)民規(guī)模為3.92億,占家庭電腦上網(wǎng)網(wǎng)民比例為98.9%。農(nóng)村網(wǎng)民規(guī)模為1.36億,比2010年增加1113萬,占整體網(wǎng)民比例為26.5%。2011年,網(wǎng)民平均每周上網(wǎng)時長為18.7個小時,較2010年同期增加0.4小時。2011年中國網(wǎng)民即時通信使用率上升較快,增至80.9%。同時,許多傳統(tǒng)交流溝通類應用的用戶規(guī)模出現(xiàn)萎縮:電子郵件使用率從2010年的54.6%降至47.9%,用戶量減少392萬人;論壇/BBS使用率則由32.4%降至28.2%,用戶量也略有減少。隨著網(wǎng)絡的應用普及,網(wǎng)絡輿情反映已經(jīng)逐漸取代了傳統(tǒng)的輿情交互途徑,成為了社會大眾對現(xiàn)實社會的真實情感反映。在當前我國經(jīng)濟快速發(fā)展,社會轉(zhuǎn)型的關鍵時期,隨著經(jīng)濟社會文化的發(fā)展,社會利益關系更趨多樣化、復雜化,人們的思想意識也更加多元化、獨立化,往往一些問題一經(jīng)網(wǎng)絡討論傳播,就會立即引起廣大網(wǎng)民的關注,繼而形成網(wǎng)絡輿情熱點,并引起網(wǎng)民強烈的反響和激烈的討論。   2網(wǎng)絡內(nèi)容控制的技術方向   近年來,國際上開發(fā)的網(wǎng)絡輿情監(jiān)控產(chǎn)品種類繁多,最為常見的是以內(nèi)容分級和過濾為技術方向的產(chǎn)品,其作用類似“電子保安”。麻省理工學院所屬W3C(WorldWideWebConsortium)推動了PICS(PlatformforInternetContentSelection)技術標準協(xié)議,完整定義了網(wǎng)絡分級的檢索方式。以PICS為核心的RSAC研發(fā),例如RSACI(RSAContheInternet)分級系統(tǒng),以網(wǎng)頁內(nèi)容中呈現(xiàn)出性(Sex)、暴力(Violence)、不雅言論(Language)或裸體(Nudity)表現(xiàn)程度等四個維度進行相應管控。作為美國過濾軟件的代表CyberPatrol,用戶可以對其中監(jiān)控對象的名單等內(nèi)容進行修改。政府部門通常也訂立阻止用戶訪問的“互聯(lián)網(wǎng)網(wǎng)址清單”,以實現(xiàn)不良信息的過濾和篩選。   目前,我國參照國際上網(wǎng)絡內(nèi)容控制服務和軟件,形成了以下幾個網(wǎng)絡內(nèi)容管控的技術方向:   1)過濾/屏蔽技術:(1)使用統(tǒng)一資源定位器(URL)列表的服務器端過濾;(2)使用URL列表的客戶端過濾;(3)使用文本內(nèi)容分析的過濾(包括服務器端和客戶端)。2)標識和分級系統(tǒng):(1)第一方標識/分級;(2)第三方標識/分級;(3)互聯(lián)網(wǎng)內(nèi)容選擇平臺(PICS),該平臺結(jié)合了第三方分級和用戶自行分級兩種方式。3)年齡認證系統(tǒng):(1)基于信用卡的年齡認證系統(tǒng);(2)基于獨立發(fā)出的ID(Identification)的年齡認證系統(tǒng)。4)新型頂級域名(TLD)/分區(qū):(1)為對未成年人有害的內(nèi)容建立的新型TLD,如.xxx或.adult,表示定位于該域名的網(wǎng)頁上的內(nèi)容(以及來自于該域名的電子郵件)是對未成年人有害的內(nèi)容;(2)為無害于未成年人的內(nèi)容建立新型TLD,如kids等,表示定位于該域名網(wǎng)頁上的內(nèi)容(以及來自于該域名的電子郵件)一般被視為適合所有未成年人。這兩項技術雖具可行性,但目前尚未投入使用。作為一種替代性辦法,可以建立一種新的次級域名(如.us.kids),這種域名不需要ICANN對現(xiàn)有頂級域名系統(tǒng)做出調(diào)整(;3)通過分配一套新的IP地址(新的IP協(xié)議——IPv6,尚未廣泛應用)建立網(wǎng)上“安全區(qū)”,任何在該IP地址范圍內(nèi)的內(nèi)容可視為“安全區(qū)域”或“灰色區(qū)域”內(nèi)容,屬于無害信息或既無益也無害于未成年人的信息。5)監(jiān)控技術:(1)監(jiān)督和限時技術;(2)實時內(nèi)容監(jiān)督/屏蔽方法,可用于不適用過濾技術的網(wǎng)絡傳播領域。6)安全空間(Greenspaces):這是一種封閉系統(tǒng),只允許訪問系統(tǒng)管理員選定的內(nèi)容,不能訪問系統(tǒng)之外的網(wǎng)站。相關的網(wǎng)絡輿情監(jiān)管部門及行業(yè)自律組織應該在考慮公民隱私權(quán)、網(wǎng)絡言論自由、維護網(wǎng)絡秩序等合理因素的基礎上,在按比例、遵循相關法律法規(guī)的前提下考慮采取一種或幾種技術,審核用戶的真實注冊信息、言論內(nèi)容的合法性以確保對網(wǎng)絡輿情的合理有序監(jiān)管。   3網(wǎng)絡輿情采集獲取技術   3.1網(wǎng)站定向采集   網(wǎng)站定向采集是實時發(fā)現(xiàn)互聯(lián)網(wǎng)上新出現(xiàn)的信息是否包含用戶關注的信息,通過周期性地發(fā)送HTTP請求,模擬用戶網(wǎng)頁瀏覽行為,掃描相關網(wǎng)站URL列表,以實現(xiàn)對關注站點的實時采集,通過鏈接簽名技術和鏈接比對分析技術來判斷所關注的網(wǎng)頁是否已進行了信息更新,對出現(xiàn)更新的頁面重新下載并存入頁面信息庫,若無更新,則設定周期進行下一輪的掃描過程。   通過頁面內(nèi)容分析技術對下載到的更新頁面信息進行分析和處理,若該信息符合信息報警提示的條件,則進行報警提示處理。   采集周期和采集URL列表可以由用戶自行設定,周期越短,掃描頻率越高,對于信息的更新就越快,實時性更強。   3.2網(wǎng)絡垂直搜索   網(wǎng)絡垂直搜索可以實現(xiàn)從網(wǎng)絡上自動收集與監(jiān)控專業(yè)領域相關的Web網(wǎng)頁數(shù)據(jù)。同時,網(wǎng)絡垂直搜索能夠更高效地收集相關信息,也能對這些信息的更新做出更及時的響應。   垂直搜索引擎僅專注于某一領域和主題,并能夠?qū)υ摼W(wǎng)頁的主題相關度進行準確預測,優(yōu)先下載相關度高的網(wǎng)頁,從而提高“收獲比”和網(wǎng)絡帶寬利用效率。并且,可以通過聚焦爬蟲和監(jiān)控技術,建立一個大型的網(wǎng)絡信息監(jiān)控系統(tǒng),包括對官方媒體新聞的Web站點上的新聞和代表大眾民意的博客文章及在線論壇的監(jiān)控,實現(xiàn)自動化的收集、存儲、整合和處理流程,包括數(shù)據(jù)的即時可視化處理,這些均可以為開源信息數(shù)據(jù)的處理提供豐富的數(shù)據(jù)平臺。   3.3網(wǎng)絡聚焦爬蟲   網(wǎng)絡聚焦爬蟲是實現(xiàn)全網(wǎng)數(shù)據(jù)自動采集的主要工具之一,主要負責從互聯(lián)網(wǎng)上爬取和下載與主題相關的網(wǎng)絡資源。筆者建議在原有普通爬蟲基礎上,對其功能進行擴充,能夠及時、有效地抓取與主題相關的網(wǎng)絡資源。聚焦爬蟲從組成上可分為領域相關初始URL種子集、頁面抓取模塊、主題相關性分析模塊以及URL與頁面下載模塊等。#p#分頁標題#e#   領域相關初始URL種子集用于生成面向特定主題的較好的種子站點,使爬行模塊在初始工作階段保證良好的主題相關性,以提高爬取相關頁面的命中率,一般可以通過采用元搜索引擎搜索出主題相關網(wǎng)頁,從中選取質(zhì)量較高的一組種子URL。   頁面抓取模塊主要抓取頁面內(nèi)容,并通過對頁面鏈接抽取,將抽取的鏈接集放入緩存中,用于下一階段的URL去重和主題相關度分析。   主題相關性分析模塊是聚焦爬蟲的核心模塊,該模塊的實現(xiàn)是根據(jù)主題相關性的判別結(jié)果決定頁面的取舍,一般由內(nèi)容相關性分析和鏈接分析組成,通過相關性計算,分析待下載網(wǎng)頁是否符合關注的主題。   URL與頁面下載模塊是基于主題相關性分析的模塊,對符合主題的鏈接進行,若符合下載的條件,則將頁面下載到頁面信息庫中。   3.4需求配置采集   根據(jù)實際需求,可以設計靈活配置的WebRobot搜索策略,應用面向?qū)ο蟮姆治龇椒ǎ瑢obot的核心工作任務抽象分成兩類:一類為遍歷工作,其根據(jù)指定的超鏈接,通過協(xié)議獲取其頁面信息;另一類為解析工作,其根據(jù)遍歷所得到的Web頁面信息,解析其中包含的超鏈接并以此鏈接作為起點實現(xiàn)遞歸遍歷工作。為了靈活控制Robot的行為,需要設計適宜的規(guī)則擴充系統(tǒng),并在任務執(zhí)行之前根據(jù)用戶指定的規(guī)則做出是否執(zhí)行Robot各項任務的判斷。筆者建議可配置的Robot系統(tǒng)的總體架構(gòu)設計為三層:用戶服務提供接口層(SPI,ServiceProviderInterface)、應用程序接口層(API,ApplicationProgrammingInterface)及核心工作層(Core)。整體框架如圖2所示。   通過實現(xiàn)服務提供接口層中的規(guī)則和插件接口,可以靈活地擴充控制Robot工作的行為規(guī)則和事件處理機制。同時,系統(tǒng)的核心部分的驅(qū)動來自于可方便定義的配置文件,從而實現(xiàn)整個Robot工作系統(tǒng)的靈活配置。   3.5深度網(wǎng)、動態(tài)網(wǎng)采集   深度網(wǎng)、動態(tài)網(wǎng)的特征是在于其頁面的隱蔽性,一般需要用戶提交數(shù)據(jù)請求的表單才能獲得返回的結(jié)果。筆者建議可以通過模擬填寫表單和取回所有返回結(jié)果頁面的過程來實現(xiàn)隱藏Web數(shù)據(jù)抓取。其工作過程可分為三步:1)分析頁面,尋找表單:深度網(wǎng)爬蟲從站點主頁開始爬行表單頁面,這個過程使用一組啟發(fā)式規(guī)則來去除非研究表單;2)學習填寫表單:爬蟲從表單中抽取標簽,配合領域規(guī)則知識庫,盡力學習如何正確地填寫表單;3)識別和取回結(jié)果頁面:爬蟲提交表單,然后取回結(jié)果頁面識別記錄。4輿情處理技術由于網(wǎng)絡輿情數(shù)據(jù)的海量性,不同網(wǎng)頁數(shù)據(jù)重復不可避免,必須采用有效的方式減少網(wǎng)頁重復情況,同時采用更精準的方式采集到更多的網(wǎng)頁數(shù)據(jù)信息。筆者建議采用異構(gòu)網(wǎng)頁信息抽取、網(wǎng)頁、關聯(lián)分析技術及跨媒體數(shù)據(jù)搜索等方式進行解決。   4.1異構(gòu)網(wǎng)頁信息抽取   異構(gòu)網(wǎng)頁信息抽取實現(xiàn)對異構(gòu)網(wǎng)頁的正文、標題、日期等信息的抽取,將抓取得到半結(jié)構(gòu)化HTML頁面數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化的信息輸出。異構(gòu)網(wǎng)頁信息抽取的過程可分兩步:1)分析網(wǎng)頁來源與網(wǎng)頁結(jié)構(gòu)等屬性,如能直接得出輸入網(wǎng)頁的類型,則直接調(diào)用對應包裝器實施正文信息抽取;若非指定類型網(wǎng)頁,則根據(jù)網(wǎng)頁屬性分析結(jié)果尋找可用的包裝器和信息抽取器,分別計算抽取結(jié)果;2)分析結(jié)果間差異性,進行格式對齊與數(shù)據(jù)集成,實現(xiàn)抽取結(jié)果的集成,獲得最終結(jié)果。   4.2網(wǎng)頁減冗   網(wǎng)頁是在采集到的海量網(wǎng)頁信息中自動檢測出內(nèi)容重復的頁面信息,以節(jié)約存儲資源、提高索引效率和搜索返回的結(jié)果質(zhì)量、排除因存在大量重復數(shù)據(jù)對情報分析的影響。現(xiàn)有的算法例如I-Match,DSC(DigitalSyntacticClustering)等大都不適合用于大規(guī)模文檔實時的要求。由于特征數(shù)目不容易決定基于TF-IDF進行的算法,運行的時候效率也不是很高。項目團隊成員在實踐中不斷探索和實驗,提出了一種改進的基于內(nèi)容的快速網(wǎng)頁算法。該算法既利用了基于標點符號的特征串算法的高效率,又將TF-IDF穩(wěn)定的優(yōu)點融入其中,以TF-IDF中TF的大小來決定該詞是否被選為特征,并且將被選中特征加入特征串中參與比較,在文檔數(shù)目龐大且文檔特征比對計算次數(shù)較多時,可以通過預先存放文檔特征庫的方式來提高海量文檔的比對速度。   4.3信息抽取與關聯(lián)分析技術   對于信息的抽取與關聯(lián)分析可以通過對主題搜索而獲得主題或?qū)I(yè)相關的網(wǎng)頁后,分析網(wǎng)頁結(jié)構(gòu)與內(nèi)容并提取專業(yè)信息。Web頁面文本信息往往是半結(jié)構(gòu)化的,也夾雜著結(jié)構(gòu)化和自由文本,同時又表現(xiàn)出動態(tài)性的特點。例如,有些網(wǎng)頁來自一些專業(yè)網(wǎng)站,大量的數(shù)據(jù)保存在這些網(wǎng)站的數(shù)據(jù)庫中,可以通過動態(tài)網(wǎng)頁組織呈現(xiàn)給用戶,這些數(shù)據(jù)往往體現(xiàn)出較強的結(jié)構(gòu)化特征。如何獲取這些信息的關鍵就在于分析獲得這些網(wǎng)站組織數(shù)據(jù)內(nèi)容的格式,并基于這些格式規(guī)則來抽取網(wǎng)頁中所需信息。   同時,可以針對公共安全領域中需要對網(wǎng)頁情報內(nèi)容中的時間、地點、人員、事件等命名實體進行識別和抽取,處理各語言實體之間的對應,實現(xiàn)多語言信息的關聯(lián)和整合。   4.4跨媒體數(shù)據(jù)的搜索技術   由于跨媒體數(shù)據(jù)的多樣性、復雜性、巨大性、分散性和不確定性等特點,為實現(xiàn)跨媒體搜索平臺中的海量跨媒體數(shù)據(jù)處理,筆者提出一種適合海量跨媒體數(shù)據(jù)的搜索算法解決技術。首先,我們可以通過分布式爬蟲服務器不間斷地從Web或者各個數(shù)據(jù)庫中收集跨媒體數(shù)據(jù),形成跨媒體文檔集合。基于VIPS(Vision-BasedPageSegmentation)對跨媒體文檔內(nèi)部鏈接信息進行過濾,排除網(wǎng)頁周圍的噪聲鏈接,如廣告欄和菜單條等。過濾后的文檔存儲到跨媒體數(shù)據(jù)庫中。其次,可以通過鏈接分析來獲取跨媒體對象之間的高層語義關聯(lián),并采用交叉參照圖(CrossReferenceGraph,簡稱CRG)模型來描述媒體對象之間的語義相關性;結(jié)合先驗知識和多媒體文檔語義框架的描述來計算媒體對象之間的權(quán)重。這種權(quán)重反映了媒體對象之間語義關聯(lián)的強弱;同時,我們還需要通過用戶的相關反饋逐步調(diào)整、修正和完善交叉參考圖。再次,針對跨媒體數(shù)據(jù)庫中的媒體對象可以進行層次聚類,并基于媒體對象的質(zhì)心距離計算其跨媒體索引鍵值,生成每個媒體對象的索引。生成的索引將存儲于索引庫中。最后,當用戶提交一個查詢對象時,可以通過對交叉參照圖進行基于快速索引的定位,得到與查詢對象相關的候選媒體對象。#p#分頁標題#e#   5結(jié)束語網(wǎng)絡輿情是社會輿情的反映,一定程度上反映著社會民意,其產(chǎn)生的原因往往是突發(fā)事件引起公眾對事件的評析或散播某些虛假信息而引起公眾跟風及評析等多方面因素,其中反映著一些合理的訴求,當然也有一些不合理的訴求,合理及不合理的訴求處置的正確與否直接關系到社會的穩(wěn)定。   妥善引導好、監(jiān)管好、處理好網(wǎng)絡輿情問題需要信息安全技術提供有力的保障。   通過上述內(nèi)容的介紹和分析,筆者認為可以通過一個系統(tǒng)項目的建設解決有關部門急需的互聯(lián)網(wǎng)海量信息下掌控輿情動態(tài)的難題,提升網(wǎng)絡輿情分析、監(jiān)管水平,以便更好的為網(wǎng)絡輿情監(jiān)管部門提供智力支持服務和技術支持服務。

主站蜘蛛池模板: 又大又粗欧美黑人aaaaa片| 自拍偷自拍亚洲精品牛影院| 亚洲国产成人久久精品99| 新香蕉少妇视频网站| 57pao成人国产永久免费视频| 无码日韩av一区二区三区| 久久久国产精品va麻豆| 亚洲欧美日韩综合久久久| 精品久久久久久国产| 久久大香线蕉国产精品免费| 国产按头口爆吞精在线视频| 人人妻人人澡av天堂香蕉| 国产成人无码免费看片软件| 久久伊人精品一区二区三区| 欧美成人精品三级网站| 熟妇人妻久久中文字幕| 口爆吞精一区二区久久| 亚洲三区在线观看内射后入| av香港经典三级级 在线| 欧美日韩久久中文字幕| 亚洲欧美日韩中文字幕在线一区| 亚洲美女国产精品久久久久久久久| 狠狠色噜噜狠狠狠狠色综合久| 色翁荡熄又大又硬又粗又动态图| 精品亚洲a∨无码一区二区三区| 亚洲成av人片在一线观看| 国产精品无码a∨麻豆| 男女啪啪做爰高潮免费网站| 久久99亚洲网美利坚合众国| 国产亚洲精品第一综合另类| 成年午夜性影院免费观看| 九九九精品成人免费视频| 麻豆一区二区三区蜜桃免费| 亚洲a无码综合a国产av中文| 亚洲婷婷综合色高清在线| 久久综合九色欧美婷婷| 99久久国产露脸精品国产麻豆| 国产成人av乱码在线观看| 国产明星裸体无码xxxx视频| 国产97色在线 | 亚洲| 亚洲成aⅴ人片精品久久久久久|