国产一区二区三精品久久久无广告,中文无码伦av中文字幕,久久99久久99精品免视看看,亚洲a∨无码精品色午夜

網(wǎng)絡(luò)爬蟲(chóng)基本原理范例6篇

前言:中文期刊網(wǎng)精心挑選了網(wǎng)絡(luò)爬蟲(chóng)基本原理范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。

網(wǎng)絡(luò)爬蟲(chóng)基本原理

網(wǎng)絡(luò)爬蟲(chóng)基本原理范文1

關(guān)鍵詞: 搜索引擎;網(wǎng)絡(luò)爬蟲(chóng);實(shí)現(xiàn);設(shè)計(jì);主題

中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)17-0023-02

Abstract: In the information age, the Internet is full of all aspects of our lives, and the application of the search engine for our life brought great convenience .The research on the realization of web crawler in search engine is of great significance to improve the efficiency of search engine. This paper analyzes the realization of the web crawler in the subject oriented search engine, and puts forward the corresponding methods and measures.

Key words: Search Engine; Web Crawler; Implementation; Design; Theme

1 概述

使用搜索引擎,人們可以方便快捷地在網(wǎng)上獲取有用信息。隨著大數(shù)據(jù)時(shí)代的到來(lái),傳統(tǒng)的通用搜索引擎面臨著索引規(guī)模、更新速度和個(gè)性化需求等多方面的挑戰(zhàn)。主題搜索引擎以提供分類(lèi)精細(xì)、數(shù)據(jù)全面、更新實(shí)時(shí)的搜索服務(wù)為目標(biāo)。網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎的基礎(chǔ)模塊,是搜索引擎的重要基礎(chǔ)。

網(wǎng)絡(luò)爬蟲(chóng)是一種能自動(dòng)提取網(wǎng)頁(yè)內(nèi)容的程序,利用網(wǎng)頁(yè)信息格式進(jìn)行網(wǎng)頁(yè)分析,也可以定期搜集某個(gè)或某些網(wǎng)站的內(nèi)容,跟蹤網(wǎng)站的發(fā)展歷程。隨著網(wǎng)絡(luò)爬蟲(chóng)技術(shù)的快速進(jìn)步,網(wǎng)絡(luò)爬蟲(chóng)更加廣泛地運(yùn)用于網(wǎng)站結(jié)構(gòu)分析、個(gè)性化信息獲取以及用戶興趣挖掘等多種服務(wù)中。

2 主題搜索引擎簡(jiǎn)述

搜索引擎是一種用來(lái)在萬(wàn)維網(wǎng)上檢索資源文件的計(jì)算機(jī)程序。搜索引擎根據(jù)用戶輸入的檢索關(guān)鍵詞推測(cè)出用戶的查詢意圖,然后快速地返回相關(guān)的查詢結(jié)果信息供用戶使用。

大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)數(shù)據(jù)爆炸性地增長(zhǎng),急切地需要一種快速、準(zhǔn)確細(xì)致、全面深入且更新及時(shí)的信息檢索方法。主題搜索引擎克服了傳統(tǒng)搜索引擎的諸多困難,使信息檢索變得更加精確細(xì)致,使搜索到的信息更加全面深入,同時(shí)使專(zhuān)題信息和學(xué)科信息的更新更加及時(shí)。

3 網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)述

網(wǎng)絡(luò)爬蟲(chóng)從一個(gè)初始URL隊(duì)列開(kāi)始,從中獲取一個(gè)URL,獲取網(wǎng)頁(yè),從網(wǎng)頁(yè)中提取所有的URL,并將新的URL添加到URL隊(duì)列中。然后網(wǎng)絡(luò)爬蟲(chóng)從隊(duì)列中獲得另一個(gè)URL,重復(fù)前面的過(guò)程,直到達(dá)到停止條件。這種爬取資源的方式存在著網(wǎng)絡(luò)連接不穩(wěn)定、網(wǎng)頁(yè)特征多樣化、URL不規(guī)范等一些問(wèn)題。

4 網(wǎng)絡(luò)爬蟲(chóng)分類(lèi)

第一個(gè)網(wǎng)絡(luò)爬蟲(chóng)是美國(guó)麻省理工學(xué)院的學(xué)生Matthew Grey于1993年寫(xiě)成,后來(lái)改進(jìn)了爬蟲(chóng)程序并將其引入到搜索引擎中。隨著搜索引擎技術(shù)的不斷進(jìn)步,爬蟲(chóng)程序也越來(lái)越復(fù)雜,后來(lái)產(chǎn)生了通用爬蟲(chóng)、限定爬蟲(chóng)和主題爬蟲(chóng)等幾種不同類(lèi)型的爬蟲(chóng)。

4.1通用爬蟲(chóng)

基本原理上文已分析,但爬取的范圍過(guò)大,爬取順序要求低,對(duì)爬取速度和存儲(chǔ)空間要求較高。

4.2限定爬蟲(chóng)

限定爬蟲(chóng)是一種能爬取用戶感興趣的某一類(lèi)網(wǎng)頁(yè)的爬蟲(chóng)程序。但它不要求爬取所有的網(wǎng)頁(yè),只需爬取某些特定種類(lèi)的網(wǎng)頁(yè)即可。工作過(guò)程是:采用樸素貝葉斯方法用網(wǎng)頁(yè)樣本訓(xùn)練一個(gè)文本分類(lèi)器,然后用這個(gè)文本分類(lèi)器指導(dǎo)爬蟲(chóng)的偏好,從爬蟲(chóng)隊(duì)列中選擇出用戶感興趣的網(wǎng)頁(yè)。

4.3 主題爬蟲(chóng)

主題爬蟲(chóng)先確定一個(gè)或多個(gè)主題,根據(jù)一定的分析算法過(guò)濾與主題無(wú)關(guān)的URL,保留與主題相關(guān)的URL并將其放入等待URLs隊(duì)列中;然后使用某種搜索策略從等待隊(duì)列中選擇下一個(gè)要抓取的URL,并重復(fù)上述過(guò)程,直到達(dá)到某種停止條件。

首先主題爬蟲(chóng)需要判定當(dāng)前抓取與設(shè)定的主題的相關(guān)性,其次主題爬蟲(chóng)采用按相似度大小抓取網(wǎng)頁(yè)的策略來(lái)抓取網(wǎng)頁(yè)。相比通用爬蟲(chóng)它極大地節(jié)約了硬件和網(wǎng)絡(luò)資源,加快了爬取速度,還可以滿足人們對(duì)特定領(lǐng)域的需求。

5 主題爬蟲(chóng)的爬取策略

主題爬蟲(chóng)以通用網(wǎng)絡(luò)爬蟲(chóng)為基礎(chǔ),在此基礎(chǔ)上進(jìn)行優(yōu)化和擴(kuò)展,使其具備主題網(wǎng)絡(luò)爬蟲(chóng)特有的功能,進(jìn)而實(shí)現(xiàn)面向主題的網(wǎng)頁(yè)信息提取。

主題爬蟲(chóng)盡可能搜集與主題相關(guān)的網(wǎng)頁(yè),減少下載無(wú)關(guān)網(wǎng)頁(yè)的可能。主題爬蟲(chóng)與通用爬蟲(chóng)相比需要解決以下問(wèn)題:主題的描述和定義、網(wǎng)頁(yè)內(nèi)容與主題相關(guān)性的判定、鏈接重要程度的判定、如何提高主題爬蟲(chóng)資源覆蓋率。

面向主題的信息采集系統(tǒng)可分為4個(gè)部分,即主題集選取、Web信息提取、頁(yè)面預(yù)處理、鏈接過(guò)濾。

5.1 主題集選取

主題網(wǎng)絡(luò)爬蟲(chóng)中,為有效進(jìn)行剪枝和過(guò)濾操作,需要對(duì)主題進(jìn)行定義或描述,以此來(lái)確定采集的方向,主題集的好壞直接影響到了最終的采集效果。主題可以是幾個(gè)關(guān)鍵詞,還可以是自然語(yǔ)言。用戶可以自己定制主題,對(duì)主題做進(jìn)一步的描述。主題集的合理選擇是主題爬蟲(chóng)的基礎(chǔ)。

5.2 Web 信息提取

從采集起點(diǎn)開(kāi)始,主題爬蟲(chóng)開(kāi)爬取Web上的信息資源,通過(guò)各種Web協(xié)議自動(dòng)爬取站點(diǎn)的有效信息。為了高效地獲取信息,主題爬蟲(chóng)系統(tǒng)中大多都采用了多線程的方式來(lái)提取Web信息。

5.3 頁(yè)面預(yù)處理

把主題爬蟲(chóng)抓取到的Web頁(yè)面規(guī)范化,主要包括:頁(yè)面語(yǔ)法分析,頁(yè)面去噪等操作,提取網(wǎng)頁(yè)中的有效信息,然后判定網(wǎng)頁(yè)信息的主題相關(guān)性,過(guò)濾與主題無(wú)關(guān)的頁(yè)面,從而提高主題爬蟲(chóng)的主題信息提取的準(zhǔn)確性。

HTML網(wǎng)頁(yè)內(nèi)容可以從正文、標(biāo)題、標(biāo)記信息、鏈接信息等方面反映。因此,對(duì)網(wǎng)頁(yè)信息的提取只需將這些特征信息提取出來(lái)。讀取頁(yè)面時(shí),找到標(biāo)記,將標(biāo)記中間的內(nèi)容中的所有標(biāo)記去除,就得到了頁(yè)面正文;標(biāo)記中的內(nèi)容就是網(wǎng)頁(yè)的標(biāo)題,它顯示在標(biāo)題欄中。

即使提取的URL通過(guò)了主題相關(guān)性判別,提取到的頁(yè)面內(nèi)容與設(shè)定的主題也可能有很大差距。所以,在頁(yè)面提取之后應(yīng)對(duì)頁(yè)面信息進(jìn)行與主題相關(guān)性判別,淘汰與主題無(wú)關(guān)頁(yè)面。

5.4 鏈接過(guò)濾

要提高主題Web信息的提取速率和準(zhǔn)確性,系統(tǒng)需對(duì)采集到的UI進(jìn)行URL和主題的關(guān)系的判定,叫做鏈接過(guò)濾,或鏈接預(yù)測(cè)。

鏈接過(guò)濾常用的算法是EPR算法。在鏈接關(guān)系的基礎(chǔ)上加入針對(duì)鏈接的相關(guān)主題的權(quán)重,再引入鏈接網(wǎng)頁(yè)之間的主題相關(guān)度權(quán)重,使產(chǎn)生的重要頁(yè)面是針對(duì)某一主題的,這形成了EPR算法。

6 結(jié)束語(yǔ)

網(wǎng)絡(luò)爬蟲(chóng)的發(fā)展為搜索引擎的成功奠定了堅(jiān)實(shí)的基礎(chǔ),然而隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,人們對(duì)搜索引擎的需求越來(lái)越大,信息檢索服務(wù)也在向著個(gè)性化、精細(xì)化的方向發(fā)展,人們對(duì)網(wǎng)絡(luò)爬蟲(chóng)的進(jìn)一步設(shè)計(jì)優(yōu)化提出了更高的要求。

主題爬蟲(chóng)核心問(wèn)題是主題頁(yè)面群的采集和無(wú)關(guān)頁(yè)面的過(guò)濾問(wèn)題。網(wǎng)絡(luò)爬蟲(chóng)具有重復(fù)性,如何將頁(yè)面動(dòng)態(tài)變化的規(guī)律與先前的搜索統(tǒng)計(jì)結(jié)果相結(jié)合,提高爬取效率是一個(gè)值得研究的問(wèn)題。目前網(wǎng)絡(luò)爬蟲(chóng)采用的搜索策略都較固定,缺乏適應(yīng)性,如何提升爬蟲(chóng)的自適應(yīng)性有待進(jìn)一步研究。

參考文獻(xiàn):

[1] 劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29,47.

[2] 盛亞如,魏振鋼,劉蒙.基于主題網(wǎng)絡(luò)爬蟲(chóng)的信息數(shù)據(jù)采集方法的研究與應(yīng)用[J]. 電子技術(shù)與軟件工程,2016(7):168-169.

[3] 梁萍.搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)及結(jié)果聚類(lèi)的研究與實(shí)現(xiàn)[D].中國(guó)科學(xué)技術(shù)大學(xué),2011.

[4] 于娟,劉強(qiáng). 主題網(wǎng)絡(luò)爬蟲(chóng)研究綜述[J].計(jì)算機(jī)工程與科學(xué),2015,02:231-237.

網(wǎng)絡(luò)爬蟲(chóng)基本原理范文2

>> 基于.NET搜索引擎的研究與應(yīng)用 基于網(wǎng)站建設(shè)的搜索引擎優(yōu)化策略構(gòu)建 基于搜索引擎優(yōu)化的省級(jí)檔案網(wǎng)站調(diào)查與分析 基于的檔案垂直搜索引擎的實(shí)現(xiàn) 基于Servlet的搜索引擎 基于垂直搜索技術(shù)的搜索引擎 基于成功要素的搜索引擎優(yōu)化模型研究 基于Memcached的日歷搜索引擎系統(tǒng)優(yōu)化設(shè)計(jì)與實(shí)現(xiàn) 基于搜索引擎優(yōu)化的網(wǎng)絡(luò)宣傳機(jī)模型 基于搜索引擎優(yōu)化的網(wǎng)頁(yè)設(shè)計(jì)要點(diǎn)研究 網(wǎng)站搜索引擎優(yōu)化研究 基于Lucene的圖書(shū)垂直搜索引擎探析 基于lucene的校園網(wǎng)搜索引擎 基于時(shí)間技術(shù)的搜索引擎排名算法 基于文本的圖片搜索引擎的研究 基于神經(jīng)網(wǎng)絡(luò)的搜索引擎應(yīng)用 基于JAVA技術(shù)的搜索引擎研究 基于Nutch的搜索引擎的研究 基于垂直搜索引擎的主題爬蟲(chóng)技術(shù) 基于Google搜索引擎的原理及使用 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l”),目的是幫助用戶對(duì)站點(diǎn)的整體有個(gè)把握。

(2)XML格式的網(wǎng)站地圖(類(lèi)似“http:///Sitemap.xml”),它是網(wǎng)站上鏈接的列表。制作Sitemap并提交給搜索引擎可以使網(wǎng)站的內(nèi)容完全被收錄。

中創(chuàng)建網(wǎng)站地圖方案:

(1)創(chuàng)建一個(gè)名為Web.sitemap的XML文件,該文件按站點(diǎn)的分層形式組織頁(yè)面。的默認(rèn)站點(diǎn)地圖提供程序自動(dòng)選取此站點(diǎn)地圖。注意:該文件必須位于應(yīng)用程序的根目錄中。站點(diǎn)地圖代碼演示如下:

(2)利用免費(fèi)的在線工具(http://)創(chuàng)建網(wǎng)站地圖,只要輸入網(wǎng)站地址,在線工具就會(huì)動(dòng)態(tài)生成HTML格式或XML格式的網(wǎng)站地圖。

4.3 AJAX優(yōu)化

Ajax(Asynchronous JavaScript and XML)是一種使用客戶端腳本與網(wǎng)站服務(wù)器交換數(shù)據(jù)的網(wǎng)站應(yīng)用開(kāi)發(fā)技術(shù)。它為Web中的客戶端腳本和服務(wù)器語(yǔ)言之間架起了一座橋梁。使用AJAX技術(shù),其直接效果是頁(yè)面不需要打斷交互流程就可以重新加裁從而實(shí)現(xiàn)動(dòng)態(tài)地更新,由此極大提升速度和用戶體驗(yàn)。但Ajax技術(shù)在SEO方面被歸入“糟糕”一類(lèi)效果,因?yàn)镴avaScript是AJAX實(shí)現(xiàn)的基礎(chǔ),對(duì)于AJAX來(lái)說(shuō)是必不可少的,而搜索引擎不識(shí)別JavaScript代碼,因此搜索引擎抓取不到AJAX動(dòng)態(tài)加載的內(nèi)容。解決方法是在XML Sitemap中建立網(wǎng)站的所有鏈接,建立所有內(nèi)容的靜態(tài)導(dǎo)航鏈接。這不僅有助于提升網(wǎng)站的搜索引擎可見(jiàn)度,還確保那些沒(méi)有啟用JavaScript的用戶也能看到導(dǎo)航條內(nèi)容和鏈接。

4.4 網(wǎng)頁(yè)重定向優(yōu)化

網(wǎng)站運(yùn)行過(guò)程中會(huì)遇到服務(wù)器出錯(cuò),程序配置錯(cuò)誤等一系列的問(wèn)題,這就需要頁(yè)面重定向。如果不做重定向,用戶請(qǐng)求瀏覽網(wǎng)頁(yè)碰到這些的時(shí)候會(huì)出現(xiàn)一些系統(tǒng)默認(rèn)的錯(cuò)誤頁(yè)面,這樣對(duì)于搜索引擎來(lái)所很不友好。

HTTP 404錯(cuò)誤意味著原始網(wǎng)頁(yè)的URL失效,這種情況很難避免,譬如瀏覽器請(qǐng)求的網(wǎng)頁(yè)被刪除或者移位,用戶鍵入鏈接拼寫(xiě)錯(cuò)誤等。搜索引擎同樣產(chǎn)生HTTP 404錯(cuò)誤,認(rèn)為該頁(yè)面不存在。如果頁(yè)面過(guò)多將會(huì)導(dǎo)致站點(diǎn)的權(quán)重大量的流失,影響到排名收錄。甚至?xí)艿剿阉饕娴奶幜P,對(duì)網(wǎng)站排名進(jìn)行下降處理。

配置錯(cuò)誤頁(yè)面解決方法,在web.config的system.web節(jié)里增加以下配置:

RedirectMode屬性設(shè)置為ResponseRedirect,則將用戶重定向到該錯(cuò)誤頁(yè)面,并且原始URL更改為該錯(cuò)誤頁(yè)面的URL。RedirectMode屬性設(shè)置為ResponseRewrite,則將用戶定向到錯(cuò)誤頁(yè)面,并且不更改瀏覽器中的原始URL。

301代表永久性轉(zhuǎn)移(Permanently Moved),301重定向是網(wǎng)頁(yè)更改地址后對(duì)搜索引擎友好的最好方法,只要不是暫時(shí)搬移的情況,都建議使用301來(lái)做轉(zhuǎn)址。

下的301重定向方法,在原頁(yè)面的Page_Load事件中增加以下代碼:

private void Page_Load(object sender,System.EventArgs e)

{Response.Status = "301 Moved Permanently";

Response.AddHeader ("Location","http://");

}

5 結(jié)束語(yǔ)

隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎優(yōu)化會(huì)得到越來(lái)越廣泛的應(yīng)用。利用搜索引擎收錄和排名的規(guī)則,根據(jù)不同網(wǎng)站的架構(gòu),有針對(duì)性地基于不同開(kāi)發(fā)平臺(tái)的特點(diǎn)進(jìn)行優(yōu)化來(lái)獲得搜索引擎的青睞,從而達(dá)到提高網(wǎng)站排名的效果。本文對(duì)網(wǎng)站的搜索引擎優(yōu)化處理做了一些研究,還有很多所有平臺(tái)共有的優(yōu)化要素都要全面加以優(yōu)化,才能獲得較好的優(yōu)化效果。

參考文獻(xiàn):

[1]鄭耀東從入門(mén)到實(shí)踐[M].清華大學(xué)出版社,2009.

[2]吳澤欣.SEO教程:搜索引擎優(yōu)化入門(mén)與進(jìn)階[M].人民郵電出版社,2008.

[3]楊帆.SEO攻略:搜索引擎優(yōu)化策略與實(shí)戰(zhàn)案例詳解[M].人民郵電出版社,2009.

[4]王建.精通Web標(biāo)準(zhǔn)建站―標(biāo)記語(yǔ)言、網(wǎng)站分析、設(shè)計(jì)理念、SEO與BI[M].人民郵電出版社,2007.

[5]徐曉力.SEO及其策略研究[J].電腦知識(shí)與技術(shù),2010,1(6):59-61.

主站蜘蛛池模板: 激情图片小说| 国产成人综合野草| 色综合久久蜜芽国产精品| 天堂√在线中文官网在线| 激情综合一区二区三区| 小说区 图片区色 综合区| 18禁超污无遮挡无码免费游戏| 国产又色又爽又黄的网站在线| 色九九| 大胆欧美熟妇xx| 少妇高潮惨叫喷水在线观看| 亚洲顶级裸体av片| 亚洲国产成人精品无码区在线播放| 无码国产成人午夜电影观看| 成人无码h在线观看网站| 亚洲欧美中文字幕无线码| 国产伦精品一区二区三区免费迷| 性做久久久久久久免费看| 国产成人无码a区视频在线观看| 99久久无码一区人妻a片蜜| 免费a级毛片樱桃视频| 欧美不卡一区二区三区| 欧美极p品少妇的xxxxx| 四川发廊丰满老熟妇| av天堂午夜精品一区| 欧洲熟妇乱xxxxx大屁股7| 亚洲精品无码久久不卡| 国产女人喷浆抽搐高潮视频| 无码日韩精品一区二区免费暖暖| 国产免费午夜福利蜜芽无码| 一区国产传媒国产精品| 无码aⅴ精品一区二区三区| 纯肉无遮挡h肉动漫在线观看国产| 亚洲欧洲日产国码无码网站| 亚洲午夜福利在线观看| 亚洲爆乳aaa无码专区| 丰满少妇高潮惨叫正在播放| 亚洲熟妇无码一区二区三区导航| 日韩精品一区二区三区中文不卡| 日韩欧美国产aⅴ另类| 久天啪天天久久99久孕妇|