国产一区二区三精品久久久无广告,中文无码伦av中文字幕,久久99久久99精品免视看看,亚洲a∨无码精品色午夜

數(shù)據(jù)挖掘技術(shù)下高校圖書館管理論文

前言:尋找寫作靈感?中文期刊網(wǎng)用心挑選的數(shù)據(jù)挖掘技術(shù)下高校圖書館管理論文,希望能為您的閱讀和創(chuàng)作帶來靈感,歡迎大家閱讀并分享。

數(shù)據(jù)挖掘技術(shù)下高校圖書館管理論文

一、Web數(shù)據(jù)挖掘技術(shù)簡介

要了解Web數(shù)據(jù)挖掘技術(shù),首先就必須要了解數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識(shí)的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術(shù),它主要是使用數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構(gòu)和分布廣的特點(diǎn)。對(duì)于服務(wù)器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結(jié)構(gòu)其所挖掘到的模式有可能是關(guān)于Web內(nèi)容的,也有可能是關(guān)于Web結(jié)構(gòu)的。同時(shí)有些數(shù)據(jù)挖掘技術(shù)也不能直接運(yùn)用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)等。Web數(shù)據(jù)挖掘根據(jù)所處理的對(duì)象可以分為三類:Web文檔的內(nèi)容挖掘、Web文檔的結(jié)構(gòu)挖掘、Web使用的挖掘。Web文檔的內(nèi)容挖掘指的是從Web文檔及對(duì)其的描述內(nèi)容中獲取到有用的信息,即是對(duì)Web上大量的各種文檔集合的內(nèi)容進(jìn)行處理,例如摘要、分類、聚類、關(guān)聯(lián)分析等。同時(shí)內(nèi)容挖掘還可以對(duì)各種多媒體信息進(jìn)行挖掘。Web上的內(nèi)容摘要是用簡潔的語言和方式對(duì)文檔的內(nèi)容進(jìn)行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對(duì)全文的內(nèi)容和文章寫作的目的有一個(gè)總體的了解。文章寫作的目的有一個(gè)總體的了解。而Web內(nèi)容挖掘的這種方式非常有用,例如應(yīng)用到檢索結(jié)果的顯示中。Web分類則指的是根據(jù)已經(jīng)確定好的類別,為每一個(gè)獲得的Web文檔確定一個(gè)大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關(guān)聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關(guān)系。Web文檔的結(jié)構(gòu)挖掘指的是從互聯(lián)網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁之間的相互鏈接以及網(wǎng)頁本身的結(jié)構(gòu)中獲取有用的信息和知識(shí)。目前為止針對(duì)結(jié)構(gòu)的挖掘主要還是鏈?zhǔn)浇Y(jié)構(gòu)模式。對(duì)于Web結(jié)構(gòu)的挖掘主要源于對(duì)引文的分析,引文分析的主要內(nèi)容就是通過對(duì)網(wǎng)頁的鏈接數(shù)和被連接數(shù)以及對(duì)象的分析來建立一個(gè)鏈接結(jié)構(gòu)模式,這種模式可以用來對(duì)網(wǎng)頁進(jìn)行歸類,同時(shí)還可以獲取網(wǎng)頁之間的相似度和關(guān)聯(lián)度等信息。Web使用的挖掘一般情況下指的是對(duì)Web日志的挖掘。其挖掘的對(duì)象是用戶與互聯(lián)網(wǎng)交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊(cè)信息以及用戶所進(jìn)行的操作等。在這一方面的研究已經(jīng)比較成熟,同時(shí)也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術(shù)較為成熟的產(chǎn)品。

二、Web數(shù)據(jù)挖掘技術(shù)的工作流程

Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫中的動(dòng)態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。

三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用

高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書館資源進(jìn)行查找訪問的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。

1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具

數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。

2、為以用戶為中心的服務(wù)提供幫助

通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫的,訪問記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。

3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用

在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。

4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)

傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結(jié)果毫無邏輯的簡單的進(jìn)行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對(duì)圖書館網(wǎng)站上的在線調(diào)查、留言簿、讀者調(diào)查表等數(shù)據(jù)進(jìn)行收集整理,對(duì)不需要的冗余信息進(jìn)行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網(wǎng)站的路徑是什么,他們對(duì)圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個(gè)人的個(gè)性需求,建立起相應(yīng)的規(guī)則,從而幫助網(wǎng)站設(shè)計(jì)人員對(duì)網(wǎng)站進(jìn)行設(shè)計(jì)和優(yōu)化,使得這些信息檢索變得更加的個(gè)性化、智能化,并根據(jù)每個(gè)用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻(xiàn)信息。通過Web數(shù)據(jù)挖掘技術(shù)可以對(duì)用戶的特征信息進(jìn)行總結(jié),將那些從沒有發(fā)出過信息的潛在用戶進(jìn)行歸類,同時(shí)還可以免費(fèi)的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉(zhuǎn)變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對(duì)用戶的檢索日志進(jìn)行分析,從而得知用戶所感興趣的內(nèi)容、他們的研究方向,并根據(jù)這些內(nèi)容為用戶指定個(gè)性化服務(wù)的內(nèi)容,為用戶提供各種他們所感興趣的各種信息。

5、應(yīng)用Web數(shù)據(jù)挖掘技術(shù)可以為學(xué)校決策者提供更好的決策支持

Web技術(shù)的發(fā)展和普及,使得Web上擁有豐富的信息資源。在這種信息“大爆炸”的時(shí)代里,高校圖書館可以通過Web數(shù)據(jù)挖掘技術(shù),對(duì)與學(xué)校建設(shè)和發(fā)展的有著重大影響的各種嬉戲那些進(jìn)行分析處理,從而使得更加方便的對(duì)這些信息進(jìn)行有效的辨識(shí)、評(píng)價(jià)、管理。為學(xué)校的決策者及時(shí)的提供各種對(duì)學(xué)校的發(fā)展和成長有用的重要信息。這些信息可以是院校內(nèi)的各種專業(yè)的設(shè)置情況,每個(gè)專業(yè)的課程設(shè)置情況,可以是其他知名院校相關(guān)專業(yè)的設(shè)置和專業(yè)課程設(shè)置的情況,也可以是研究課題的調(diào)查與申報(bào),學(xué)校圖書館的建設(shè),還可以是社會(huì)上對(duì)人才的需求信息以及其他與學(xué)校發(fā)展息息相關(guān)的信息。從而讓學(xué)校的決策者可以在越來越激烈的競(jìng)爭下,抓住轉(zhuǎn)瞬即逝的機(jī)會(huì),讓學(xué)校能夠健康、穩(wěn)步的成長和發(fā)展。

主站蜘蛛池模板: 亚洲av无码1区2区久久| 欧美成人精品一区二区综合| 好男人www在线影视社区| 一本大道伊人av久久综合| 久久aaaa片一区二区| 国语自产免费精品视频在| 成人av片无码免费网站| 亚洲精品久久夜色撩人男男小说| 国产无av码在线观看| 国内揄拍国内精品人妻浪潮av| 国产尤物精品福利视频| 久久999精品国产只有精品| 亚洲影院丰满少妇中文字幕无码| 亚洲熟妇av乱码在线观看| 国产成人亚洲精品无码青| 久久精品av一区二区免费| 日本少妇又色又爽又高潮| 一夲道av无码无卡免费| 国产亚洲视频在线观看网址| 99热久久这里只精品国产www| 99久久免费精品高清特色大片| 亚洲日韩aⅴ在线视频| 男女做aj视频免费的网站| 国产激情з∠视频一区二区| 97久久天天综合色天天综合色hd| 亚洲精品国产第一综合99久久| 日本高清在线天码一区播放| 久久精品久久精品久久39| 欧美日韩在线视频一区| 亚洲欧美日韩国产成人精品影院| 99re视频热这里只有精品7| 在线点播亚洲日韩国产欧美| 在线高清理伦片a| 亚洲中文字幕精品久久久久久直播| 无码专区天天躁天天躁在线| 国产成人无码免费看视频软件| 久久久精品久久日韩一区综合| 久久精品动漫一区二区三区| 亚洲妇女水蜜桃av网网站| 亚洲伊人成综合网| 精品人妻码一区二区三区|