前言:中文期刊網(wǎng)精心挑選了數(shù)據(jù)挖掘論文范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
數(shù)據(jù)挖掘論文范文1
系統(tǒng)采用C/S+B/S結(jié)構(gòu),主要由前端數(shù)據(jù)采集設(shè)備(位移及載荷傳感器)、站點(diǎn)客戶端、數(shù)據(jù)庫(kù)及Web服務(wù)器等組成。各部分采取分布式協(xié)同處理運(yùn)行方式,站點(diǎn)客戶端利用前端采集的數(shù)據(jù)獨(dú)立分析計(jì)算,分析完成后上傳至數(shù)據(jù)庫(kù)服務(wù)器,并通過(guò)網(wǎng)頁(yè)服務(wù)器對(duì)外。
2系統(tǒng)數(shù)據(jù)
2.1系統(tǒng)數(shù)據(jù)結(jié)構(gòu)系統(tǒng)采用MicrosoftSQLServer,創(chuàng)建了WPGUI與WPCHQ數(shù)據(jù)庫(kù)來(lái)管理3萬(wàn)余口油井?dāng)?shù)據(jù)采集、處理及存儲(chǔ)等,建設(shè)數(shù)據(jù)表65張(見(jiàn)主要數(shù)據(jù)表的關(guān)系圖2),主要包括生產(chǎn)井的完井?dāng)?shù)據(jù)、靜態(tài)數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)、采集數(shù)據(jù)、原油物性數(shù)據(jù)、機(jī)桿管泵等技術(shù)數(shù)據(jù),同時(shí)系統(tǒng)保存了油井近兩年功圖電參數(shù)據(jù)(每天每口井到少100張),以及根據(jù)這些數(shù)據(jù)分析計(jì)算出來(lái)的結(jié)果和匯總生成的數(shù)據(jù)。
3數(shù)據(jù)挖掘應(yīng)用
數(shù)據(jù)挖掘是從大量數(shù)據(jù)集中發(fā)現(xiàn)可行信息的過(guò)程,是統(tǒng)計(jì)分析技術(shù)、數(shù)據(jù)庫(kù)技術(shù)及人工智能技術(shù)的綜合。面對(duì)油井工況實(shí)時(shí)分析及功圖計(jì)產(chǎn)系統(tǒng)大量的油井生產(chǎn)完備數(shù)據(jù),長(zhǎng)慶油田充分利用數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)據(jù)進(jìn)一步清理、集成、轉(zhuǎn)換、挖掘應(yīng)用,深化功圖系統(tǒng)數(shù)據(jù)分析,先后開(kāi)展了動(dòng)液面計(jì)算,系統(tǒng)效率在線實(shí)時(shí)監(jiān)測(cè)、區(qū)塊動(dòng)態(tài)分析研究等,并應(yīng)用于油田現(xiàn)場(chǎng),取得了較好的效果,既節(jié)約了生產(chǎn)成本,又方便了現(xiàn)場(chǎng)管理應(yīng)用,進(jìn)一步提升系統(tǒng)在長(zhǎng)慶油田數(shù)字化前端的核心地位。
3.1區(qū)塊動(dòng)態(tài)分析
油井生產(chǎn)中,每天都會(huì)獲得大量的實(shí)時(shí)生產(chǎn)數(shù)據(jù),目前系統(tǒng)主要對(duì)單井完成工況分析及產(chǎn)液量計(jì)算,如何通過(guò)分析和處理這些數(shù)據(jù),及時(shí)全面了解油田區(qū)塊產(chǎn)油量、壓力、含水等變化規(guī)律是數(shù)據(jù)挖掘應(yīng)用又一問(wèn)題。長(zhǎng)慶油田開(kāi)展了基于油井工況診斷及功圖計(jì)產(chǎn)系統(tǒng)的區(qū)塊動(dòng)態(tài)分析,從空間和歷史角度,對(duì)油井分類、分級(jí)、分層次進(jìn)行統(tǒng)計(jì)分析,挖掘生產(chǎn)數(shù)據(jù)里有用的信息,提煉區(qū)塊共性問(wèn)題,并按照設(shè)計(jì)的模板(區(qū)塊指標(biāo)統(tǒng)計(jì)圖表、供液能力分析、產(chǎn)量分析、故障井分析等)每月30日自動(dòng)生成全面及時(shí)的區(qū)塊油井生產(chǎn)動(dòng)態(tài)分析,從而指導(dǎo)區(qū)塊生產(chǎn)管理,實(shí)現(xiàn)油田的精細(xì)管理,為油田開(kāi)發(fā)決策提供依據(jù)。
4結(jié)束語(yǔ)
隨著長(zhǎng)慶油田數(shù)字化建設(shè)的不斷深入,各種生產(chǎn)、研究、管理等數(shù)據(jù)庫(kù)不斷增加,如何深化數(shù)據(jù)應(yīng)用,準(zhǔn)確迅速?gòu)臄?shù)據(jù)庫(kù)是提取有用信息,已成為是數(shù)字油田生產(chǎn)管理的迫切需求。在基于油井工況實(shí)時(shí)分析及功圖計(jì)產(chǎn)系統(tǒng)數(shù)據(jù)挖掘應(yīng)用中我們積累了不少經(jīng)驗(yàn),拓展了系統(tǒng)功能,提升系統(tǒng)在長(zhǎng)慶油田數(shù)字化前端的核心地位。在今后應(yīng)用中,油田數(shù)據(jù)挖掘應(yīng)用注意幾個(gè)問(wèn)題:
(1)數(shù)據(jù)是數(shù)字油田的血液,為了保證數(shù)據(jù)挖掘效率,在數(shù)據(jù)庫(kù)建設(shè)中要規(guī)范數(shù)據(jù)存儲(chǔ)格式,保證數(shù)據(jù)源及數(shù)據(jù)類型的統(tǒng)一,同時(shí)加強(qiáng)數(shù)據(jù)審核,注重?cái)?shù)據(jù)入庫(kù)的質(zhì)量;
(2)數(shù)據(jù)挖掘中盡可能使用可視化工具,一幅圖勝過(guò)千句話,數(shù)據(jù)挖掘可視化主要包括數(shù)據(jù)可視化、挖掘結(jié)果可視化、挖掘過(guò)程可視化等;
數(shù)據(jù)挖掘論文范文2
[關(guān)鍵詞]數(shù)據(jù)挖掘客戶關(guān)系管理應(yīng)用步驟
根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶、競(jìng)爭(zhēng)對(duì)手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶。現(xiàn)代企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場(chǎng)上,誰(shuí)能獲得更大的市場(chǎng)份額,誰(shuí)就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場(chǎng)份額的爭(zhēng)奪實(shí)質(zhì)上是對(duì)客戶的爭(zhēng)奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過(guò)有效的途徑,從儲(chǔ)存大量客戶信息的數(shù)據(jù)倉(cāng)庫(kù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。
一、客戶關(guān)系管理(CRM)
CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過(guò)富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠(chéng)和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過(guò)客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。
二、數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱DM),簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過(guò)關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場(chǎng)購(gòu)買商品時(shí),哪些商品被購(gòu)置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同商品的聯(lián)系,進(jìn)而反映客戶的購(gòu)買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過(guò)分析客戶在購(gòu)買A商品后,必定(或大部分情況下)隨著購(gòu)買B商品,來(lái)發(fā)現(xiàn)客戶潛在的購(gòu)買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過(guò)顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購(gòu)買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫(kù)中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。
三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
1.進(jìn)行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來(lái)提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來(lái),以便在數(shù)據(jù)庫(kù)里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過(guò)數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。
2.進(jìn)行客戶識(shí)別和保留
(1)在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶
這時(shí)可以采用DM中的分類方法。首先是通過(guò)對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來(lái)對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫(kù),給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫(kù)內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購(gòu)習(xí)慣、購(gòu)書資金、計(jì)劃等屬性的描述,顧客被分類為“是”或“否”會(huì)成為購(gòu)買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫(kù)中時(shí),就對(duì)該新顧客的購(gòu)買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。
(2)在客戶保留中的應(yīng)用
客戶識(shí)別是獲取新客戶的過(guò)程,而客戶保留則是留住老顧客、防止客戶流失的過(guò)程。對(duì)企業(yè)來(lái)說(shuō),獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過(guò)程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過(guò)廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒(méi)有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購(gòu)買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。
(3)對(duì)客戶忠誠(chéng)度進(jìn)行分析
客戶的忠誠(chéng)意味著客戶不斷地購(gòu)買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過(guò)會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
(4)對(duì)客戶盈利能力分析和預(yù)測(cè)
對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰(shuí)才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來(lái)劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來(lái)分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷。
(5)交叉銷售和增量銷售
交叉銷售是促使客戶購(gòu)買尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長(zhǎng)而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來(lái)預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶對(duì)交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險(xiǎn)公司的交叉營(yíng)銷策略:保險(xiǎn)公司對(duì)已經(jīng)購(gòu)買某險(xiǎn)種的客戶推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險(xiǎn)險(xiǎn)種是用戶所感興趣的,否則會(huì)造成用戶的反感。
四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟
1.需求分析
只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過(guò)程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問(wèn)題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。
2.建立數(shù)據(jù)庫(kù)
這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來(lái)源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過(guò)抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉(cāng)庫(kù),并通過(guò)OLAP和報(bào)表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫(kù)用戶。
3.選擇合適的數(shù)據(jù)挖掘工具
如果從上一步的分析中發(fā)現(xiàn),所要解決的問(wèn)題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問(wèn)題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測(cè),關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來(lái)描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒(méi)有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。
4.建立模型
建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過(guò)程。一個(gè)好的模型沒(méi)必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來(lái)的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問(wèn)題最有用。如決策樹(shù)模型、聚類模型都是分類模型,它們將一個(gè)事件或?qū)ο髿w類。回歸是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過(guò)程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。
5.模型評(píng)估
為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來(lái)測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過(guò)程,通過(guò)這個(gè)階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。
6.部署和應(yīng)用
將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過(guò)程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。
參考文獻(xiàn):
[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國(guó)經(jīng)濟(jì)出版社,2002
[2]馬剛:客戶關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008
[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)
[4]顧桂芳何世友:數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究[J].企業(yè)管理,2007,(7)
數(shù)據(jù)挖掘論文范文3
網(wǎng)上銀行促銷渠道分析系統(tǒng)采用C/S架構(gòu)或者B/S架構(gòu),充分考慮系統(tǒng)易用性和投入產(chǎn)出。從維護(hù)網(wǎng)上銀行的C/S架構(gòu)和B/S架構(gòu)角度來(lái)分析,使用網(wǎng)上銀行促銷渠道分析系統(tǒng)的多是管理人員,并且在未來(lái)的發(fā)展過(guò)程中,系統(tǒng)用戶數(shù)量也不會(huì)大幅度上漲,綜合網(wǎng)上銀行系統(tǒng)的維護(hù)成本和開(kāi)發(fā)成本,盡量選擇C/S架構(gòu)。從使用者和系統(tǒng)數(shù)據(jù)傳輸?shù)慕嵌葋?lái)分析,只有銀行工作人員才能使用這個(gè)系統(tǒng),而C/S架構(gòu)具有良好的靈活性。綜上所述,網(wǎng)上銀行促銷渠道分析系統(tǒng)可以使用C/S架構(gòu)來(lái)部署軟件模塊。由于網(wǎng)上銀行系統(tǒng)包含大量的客戶信息數(shù)據(jù),因此網(wǎng)上銀行系統(tǒng)必須具有更高的安全性和保密性,相關(guān)操作人員必須強(qiáng)化風(fēng)險(xiǎn)防范意識(shí),規(guī)范網(wǎng)上銀行系統(tǒng)操作,嚴(yán)格控制系統(tǒng)的數(shù)據(jù)傳輸。網(wǎng)上銀行系統(tǒng)必須具有良好的擴(kuò)展性,為數(shù)據(jù)表和數(shù)據(jù)查詢算法留出充足的軟硬件資源。同時(shí),網(wǎng)上銀行渠道分析系統(tǒng)要支持工作人員擴(kuò)展數(shù)據(jù)查詢、數(shù)據(jù)字典和數(shù)據(jù)表之前的交叉查詢,將用戶的查詢記錄保存在本地網(wǎng)絡(luò)服務(wù)器上,盡量避免重復(fù)查詢,提高網(wǎng)上銀行渠道分析系統(tǒng)的查詢速度。
2數(shù)據(jù)挖掘技術(shù)在網(wǎng)上銀行促銷活動(dòng)中的運(yùn)用
隨著商業(yè)銀行的快速發(fā)展,網(wǎng)上銀行受到人們的廣泛關(guān)注。網(wǎng)上銀行系統(tǒng)以計(jì)算機(jī)網(wǎng)絡(luò)為交易平臺(tái),各種新型的促銷策略,使網(wǎng)上銀行業(yè)務(wù)得到迅速拓展。但是,和四大行相比,一些商業(yè)銀行的網(wǎng)上銀行業(yè)務(wù)仍然存在很大的差距。同時(shí),近年來(lái),網(wǎng)上銀行市場(chǎng)競(jìng)爭(zhēng)日益激烈,某些網(wǎng)上銀行業(yè)務(wù)在應(yīng)用過(guò)程中出現(xiàn)了促銷成本不斷增加,而促銷效果不理想的狀況,數(shù)據(jù)挖掘技術(shù)在網(wǎng)上銀行促銷活動(dòng)中的運(yùn)用,要積極解決這些問(wèn)題。
2.1提高營(yíng)銷質(zhì)量當(dāng)前,很多銀行都逐漸加大了網(wǎng)上銀行促銷力度,但是促銷活動(dòng)的效果卻不明顯,單純的依靠贈(zèng)送禮品或者各種優(yōu)惠措施,在很大程度上會(huì)提升促銷成本,并且難以真正地吸引客戶。在網(wǎng)上銀行促銷活動(dòng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),分析不同促銷活動(dòng)的特點(diǎn),根據(jù)網(wǎng)上銀行系統(tǒng)自身的特點(diǎn)和優(yōu)化,對(duì)不同客戶進(jìn)行組合促銷,將不同的網(wǎng)上銀行業(yè)務(wù)或者產(chǎn)品聯(lián)系起來(lái),有針對(duì)性地對(duì)有意向的客戶進(jìn)行促銷,合理安排網(wǎng)上銀行促銷活動(dòng)內(nèi)容和時(shí)間,盡量在電子商務(wù)交易高峰時(shí)段之前,實(shí)現(xiàn)網(wǎng)上銀行促銷活動(dòng)的目標(biāo)。
2.2優(yōu)化客戶結(jié)構(gòu)一些商業(yè)銀行不了解客戶的真實(shí)需求,在發(fā)展?jié)撛诳蛻魰r(shí),缺乏針對(duì)性,網(wǎng)上銀行促銷活動(dòng)的交易需求較弱。因此要應(yīng)用數(shù)據(jù)挖掘技術(shù)挖掘一些隱含的信息,明確哪些客戶對(duì)網(wǎng)上銀行的哪些產(chǎn)品或者業(yè)務(wù)有需求,挖掘潛在的、有實(shí)力的客戶,將這些客戶作為網(wǎng)上銀行促銷活動(dòng)的重點(diǎn)客戶。
2.3優(yōu)化促銷活動(dòng)流程在網(wǎng)上銀行促銷活動(dòng)中運(yùn)用數(shù)據(jù)挖掘技術(shù),采用運(yùn)用關(guān)聯(lián)分析,挖掘傳統(tǒng)銀行渠道重點(diǎn)產(chǎn)品和網(wǎng)上銀行系統(tǒng)重點(diǎn)產(chǎn)品的業(yè)務(wù)數(shù)據(jù),挖掘非網(wǎng)絡(luò)銀行系統(tǒng)和網(wǎng)絡(luò)銀行系統(tǒng)業(yè)務(wù)以及網(wǎng)絡(luò)銀行系統(tǒng)不同業(yè)務(wù)或者產(chǎn)品之間的關(guān)聯(lián)關(guān)系,通過(guò)數(shù)據(jù)挖掘技術(shù)尋找符合網(wǎng)上銀行系統(tǒng)運(yùn)營(yíng)條件的關(guān)聯(lián)關(guān)系,探索網(wǎng)上銀行系統(tǒng)不同產(chǎn)品和業(yè)務(wù)之間的依存性或者相似性[2],由此將網(wǎng)上銀行系統(tǒng)的某一項(xiàng)業(yè)務(wù)或者產(chǎn)品作為重點(diǎn)促銷產(chǎn)品來(lái)拉動(dòng)其他業(yè)務(wù)和產(chǎn)品的銷售,并且可以將一些業(yè)務(wù)或者產(chǎn)品組合起來(lái)進(jìn)行有針對(duì)性的促銷,提高網(wǎng)上銀行促銷活動(dòng)效果。另外,挖掘優(yōu)質(zhì)、有潛力客戶特征,優(yōu)質(zhì)客戶可以銀行提供大量的業(yè)務(wù)收入和交易量,因此可以通過(guò)數(shù)據(jù)挖掘技術(shù)的聚類方法分析銀行系統(tǒng)的客戶構(gòu)成,挖掘優(yōu)質(zhì)客戶的共同特征,為網(wǎng)上銀行促銷活動(dòng)提供重要的依據(jù)。
3結(jié)束語(yǔ)
數(shù)據(jù)挖掘論文范文4
國(guó)外很多大學(xué)都開(kāi)設(shè)了數(shù)據(jù)挖掘類課程,波士頓大學(xué)的“數(shù)據(jù)管理與商務(wù)智能”課程主要包括基礎(chǔ)、核心技術(shù)、應(yīng)用三部分。授課方式包括理論內(nèi)容講授、案例教學(xué),以及學(xué)生以團(tuán)隊(duì)合作方式完成項(xiàng)目并進(jìn)行課堂演講。從麻省理工學(xué)院開(kāi)放性課程資料(斯隆管理學(xué)院)中可以看出,在每章講解一種算法之后都盡可能地安排了商務(wù)實(shí)例的分析,并在課程后期安排了客座講座的形式。國(guó)內(nèi)對(duì)于數(shù)據(jù)挖掘的教學(xué)類研究成果也很多,主要集中在三類問(wèn)題的研究上,較為普遍的是根據(jù)專業(yè)建立大綱的研究,例如針對(duì)電子商務(wù)專業(yè)進(jìn)行大綱設(shè)計(jì);另外也有專注研究某一種或多種適合數(shù)據(jù)挖掘或商務(wù)智能的教學(xué)方法,如專題研討法;還有的討論算法理解與程序設(shè)計(jì)、軟件應(yīng)用的關(guān)系。
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國(guó)際勞工組織引入教學(xué)之中,開(kāi)發(fā)出以現(xiàn)場(chǎng)教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國(guó)家得到廣泛應(yīng)用。由于該教學(xué)法具有針對(duì)性、靈活性、現(xiàn)實(shí)性等特點(diǎn),越來(lái)越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究,本課程的知識(shí)點(diǎn)細(xì)化分為兩個(gè)層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度,針對(duì)較為復(fù)雜的算法進(jìn)行的知識(shí)點(diǎn)劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級(jí)主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進(jìn)行靈活處理,可強(qiáng)調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級(jí)主題模塊,可以作為擴(kuò)展材料介紹應(yīng)用,或?yàn)楦信d趣同學(xué)提供算法介紹;課程實(shí)踐模塊包含數(shù)據(jù)倉(cāng)庫(kù)建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實(shí)驗(yàn)步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進(jìn)行重要知識(shí)點(diǎn)的模塊化分析
重要知識(shí)點(diǎn)內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個(gè)算法,不同算法的在難度上有漸進(jìn)層次,同一種算法也有很大改進(jìn)研究空間,講授彈性比較大。因此,適合使用模塊化方法進(jìn)行處理,并且需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的內(nèi)容和難度。基礎(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹(shù)作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹(shù)算法有多種分類,需要進(jìn)行按照難易程度進(jìn)行選擇;最后要根據(jù)難度選擇其他分類算法進(jìn)行介紹。
4、結(jié)論
數(shù)據(jù)挖掘論文范文5
數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲(chǔ)以及測(cè)量技術(shù)的迅猛發(fā)展過(guò)程中,人們可以進(jìn)行信息的大量測(cè)量并進(jìn)行存儲(chǔ)。但是,在大量的信息背后卻沒(méi)有一種有效的手段和技術(shù)進(jìn)行直觀的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對(duì)目前大數(shù)據(jù)時(shí)代的一種應(yīng)急手段,使得有關(guān)計(jì)算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對(duì)機(jī)器的學(xué)習(xí)過(guò)程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒(méi)有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過(guò)沒(méi)有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無(wú)指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說(shuō),數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價(jià)值的信息。其第二個(gè)特征是,與機(jī)器學(xué)習(xí)特點(diǎn)相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對(duì)象則是現(xiàn)實(shí)中海量規(guī)模的數(shù)據(jù)庫(kù),其作用主要是用來(lái)處理一些異常現(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項(xiàng),甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點(diǎn)是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來(lái)進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來(lái)處理的。
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉(cāng)庫(kù),要根據(jù)實(shí)際情況而定,在易出現(xiàn)問(wèn)題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫(kù)。主要是用來(lái)把數(shù)據(jù)庫(kù)中的所有的存儲(chǔ)數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫(kù)雖然可以進(jìn)行大量的存儲(chǔ)數(shù)據(jù),同時(shí)也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒(méi)有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對(duì)手工方式進(jìn)行數(shù)據(jù)測(cè)試并建模。其次,在數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)選一數(shù)據(jù)集,作為對(duì)數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時(shí)變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對(duì)一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對(duì)數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對(duì)高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對(duì)數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測(cè)性的模型、數(shù)據(jù)的摘要等。隨后再?zèng)Q定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對(duì)當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過(guò)程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對(duì)數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過(guò)程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹(shù)還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時(shí),要注意幾個(gè)問(wèn)題,要充分利用結(jié)論對(duì)照其他的信息進(jìn)行校核,可對(duì)圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來(lái)決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無(wú)差錯(cuò),使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營(yíng)銷系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測(cè)性建模方法,也就是對(duì)歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測(cè)性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對(duì)象屬于連續(xù)型的變量,那么此類的推斷問(wèn)題可屬回歸問(wèn)題。根據(jù)歷史數(shù)據(jù)來(lái)進(jìn)行分析和檢測(cè),再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問(wèn)題得到解決。電力營(yíng)銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測(cè)出未來(lái)情況。把關(guān)聯(lián)規(guī)則成功引入電力營(yíng)銷分析,通過(guò)FP-Growth算法對(duì)電力營(yíng)銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場(chǎng)營(yíng)銷策略提供參謀和決策。對(duì)電力營(yíng)銷系統(tǒng)的應(yīng)用中,時(shí)間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測(cè)方法。這種方法的應(yīng)用中,對(duì)神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時(shí)間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營(yíng)銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時(shí)間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對(duì)電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對(duì)錯(cuò)誤模型的分析精度達(dá)到一定的精確度。
4、結(jié)語(yǔ)
數(shù)據(jù)挖掘論文范文6
云計(jì)算與云存儲(chǔ)的出現(xiàn),為圖書館文獻(xiàn)資源信息服務(wù)的建設(shè)注入了新的活力。利用云計(jì)算服務(wù)可以為圖書館提供存儲(chǔ)、平臺(tái)和計(jì)算功能,而圖書館也可以利用云服務(wù)來(lái)處理業(yè)務(wù),大大降低圖書館信息技術(shù)的資金成本和人力資源。圖書館通過(guò)對(duì)各類信息資源、格式采用一個(gè)統(tǒng)一的管理平臺(tái),實(shí)現(xiàn)更大的網(wǎng)絡(luò)信息效益,同時(shí)也可以共享應(yīng)用和數(shù)據(jù)。
2文獻(xiàn)資源存儲(chǔ)
2.1存儲(chǔ)現(xiàn)狀
從存儲(chǔ)系統(tǒng)的模式來(lái)看,當(dāng)前存儲(chǔ)技術(shù)有以下3種:直接連接存儲(chǔ)DAS(DirectAttachedStor-age)、網(wǎng)絡(luò)接入存儲(chǔ)NAS(NetworkAttachedStor-age)和存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN(StorageAreaNet-work)[1]。DAS是最早的服務(wù)器與磁盤直聯(lián)的存儲(chǔ)方式。由于存儲(chǔ)量小,該模式已經(jīng)不再適合圖書館大容量數(shù)據(jù)資源的存儲(chǔ)要求。NAS采用網(wǎng)絡(luò)TCP/IP技術(shù),優(yōu)點(diǎn)是可以支持多計(jì)算機(jī)平臺(tái),適合訪問(wèn)量不大的數(shù)據(jù)庫(kù)和事務(wù)處理。
2.2存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN
SAN是采用光纖通道交換機(jī)和光纖線纜把存儲(chǔ)設(shè)備和服務(wù)器機(jī)群連接。提供速率高達(dá)4Gbps的數(shù)據(jù)傳輸,是真正的高速共享存儲(chǔ)。它不占用外網(wǎng)的資源,具有自己獨(dú)立的存儲(chǔ)區(qū)域,光纖接口提供連接長(zhǎng)度達(dá)10km。其獨(dú)立的存儲(chǔ)管理系統(tǒng)對(duì)存儲(chǔ)設(shè)備進(jìn)行集中管理和監(jiān)測(cè)。與傳統(tǒng)的直連存儲(chǔ)方式相比,SAN更關(guān)注磁盤、磁帶等存儲(chǔ)設(shè)備的可靠結(jié)構(gòu)。成為最具發(fā)展?jié)摿Φ拇鎯?chǔ)模式,在大型數(shù)據(jù)庫(kù)資源存儲(chǔ)中是主流技術(shù)。在云存儲(chǔ)的技術(shù)支持下,我們可以利用光纖通道SAN陣列來(lái)存儲(chǔ)數(shù)據(jù)量成倍增加的信息資源數(shù)據(jù)。把SAN陣列劃分成若干邏輯區(qū)域,每個(gè)區(qū)域存放一個(gè)服務(wù)器上的數(shù)據(jù)。通過(guò)存儲(chǔ)區(qū)域網(wǎng)絡(luò)服務(wù)組之間的共享存儲(chǔ)陣列,可以實(shí)現(xiàn)存儲(chǔ)資源的聚合,采用集中存儲(chǔ)架構(gòu),服務(wù)器將接入這個(gè)存儲(chǔ)網(wǎng)絡(luò),并由存儲(chǔ)平臺(tái)統(tǒng)一提供空間并保證存儲(chǔ)系統(tǒng)的可靠性和可用性。
2.3陣列存儲(chǔ)形式
在存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN的數(shù)據(jù)存儲(chǔ)模式下,文獻(xiàn)信息資源是以磁盤陣列的方式存儲(chǔ)的。磁盤陣列是數(shù)據(jù)存儲(chǔ)的重要設(shè)備,其穩(wěn)定性和可靠性是非常重要的。考慮到圖書館文獻(xiàn)資源存儲(chǔ)量日益增大,磁盤以RAID5的陣列存儲(chǔ)形式構(gòu)成。在RAID5中,數(shù)據(jù)以塊為單位分布到各個(gè)硬盤上。RAID5本身不對(duì)數(shù)據(jù)進(jìn)行備份,而是把數(shù)據(jù)和與其相對(duì)應(yīng)的奇偶校驗(yàn)信息存儲(chǔ)到組成RAID5的各個(gè)陣列磁盤上,而且數(shù)據(jù)和奇偶校驗(yàn)信息分別存儲(chǔ)于不同的磁盤上。當(dāng)RAID5的一個(gè)磁盤數(shù)據(jù)損壞后,利用剩下的數(shù)據(jù)和相應(yīng)的奇偶校驗(yàn)信息可以恢復(fù)被損壞的數(shù)據(jù)[3]。RAID5是目前冗余能力和存儲(chǔ)安全性能非常好的方式。根據(jù)RAID5的特性,陣列中其中一塊磁盤是作為熱備盤使用的,正常狀態(tài)下該盤不存儲(chǔ)數(shù)據(jù)。
3數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)的安全存儲(chǔ)和有效利用是現(xiàn)代化圖書館文獻(xiàn)資源建設(shè)的2個(gè)重要方面。在數(shù)據(jù)得以安全存儲(chǔ)的前提下,如何利用好這些海量的數(shù)據(jù)信息,發(fā)現(xiàn)其中規(guī)律,用于指導(dǎo)現(xiàn)在或是未來(lái)的工作,就需要一門新的技術(shù)來(lái)研究它們的規(guī)律。數(shù)據(jù)挖掘技術(shù)就在這個(gè)背景下應(yīng)運(yùn)而生,并且得到了迅速的發(fā)展。數(shù)據(jù)挖掘簡(jiǎn)稱KDD知識(shí)發(fā)現(xiàn),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)。它是從龐大的不完整、模糊的隨機(jī)數(shù)據(jù)中提取潛在的和有價(jià)值的信息。例如:通過(guò)對(duì)讀者以往書籍的借閱情況進(jìn)行挖掘分析、對(duì)比,可以發(fā)現(xiàn)他們的學(xué)習(xí)情況、興趣愛(ài)好等規(guī)律,還可以通過(guò)分析,評(píng)估圖書館工作的成效,給圖書館的服務(wù)提供科學(xué)指導(dǎo)。其次,可以將關(guān)聯(lián)規(guī)則算法應(yīng)用到圖書流通數(shù)據(jù)的分析,挖掘讀者借閱行為中的潛在規(guī)則,以指導(dǎo)圖書館的讀者服務(wù)工作。應(yīng)用關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)借閱流通日志中圖書之間的關(guān)聯(lián),從而指導(dǎo)讀者的借閱行為和提供個(gè)性化服務(wù)。通過(guò)實(shí)驗(yàn)分析獲得的相關(guān)規(guī)律和結(jié)論,為圖書館數(shù)字資源的采購(gòu)、引進(jìn)以及個(gè)性化服務(wù)推薦提供有力的數(shù)據(jù)依據(jù)和決策管理支持。
4結(jié)束語(yǔ)