前言:尋找寫(xiě)作靈感?中文期刊網(wǎng)用心挑選的大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘及應(yīng)用,希望能為您的閱讀和創(chuàng)作帶來(lái)靈感,歡迎大家閱讀并分享。
摘要:隨著計(jì)算機(jī)科學(xué)和現(xiàn)代信息技術(shù)的不斷發(fā)展,各行各業(yè)在發(fā)展的過(guò)程中加大了對(duì)數(shù)據(jù)的重視程度,通過(guò)對(duì)各種數(shù)據(jù)的收集、采集、積累和分析,使得數(shù)據(jù)被賦予了更多的經(jīng)濟(jì)價(jià)值和社會(huì)價(jià)值,大數(shù)據(jù)顯示出了越來(lái)越重要的作用。在當(dāng)前的大數(shù)據(jù)時(shí)代,如何做好數(shù)據(jù)的挖掘與數(shù)據(jù)的應(yīng)用,是促進(jìn)社會(huì)發(fā)展的關(guān)鍵。通過(guò)數(shù)據(jù)挖掘技術(shù)和應(yīng)用,轉(zhuǎn)變了傳統(tǒng)的生活生產(chǎn)方式,極大推動(dòng)了生產(chǎn)效率的提升。基于此,本文針對(duì)大數(shù)據(jù)和大數(shù)據(jù)時(shí)代的概念進(jìn)行了概述,分析了數(shù)據(jù)挖掘應(yīng)用的分析方法,在此基礎(chǔ)上探討了大數(shù)據(jù)時(shí)代數(shù)據(jù)的挖掘與應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘;應(yīng)用
當(dāng)前社會(huì)高速發(fā)展,借助計(jì)算機(jī)技術(shù)使得信息流通速度更快,人與人之間的交流和交往越發(fā)密切,這使得人們的生活更加便利,大數(shù)據(jù)便是基于這樣的時(shí)代背景而產(chǎn)生。隨著云時(shí)代來(lái)臨,大數(shù)據(jù)引起了人們更多的關(guān)注,大數(shù)據(jù)通常被用來(lái)形容為企業(yè)創(chuàng)造的大量非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。2012年以來(lái),大數(shù)據(jù)被越來(lái)越多的提及,展現(xiàn)了信息時(shí)代來(lái)臨海量的數(shù)據(jù),反映出了時(shí)代的特征。當(dāng)前,數(shù)據(jù)開(kāi)始迅速膨脹,在大數(shù)據(jù)體量在不斷增長(zhǎng)的過(guò)程中,數(shù)據(jù)也開(kāi)始逐漸影響企業(yè)和社會(huì)的未來(lái)發(fā)展。因此,在大數(shù)據(jù)時(shí)代背景下針對(duì)數(shù)據(jù)進(jìn)行挖掘和應(yīng)用能夠展現(xiàn)出更多的經(jīng)濟(jì)效益和社會(huì)價(jià)值。
1大數(shù)據(jù)以及大數(shù)據(jù)時(shí)代相關(guān)概述
(1)大數(shù)據(jù)相關(guān)概述。大數(shù)據(jù)早先是IT行業(yè)的專用術(shù)語(yǔ),主要是指無(wú)法在一定時(shí)間和一定范圍內(nèi)使用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。為了更好處理這些數(shù)據(jù),處理者需要一種新的管理模式,并且使之具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)具有更多的戰(zhàn)略意義,其戰(zhàn)略意義不僅僅體現(xiàn)在龐大的數(shù)據(jù)信息中,還在于對(duì)這些數(shù)據(jù)進(jìn)行專業(yè)化的處理,發(fā)掘出大數(shù)據(jù)的更多功用。從技術(shù)上來(lái)看,大數(shù)據(jù)和云計(jì)算一樣,顧名思義大數(shù)據(jù)無(wú)法用單臺(tái)處理設(shè)備對(duì)數(shù)據(jù)進(jìn)行處理,需要借助分布式構(gòu)架才能對(duì)海量的信息數(shù)據(jù)進(jìn)行收集、分析和存儲(chǔ),最終為大數(shù)據(jù)的應(yīng)用提供保障。在當(dāng)前的大數(shù)據(jù)時(shí)代背景下,大數(shù)據(jù)的價(jià)值主要體現(xiàn)在以下幾個(gè)方面。一是借助大數(shù)據(jù)能夠?qū)οM(fèi)者所需要的產(chǎn)品或服務(wù)進(jìn)行精準(zhǔn)營(yíng)銷;二是借助大數(shù)據(jù)可以幫助小微企業(yè)進(jìn)行服務(wù)轉(zhuǎn)型,明確小微企業(yè)轉(zhuǎn)型發(fā)展的方向;三是借助大數(shù)據(jù),能夠使企業(yè)在互聯(lián)網(wǎng)的壓力下進(jìn)行轉(zhuǎn)型時(shí)充分挖掘大數(shù)據(jù)的價(jià)值,為企業(yè)的進(jìn)一步發(fā)展提供良好的參考依據(jù)。
(2)大數(shù)據(jù)時(shí)代相關(guān)概述。全球知名咨詢公司麥肯錫咨詢公司最早提出的“大數(shù)據(jù)”的概念。進(jìn)入大數(shù)據(jù)時(shí)代以來(lái),社會(huì)生活和生產(chǎn)發(fā)生著巨大變化。總體上來(lái)說(shuō),大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)中的信息呈現(xiàn)出了全新的特征,這些特征表現(xiàn)在數(shù)據(jù)體量龐大,大數(shù)據(jù)的起始計(jì)量單位至少是P,如此龐大的數(shù)據(jù),為數(shù)據(jù)賦予了更多的價(jià)值。其次,數(shù)據(jù)的類型繁多,包括網(wǎng)絡(luò)日志、音視頻、圖片、地理位置等各種信息。再次,數(shù)據(jù)呈現(xiàn)出價(jià)值密度低的特點(diǎn),隨著互聯(lián)網(wǎng)和信息技術(shù)的廣泛應(yīng)用,價(jià)值物聯(lián)網(wǎng)的不斷普及,信息感知無(wú)處不在海量的信息隨時(shí)都在被收集,這些海量的信息需要經(jīng)過(guò)處理才能得到相應(yīng)的價(jià)值。最后,大數(shù)據(jù)時(shí)代的數(shù)據(jù)信息具有速度快和實(shí)效高的特點(diǎn),這樣的特征是大數(shù)據(jù)挖掘區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的特征。
2數(shù)據(jù)挖掘技術(shù)的分析方法
(1)聚類。聚類分析是在數(shù)據(jù)處理的過(guò)程中,根據(jù)數(shù)據(jù)的類型將其劃分為多個(gè)類似的組別。這樣能夠最大程度提高相同類型數(shù)據(jù)之間的關(guān)聯(lián)性,再通過(guò)不同類型數(shù)據(jù)之間的關(guān)聯(lián)性找到可用的數(shù)據(jù)集。通過(guò)這樣的聚類方式,能夠應(yīng)用于客戶群體、客戶分類、背景分析等各個(gè)方面。從應(yīng)用領(lǐng)域來(lái)看,數(shù)據(jù)挖掘的聚類方式被廣泛應(yīng)用于心理學(xué)、醫(yī)學(xué)、銷售等各個(gè)領(lǐng)域。
(2)分類以及事先推測(cè)。分類是根據(jù)數(shù)據(jù)類型的不同預(yù)先對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)從數(shù)據(jù)形式、數(shù)據(jù)特點(diǎn)一一對(duì)應(yīng)分類,結(jié)合不同的目的進(jìn)行統(tǒng)計(jì)和劃分。通過(guò)這樣的方式能夠根據(jù)不同類型的某一特點(diǎn),反映出數(shù)據(jù)項(xiàng)目的需求。這種應(yīng)用方式可以被應(yīng)用于客戶分類、客戶特征、客戶滿意度調(diào)查、消費(fèi)者消費(fèi)行為的趨勢(shì)預(yù)測(cè)等等。
(3)關(guān)聯(lián)分析。自然界中的事物具有一定得聯(lián)系,借助這一特征在數(shù)據(jù)挖掘的過(guò)程中借助不同數(shù)據(jù)之間的聯(lián)系區(qū)別,能夠更好查找數(shù)據(jù)集合與對(duì)象集合之間的因果結(jié)構(gòu)。這樣的數(shù)據(jù)挖掘技術(shù)能夠應(yīng)用于交易數(shù)據(jù)中不同商品的關(guān)聯(lián)性,從而進(jìn)一步避免商品交易過(guò)程中可能會(huì)出現(xiàn)的各種問(wèn)題。或者借助這一方式,尋找市場(chǎng)對(duì)消費(fèi)產(chǎn)生的各種影響,幫助企業(yè)不斷改良自身的產(chǎn)品,不斷優(yōu)化自身的服務(wù),使之達(dá)到利益的最大化。
(4)特征分析方法。特征分析方法是在數(shù)據(jù)庫(kù)內(nèi)部的其中一組數(shù)據(jù)中提取關(guān)鍵數(shù)據(jù),通過(guò)對(duì)關(guān)鍵數(shù)據(jù)的分析顯示出整個(gè)數(shù)據(jù)的特點(diǎn)。這樣的方式能夠減輕數(shù)據(jù)處理和分析人員的工作壓力和內(nèi)容,使得數(shù)據(jù)分析和處理工作更加高效。對(duì)于企業(yè)來(lái)說(shuō),建筑特征分析方法能夠在數(shù)據(jù)挖掘時(shí),借助分析過(guò)的數(shù)據(jù)找到出現(xiàn)問(wèn)題的原因,能夠使企業(yè)開(kāi)發(fā)出更多的消費(fèi)者,也能夠使企業(yè)更好留住客戶。
3數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(1)應(yīng)用于市場(chǎng)營(yíng)銷領(lǐng)域。從大數(shù)據(jù)支撐的特點(diǎn)以及社會(huì)發(fā)展經(jīng)濟(jì)的形勢(shì)來(lái)看,市場(chǎng)營(yíng)銷領(lǐng)域是大數(shù)據(jù)應(yīng)用最廣最多的領(lǐng)域。在實(shí)際運(yùn)用的過(guò)程中借助大數(shù)據(jù)挖掘技術(shù)能夠幫助企業(yè)分析不同消費(fèi)者和不同客戶的消費(fèi)習(xí)慣和特點(diǎn),在此基礎(chǔ)上能夠預(yù)測(cè)消費(fèi)者的消費(fèi)行為,以這樣的方式對(duì)消費(fèi)者進(jìn)行精準(zhǔn)營(yíng)銷從而提高企業(yè)的商品銷售業(yè)績(jī)。除此之外,在市場(chǎng)營(yíng)銷的過(guò)程中還能根據(jù)消費(fèi)者的不同需求,為消費(fèi)者推送精準(zhǔn)的內(nèi)容,以此增強(qiáng)商品對(duì)于消費(fèi)者的吸引力,從而獲取更多的客源。同時(shí),通過(guò)優(yōu)化自身的售后服務(wù)或者其他服務(wù),能夠幫助相關(guān)企業(yè)維持穩(wěn)定和長(zhǎng)期的客戶資源,使企業(yè)能夠在激烈的市場(chǎng)環(huán)境中處于良好的競(jìng)爭(zhēng)地位。當(dāng)前,大數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域,在市場(chǎng)營(yíng)銷方面不僅僅被應(yīng)用于商品銷售和超市購(gòu)物等等,已經(jīng)開(kāi)始普及到各個(gè)金融領(lǐng)域之中。在銀行業(yè)、保險(xiǎn)業(yè)、電子商務(wù)領(lǐng)軍、電信零售等各個(gè)行業(yè)中都可以借助數(shù)據(jù)挖掘技術(shù)收取消費(fèi)者信息分析消費(fèi)者行為,使得本行業(yè)能夠擁有更多的潛在客戶,從而為企業(yè)帶來(lái)更多的經(jīng)濟(jì)效益。
(2)應(yīng)用于科學(xué)研究領(lǐng)域。在科學(xué)研究領(lǐng)域中,需要通過(guò)大量的實(shí)驗(yàn)進(jìn)行論證,這樣才能加快科研成果的轉(zhuǎn)化。在實(shí)際運(yùn)用的過(guò)程中,由于實(shí)驗(yàn)涉及大量的數(shù)據(jù),還要對(duì)這些數(shù)據(jù)找出相關(guān)的規(guī)律最終形成事實(shí),而在這些數(shù)據(jù)挖掘的過(guò)程中需要借助一定的算法才能更好進(jìn)行數(shù)據(jù)收集和整理。基于這樣的科學(xué)研究領(lǐng)域特點(diǎn),利用大數(shù)據(jù)挖掘技術(shù),能夠找出科學(xué)研究產(chǎn)生1大數(shù)據(jù)技術(shù)的應(yīng)用背景目前的大數(shù)據(jù)技術(shù)包含了基于數(shù)據(jù)收集、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)清潔、數(shù)據(jù)挖掘和基于數(shù)據(jù)模型等。其中,數(shù)據(jù)收集主要應(yīng)該包括兩個(gè)部分。一方面,使用網(wǎng)絡(luò)爬蟲(chóng)這一手段把出現(xiàn)在網(wǎng)絡(luò)和移動(dòng)設(shè)備上的各類信息都收集了起來(lái),并且有效地對(duì)這些信息加以了管理。另一方面,使用不同類型的傳感器,收集各種行業(yè)的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)就是按照系統(tǒng)規(guī)定的形態(tài)來(lái)收集所需要的數(shù)據(jù),例如物理和實(shí)測(cè)信息。顯而易見(jiàn),互聯(lián)網(wǎng)技術(shù)取得了很大的進(jìn)步并且仍在進(jìn)步當(dāng)中,這就導(dǎo)致了在世界范圍內(nèi)的數(shù)據(jù)量已經(jīng)增加到很龐大的地步,我們的生活的變化可以用天翻地覆來(lái)形容。目前大數(shù)據(jù)處理方法常用的大數(shù)據(jù)技術(shù)有Spark、Hadoop以及MapReduce。大數(shù)據(jù)技術(shù)在分析數(shù)據(jù)集背后隱藏的信息時(shí),通過(guò)機(jī)器學(xué)習(xí)等方式帶來(lái)了很大的商業(yè)價(jià)值。大數(shù)據(jù)技術(shù)有很大的作用,目前的大數(shù)據(jù)技術(shù)包含了基于數(shù)據(jù)收集、數(shù)據(jù)儲(chǔ)存、數(shù)據(jù)清潔、數(shù)據(jù)挖掘和基于數(shù)據(jù)模型等。其中,數(shù)據(jù)收集主要應(yīng)該包括兩個(gè)部分。一方面,使用網(wǎng)絡(luò)爬蟲(chóng)這一手段把出現(xiàn)在網(wǎng)絡(luò)和移動(dòng)設(shè)備上的各類信息都收集了起來(lái),并且有效地對(duì)這些信息加以了管理。另一方面,傳感器的使用,尤其是在各種傳感器類型的發(fā)展下,對(duì)不同行業(yè)內(nèi)數(shù)據(jù)的收集起到了正向的促進(jìn)作用。在對(duì)數(shù)據(jù)存儲(chǔ)工作時(shí),大數(shù)據(jù)的發(fā)展可以在龐大的數(shù)據(jù)內(nèi)按照系統(tǒng)所規(guī)定的方式收集需要的大量數(shù)據(jù),比如對(duì)物理和實(shí)測(cè)信息的收集。數(shù)據(jù)清洗所指的是對(duì)收集到的缺陷數(shù)據(jù)進(jìn)行篩選及相應(yīng)處理工作的過(guò)程,通過(guò)這點(diǎn)來(lái)保證結(jié)構(gòu)的完整性。數(shù)據(jù)挖掘工作是以機(jī)器學(xué)習(xí)的方式,智能化挖掘數(shù)據(jù)中能分析得來(lái)的隱藏信息。而對(duì)于數(shù)據(jù)模型使用工作則是根據(jù)收集到的數(shù)據(jù)建立起智能模型并進(jìn)行各種各樣的預(yù)測(cè)。隨著大數(shù)據(jù)技術(shù)的發(fā)展和進(jìn)步,其在各行業(yè)的應(yīng)用也愈發(fā)廣泛。例如,根據(jù)大數(shù)據(jù)技術(shù)對(duì)信息進(jìn)行采集和分析而建立起的銀行信用卡詐騙檢測(cè)模型來(lái)預(yù)防詐騙犯罪行為,同時(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)風(fēng)險(xiǎn)評(píng)估和基因信息分析等方面也有重要的應(yīng)用。
作者:迎梅 單位:呼和浩特民族學(xué)院