前言:中文期刊網(wǎng)精心挑選了數(shù)據(jù)分析的方法范文供你參考和學(xué)習(xí),希望我們的參考范文能激發(fā)你的文章創(chuàng)作靈感,歡迎閱讀。
數(shù)據(jù)分析的方法范文1
關(guān)鍵詞:粗糙集理論;數(shù)據(jù)分析方法;信息系統(tǒng);決策表;屬性約簡(jiǎn)
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理論[1]是波蘭數(shù)學(xué)家Z.Pawlak于1982年提出的,它建立在完善的數(shù)學(xué)基礎(chǔ)之上,是一種新的處理含糊性和不確定性問(wèn)題的數(shù)學(xué)工具。其主要思想是在保持分類能力不變的前提下,通過(guò)知識(shí)約簡(jiǎn),導(dǎo)出問(wèn)題的決策或分類規(guī)則[2]。由于粗糙集理論不需要任何預(yù)備或額外的有關(guān)數(shù)據(jù)信息,使得粗糙集理論成為研究熱點(diǎn)之一,被廣泛應(yīng)用與知識(shí)發(fā)現(xiàn)、機(jī)器學(xué)習(xí)、決策分析、模式識(shí)別、專家系統(tǒng)和數(shù)據(jù)挖掘等領(lǐng)域。
屬性約簡(jiǎn)是粗糙集理論中核心研究?jī)?nèi)容之一[3]。在眾多的屬性約簡(jiǎn)算法中,大致可以分為兩類:一類是基于信息熵的啟發(fā)式算法[4],這類算法往往不能得到系統(tǒng)的所有約簡(jiǎn).另一類是基于區(qū)分矩陣和區(qū)分函數(shù)構(gòu)造的算法[5],這種算法直觀,易于理解,能夠計(jì)算出所有約簡(jiǎn)。但在區(qū)分矩陣中會(huì)出現(xiàn)大量的重復(fù)元素,造成時(shí)間和空間的浪費(fèi),從而降低了屬性約簡(jiǎn)算法的效率。
本文基于數(shù)據(jù)分析方法[6]的屬性簡(jiǎn)約算法是在保持分類能力不變的前提下,逐個(gè)約去冗余的屬性,直到不再有冗余的屬性,此時(shí)得到的屬性集是最小屬性集,即為約簡(jiǎn)。該算法簡(jiǎn)單,能夠求出所有約簡(jiǎn),不會(huì)出現(xiàn)區(qū)分矩陣中大
量的重復(fù)元素,從而提高了屬性約簡(jiǎn)的效率。
2 粗糙集概念
定義2.1設(shè)U為所討論對(duì)象的非空有限集合,稱為論域;R為建立在U上的一個(gè)等價(jià)關(guān)系族,稱二元有序組S=(U,R)為近似空間。
定義2.2令R為等價(jià)關(guān)系族,設(shè)P?哿R,且P≠?I,則P中所有等價(jià)關(guān)系的交集稱為P上的不可分辨關(guān)系,記作IND(P),即有:[x] IND(P)= ∩ [x]R,顯然IND(P)也是等價(jià)關(guān)系。
定義2.3稱4元有序組K=(U,A,V,f)為信息系統(tǒng),其中U為所考慮對(duì)象的非空有限集合,稱為論域;A為屬性的非空有限集合;V=∪Va,Va為屬性a的值域;f:U×AV是一個(gè)信息函數(shù),?坌x∈U,a∈A,f(x,a)∈Va。對(duì)于給定對(duì)象x,f(x,a)賦予對(duì)象x在屬性a下的屬性值。信息系統(tǒng)也可簡(jiǎn)記為K=(U,A)。若A=C∪D且C∩D=?I,則S稱,為決策表,其中C為條件屬性集,D為決策屬性集。
顯然,信息系統(tǒng)中的屬性與近似空間中的等價(jià)關(guān)系相對(duì)應(yīng)。
定義2.4設(shè)K=(U,A,V,f)為信息系統(tǒng),P?哿A且P≠?I,定義由屬性子集P導(dǎo)出的二元關(guān)系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
則IND(P)也是等價(jià)關(guān)系,稱其為由屬性集P導(dǎo)出的不可分辨關(guān)系。
定義2.5稱決策表是一致的當(dāng)且僅當(dāng)D依賴于C,即IND(C)?哿IND(D),否則決策表是不一致的。一致決策表說(shuō)明:在不同個(gè)體的條件屬性值相同時(shí),他們的決策屬性值也相同。
定義2.6設(shè)K=(U,A)為一個(gè)信息系統(tǒng)。若P?哿A是滿足IND(P)=IND(A)的極小屬性子集,則稱P為A的一個(gè)約簡(jiǎn),或稱為信息系統(tǒng)的一個(gè)約簡(jiǎn)。
定義2.7設(shè)K=(U,CUD)為一個(gè)決策表,其中C為條件屬性集,D為決策屬性,若P?哿C為滿足POSC(D)=POSP(D)的極小屬性子集,則稱P為決策表K的一個(gè)約簡(jiǎn)。其中POSC(D)表示決策D關(guān)于屬性集C的正域。
定義2.8數(shù)據(jù)分析方法對(duì)于信息系統(tǒng)K=(U,A),逐個(gè)移去A中的屬性,每移去一個(gè)屬性即刻檢查新得到的屬性子集的不可分辨關(guān)系,如果等于IND(A),則該屬性可被約去,否則該屬性不可被約去;對(duì)于決策表K=(U,CUD),逐個(gè)移去C中的屬性,每移去一個(gè)屬性即刻檢其決策表,如果不出現(xiàn)新的不一致,則該屬性可被約去,否則該屬性不可被約去。
3 基于數(shù)據(jù)分析方法的屬性簡(jiǎn)約算法
3.1 算法思路
利用函數(shù)的遞歸調(diào)用,逐個(gè)判定信息系K=(U,A)中屬性a(a∈A),若IND(A)=ND(A-{a}),則a可以約去,A‘=A-{a},否則a不可以約去,繼續(xù)檢查A‘中的每個(gè)屬性是否能被約去,此過(guò)程一直進(jìn)行下去,直到出現(xiàn)某一屬性子集中的每個(gè)屬性都不可約去為止,此時(shí)該屬性子集即為所求的屬性簡(jiǎn)約。對(duì)于決策表,每次檢查是否增加了不一致的決策規(guī)則,作為是否約去屬性的依據(jù)。
算法如下:
輸入:信息系統(tǒng)K=(U,A)。
輸出:K的屬性約簡(jiǎn)。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基數(shù)//
for j=i+1to|U|
begin
r=|R|//|R|表示屬性個(gè)數(shù)//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被約去,return0
end
a可以被約去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示屬性個(gè)數(shù)//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被輸出)then
輸出A中所有元素//flag≠0,說(shuō)明A中所有元素不可移去,且不會(huì)被重復(fù)輸出//
End
end
以上給出的函數(shù)是求解信息系統(tǒng)的屬性約簡(jiǎn)算法;對(duì)于決策表,只要將Match(A’)函數(shù)中的if語(yǔ)句的條件換成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是條件屬性個(gè)數(shù),ag是決策屬性。Reduce (A)函數(shù)中|R|換成|C|即可。該算法適用于一致決策表,對(duì)非一致決策表,算法類似,也就是逐個(gè)移去屬性并檢查決策表是否出現(xiàn)新的不一致,作為約去此屬性的依據(jù)。
4 舉例
文獻(xiàn)[7]中決策表1,a,b,c,d,e是條件屬性,g是決策屬性,求出的約簡(jiǎn)是{a,b,d}
應(yīng)用本算法,求得的屬性約簡(jiǎn)為{a,e}和{a,b,d},得到?jīng)Q策簡(jiǎn)化表2和表3。
表1 決策表表2簡(jiǎn)化表表3簡(jiǎn)化表
如果將決策表表1看作一信息系統(tǒng),運(yùn)用本算法,求得的屬性約簡(jiǎn)有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 結(jié)束語(yǔ)
本文通過(guò)數(shù)據(jù)分析方法討論了屬性約簡(jiǎn)問(wèn)題。該算法是基于不可分辨關(guān)系的,具有直觀、易于理解和完備性的特點(diǎn)。當(dāng)屬性和對(duì)象都較少時(shí),效率較高,但當(dāng)屬性和對(duì)象較多時(shí),計(jì)算的復(fù)雜度較高。實(shí)例表明,該算法是有效的。
參考文獻(xiàn):
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]張文修,吳偉志,梁吉業(yè)等.粗糙集理論與方法[M].北京:科學(xué)出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王國(guó)胤,于洪,楊大春.基于條件信息熵的決策表約簡(jiǎn)[J].計(jì)算機(jī)學(xué)報(bào),2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
[6]劉請(qǐng).Rough集及Rough推理[M].北京:科學(xué)出版社,2001.
數(shù)據(jù)分析的方法范文2
關(guān)鍵詞 自組織映射 組織特異性基因 管家基因 基因表達(dá)譜
一、SOM算法介紹
由Kohonen提出的自組織映射(SOM)的神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)中適合用于對(duì)數(shù)據(jù)進(jìn)行分類的有效方法。SOM神經(jīng)網(wǎng)絡(luò)包含一個(gè)輸入層和一個(gè)輸出層,組織成一個(gè)二維的網(wǎng)格結(jié)構(gòu)(圖1.1)。該網(wǎng)絡(luò)能夠從任意一個(gè)隨機(jī)選擇輸入的結(jié)點(diǎn)開(kāi)始最終形成一個(gè)拓?fù)浣Y(jié)構(gòu)的映射,這個(gè)映射反映了輸入模式的內(nèi)在的關(guān)系。但是運(yùn)用SOM有一些參數(shù)的限制,首先需要指定類別數(shù)目,對(duì)映射空間結(jié)點(diǎn)進(jìn)行權(quán)值的初始化等。如(圖1.1)所示,SOM網(wǎng)絡(luò)是一個(gè)的映射,如果這個(gè)神經(jīng)元被安排在一個(gè)平面網(wǎng)格上面的話,這個(gè)神經(jīng)網(wǎng)絡(luò)就稱為二維神經(jīng)網(wǎng)絡(luò),因?yàn)檫@個(gè)網(wǎng)絡(luò)將一個(gè)高維的輸入向量映射到一個(gè)二維的平面上面。給定一個(gè)網(wǎng)絡(luò),輸入向量是一個(gè)維的向量,相應(yīng)的第個(gè)突觸向量的第個(gè)元素與輸入向量的第個(gè)元素相連,這樣,一個(gè)維的突觸向量就和第個(gè)神經(jīng)元實(shí)行連接。
圖1.1 SOM網(wǎng)絡(luò)的基本結(jié)構(gòu)
SOM算法描述如下:
(1)令網(wǎng)絡(luò)學(xué)習(xí)次數(shù),賦予初始化權(quán)值向量一個(gè)小的隨機(jī)向量值,對(duì)拓?fù)溧徲颍ǎW(xué)習(xí)率()進(jìn)行初始化,設(shè)置網(wǎng)絡(luò)總的學(xué)習(xí)次數(shù)()。
(2)當(dāng)學(xué)習(xí)次數(shù)()小于總的學(xué)習(xí)次數(shù)()時(shí),重復(fù)步驟3至步驟6。
(3)隨機(jī)選一個(gè)輸入向量進(jìn)入網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
(4)確定獲勝神經(jīng)元,相應(yīng)的權(quán)值向量為與輸入向量距離最短的向量,成為獲勝神經(jīng)元,輸入向量與獲勝神經(jīng)元的最短距離為,定義如下:
(1.1)
(5)按照下式更新獲勝神經(jīng)元及其鄰域內(nèi)神經(jīng)元權(quán)值向量:
(1.2)
與函數(shù)定義如下:(1.3)
(6)令,如果,回到第(3)步繼續(xù)訓(xùn)練,否則結(jié)束訓(xùn)練。
二、數(shù)值模擬計(jì)算
本文以HUGEindex數(shù)據(jù)庫(kù)中人7000多條基因在19個(gè)正常組織中的表達(dá)情況這19個(gè)組織中表達(dá)的基因?yàn)闃颖緦?duì)其進(jìn)行分析。不同組織下的全基因表達(dá)數(shù)據(jù)構(gòu)成了一個(gè)7070x59的數(shù)據(jù)矩陣,其中每一個(gè)元素表示第個(gè)基因在第個(gè)組織中的表達(dá)水平值,行向量代表基因在19個(gè)人組織中的表達(dá)水平,成為基因的表達(dá)譜,列向量代表某一組織的各基因的表達(dá)水平。
(1.4)
本文運(yùn)用SOM方法對(duì)人基因19個(gè)組織的59個(gè)樣本進(jìn)行聚類,SOM網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)見(jiàn)(圖1.2)及參數(shù)選擇見(jiàn)表(表1.1)。
圖1.2 樣本聚類SOM網(wǎng)絡(luò)結(jié)構(gòu)圖
上圖中,根據(jù)Genechip得到的人體19個(gè)組織的59個(gè)微陣列數(shù)據(jù)所得到的信息,我們采用4x5的二維拓?fù)浣Y(jié)構(gòu)的SOM網(wǎng)絡(luò)對(duì)人體組織樣本進(jìn)行分類(其中第(4,5)個(gè)結(jié)點(diǎn)為空),圖中每個(gè)結(jié)點(diǎn)的位置(結(jié)點(diǎn)位置用與輸入模式維數(shù)相同的向權(quán)值向量表示,初始權(quán)值由系統(tǒng)自動(dòng)產(chǎn)生)為各個(gè)結(jié)點(diǎn)權(quán)值尺度化之后所得到的位置。
三、結(jié)論
通過(guò)分類可以將芯片實(shí)驗(yàn)的59個(gè)樣本按照人體組織類別分為19個(gè)類別,并且與采用層次聚類法所得結(jié)果進(jìn)行比較,可以看出自組織映射的聚類方法與層次聚類方法比較,可以看出采用SOM網(wǎng)絡(luò)聚類方法比層次聚類得到的結(jié)果更為明確,其分類正確率達(dá)到了92.2%,證明了SOM方法是有效的。
參考文獻(xiàn):
[1]孫嘯,陸祖宏,謝建明.生物信息學(xué)基礎(chǔ)[M].北京:清華大學(xué)出版社,2005:282-285.
[2]許東,吳錚.基于matlab6.x的神經(jīng)網(wǎng)絡(luò)系統(tǒng)分析與設(shè)計(jì)[M].西安電了科技大學(xué)出版社,2002.
[3]閻凡平,張長(zhǎng)水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京:清華大學(xué)出版社,2005.:11-34,360-395.
作者簡(jiǎn)介:
數(shù)據(jù)分析的方法范文3
【關(guān)鍵詞】大數(shù)據(jù)分析;電網(wǎng)調(diào)度能力;方法;應(yīng)用
0.引言
為了評(píng)測(cè)區(qū)域內(nèi)電網(wǎng)調(diào)度能力,根據(jù)調(diào)度能力評(píng)測(cè)結(jié)果,調(diào)整輸變電調(diào)度方案,提高變壓器等主要設(shè)備的可靠運(yùn)行,合理利用電網(wǎng)中各項(xiàng)資源和設(shè)備。本發(fā)明的目的是提供一種基于計(jì)算機(jī)實(shí)現(xiàn)的評(píng)測(cè)電網(wǎng)調(diào)度能力的方法,該方法通過(guò)對(duì)電壓、有功功率、無(wú)功功率的分析,保持各個(gè)變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運(yùn)行的電能損耗,提高電網(wǎng)運(yùn)行的可靠性,提升電網(wǎng)調(diào)度水平。
1.大數(shù)據(jù)分析評(píng)測(cè)電網(wǎng)的現(xiàn)狀
隨著我國(guó)城市化的發(fā)展逐漸加快,我國(guó)對(duì)電力的需求也在逐漸的增多,未來(lái)十幾甚至幾十年,電力需求的增長(zhǎng)主要集中在城市地區(qū)。這也就對(duì)我國(guó)的電網(wǎng)帶來(lái)很大的挑戰(zhàn),城市電網(wǎng)是城市的重要基礎(chǔ)設(shè)施,也是電力網(wǎng)的重要組成部分。建設(shè)好城市電網(wǎng)對(duì)滿足城市經(jīng)濟(jì)發(fā)展、人民生活水平提高具有重大意義。但是,由于我國(guó)長(zhǎng)期以來(lái)收著“重主網(wǎng)、輕配網(wǎng)”的思想,導(dǎo)致我國(guó)很長(zhǎng)一段時(shí)間內(nèi),對(duì)電網(wǎng)的投資非常的少,城市的電網(wǎng)發(fā)展普遍落后于高壓電網(wǎng)[1]。導(dǎo)致我國(guó)在很長(zhǎng)一段時(shí)間內(nèi),處于用電不平衡的情況,很多的地方在年前或者重大節(jié)日之前就會(huì)出現(xiàn)的停電的現(xiàn)象。
2.大數(shù)據(jù)分析評(píng)測(cè)電網(wǎng)調(diào)度能力的具體方法
2.1獲取兩卷變或三卷變高低壓側(cè)的監(jiān)控?cái)?shù)據(jù)
該方法主要是用根據(jù)變壓器端的終端設(shè)備,來(lái)獲取的,首先通過(guò)各地市部署的調(diào)度EMS系統(tǒng),將變電站中各變壓器的運(yùn)行情況準(zhǔn)確的監(jiān)控,通過(guò)變壓器內(nèi)的監(jiān)控元件,對(duì)變壓器的的運(yùn)行情況、采集電壓、有功負(fù)荷、無(wú)功負(fù)荷等檢測(cè)數(shù)據(jù),按指定頻率采集。然后將采集的數(shù)據(jù)通過(guò)生產(chǎn)區(qū)的專用網(wǎng)絡(luò)進(jìn)行傳輸,通過(guò)生產(chǎn)區(qū)的安全交換機(jī)制放置到電力系統(tǒng)信息內(nèi)網(wǎng),開(kāi)始清洗、篩選,去除設(shè)備檢測(cè)的異常數(shù)據(jù),保留有效數(shù)據(jù)用于負(fù)載率分析該評(píng)測(cè)電網(wǎng)調(diào)度能力工具通過(guò)在信息內(nèi)網(wǎng)中載入電網(wǎng)運(yùn)行的監(jiān)控?cái)?shù)據(jù)[2]。
2.2得到變壓器實(shí)際功率與額定功率的比值
通過(guò)對(duì)變壓器內(nèi)高低壓側(cè)的檢測(cè)數(shù)據(jù),計(jì)算變壓器實(shí)際功率與額定功率的比值,負(fù)責(zé)率分析,接下來(lái)對(duì)采集的調(diào)度EMS系統(tǒng)的電網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行計(jì)算,負(fù)載率有兩種計(jì)算方法,一是根據(jù)選定的地區(qū)、時(shí)間段,使用公式二“有功負(fù)荷與無(wú)功負(fù)荷平方根/容量”計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;二是根據(jù)選定的地區(qū)、時(shí)間段,使用公式“有功負(fù)荷/(容量*0.95)”計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率[3]。
2.3計(jì)算各個(gè)變壓器的平均負(fù)載率以及平均負(fù)載率的平均值
首先要通過(guò)選定的地區(qū)、時(shí)間段,得到該地區(qū)在本時(shí)間段內(nèi)各個(gè)變壓器的平均負(fù)載率以及平均負(fù)載率的平均值。然后再計(jì)算各個(gè)變壓器平均負(fù)載率的均方差,由變壓器的均方差,判斷選定區(qū)域在該時(shí)間段的調(diào)度運(yùn)行能力。主變不均衡度分析,根據(jù)選定地區(qū)和時(shí)間段,統(tǒng)計(jì)負(fù)載率分析結(jié)果,得出平均負(fù)載率[4]。根據(jù)平均負(fù)載率計(jì)算各個(gè)變壓器平均負(fù)載率的均方差,作為變壓器的不均衡度,將結(jié)果逐級(jí)放大,能夠得出變壓器、變電站、縣公司、市公司乃至網(wǎng)省公司在該時(shí)間段的調(diào)度健康情況,從而有效的調(diào)整調(diào)度策略和計(jì)劃,改善電網(wǎng)運(yùn)行情況。
3.大數(shù)據(jù)分析評(píng)測(cè)電網(wǎng)調(diào)度能力的應(yīng)用
3.1調(diào)度EMS數(shù)據(jù)采集
要對(duì)EMS數(shù)據(jù)采集,首先要制定EMS系統(tǒng)監(jiān)控?cái)?shù)據(jù)的格式,然后加載指定格式的調(diào)度數(shù)據(jù),其中指定數(shù)據(jù)額格式要求主要為:(1)按“變電站+地區(qū)+變電站電壓等級(jí)+主變名稱+時(shí)間”的順序排序,每小時(shí)記錄一次,主要記錄每個(gè)整點(diǎn)、時(shí)點(diǎn)的有功、無(wú)功負(fù)荷該數(shù)據(jù)容量的單位是MVA,負(fù)荷的單位是MW。(2)時(shí)間,變電站,地區(qū),變電站電壓等級(jí),主變名稱,繞組電壓,容量,有功負(fù)荷值,無(wú)功負(fù)荷值。(3)變電站的數(shù)據(jù)采集按照一定的順序進(jìn)行,不可以同時(shí)多個(gè)變電站的數(shù)據(jù)進(jìn)行采集。
在這個(gè)過(guò)程中還要對(duì)數(shù)據(jù)進(jìn)行“清洗”。清洗的流程為:(1)使用8個(gè)逗號(hào)作為數(shù)據(jù)的分隔符,分別隔開(kāi)不同字段的數(shù)據(jù)。如果有多余逗號(hào)或缺逗號(hào)或兩個(gè)逗號(hào)中間為空的行,則該行數(shù)據(jù)無(wú)效。(2)在計(jì)算的過(guò)程中除了容量、有功負(fù)荷值及無(wú)功負(fù)荷值外,其他各字段如數(shù)據(jù)超長(zhǎng),則頁(yè)面拋出提示錯(cuò)誤,結(jié)束導(dǎo)入。(3)廠站電壓等級(jí)為110kV的變壓器容量小于等于100MVA(系統(tǒng)用戶可以在管理端修改此值大小),否則該行數(shù)據(jù)無(wú)效。
3.2負(fù)載率計(jì)算
負(fù)載率計(jì)算有兩種情況,分別是近似計(jì)算和精確計(jì)算,其中近似計(jì)算效率高,能夠很快得到近似結(jié)果。但是在常規(guī)檢查時(shí)可使用本公式計(jì)算;精確計(jì)算算法相對(duì)復(fù)雜、比較耗時(shí),但是計(jì)算準(zhǔn)確,通常用于分析調(diào)度情況時(shí)使用。
簡(jiǎn)便公式為:
計(jì)算要求:
1、選定地區(qū)、場(chǎng)站或主變和時(shí)間段;
2、根據(jù)選定的地區(qū)、時(shí)間段,使用公式計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;
3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時(shí)點(diǎn),從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。
精確公式:
計(jì)算方法:
1、選定地區(qū)、場(chǎng)站或主變和時(shí)間段;
2、根據(jù)選定的地區(qū)、時(shí)間段,使用公式二計(jì)算每個(gè)時(shí)點(diǎn)該地區(qū)各個(gè)變壓器的負(fù)載率;
3、使用意義在于根據(jù)負(fù)載率大小得出各變壓器負(fù)載率的最高或最低時(shí)點(diǎn),從而判斷當(dāng)前電網(wǎng)的負(fù)荷情況。
4.結(jié)語(yǔ)
該發(fā)明可及時(shí)調(diào)整調(diào)度方案,從而均衡電網(wǎng)的運(yùn)行負(fù)荷,保持各個(gè)變壓器都處于最佳工作狀態(tài),提高設(shè)備使用壽命,降低設(shè)備故障率,降低設(shè)備運(yùn)行的電能損耗,提高電網(wǎng)運(yùn)行的可靠性,提升電網(wǎng)調(diào)度水平,對(duì)提高大數(shù)據(jù)分析電網(wǎng)調(diào)度能力具有顯著的作用。
參考文獻(xiàn)
[1]李庚銀,羅艷,周明,等.基于數(shù)學(xué)形態(tài)學(xué)和網(wǎng)格分形的電能質(zhì)量擾動(dòng)檢測(cè)及定位[J].中國(guó)電機(jī)工程學(xué)報(bào),2012,26(03):25-30.
[2]賀仁睦,王衛(wèi)國(guó),蔣德斌,等.廣東電網(wǎng)動(dòng)態(tài)負(fù)荷實(shí)測(cè)建模及模型有效性研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,22(03):78-82.
數(shù)據(jù)分析的方法范文4
1 傳媒行業(yè)進(jìn)入大數(shù)據(jù)時(shí)代
大數(shù)據(jù)是一種時(shí)代現(xiàn)象,目前主要是商業(yè)概念。還未形成嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)定義。過(guò)去,大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造或手機(jī)的大量非機(jī)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),如網(wǎng)絡(luò)日志、社會(huì)關(guān)系網(wǎng)絡(luò)上的用戶活動(dòng)數(shù)據(jù)、互聯(lián)網(wǎng)搜索引擎上的詳細(xì)搜索記錄等等。對(duì)于傳媒行業(yè),大數(shù)據(jù)指跨媒體或全媒體數(shù)據(jù),如電視機(jī)頂盒的回路數(shù)據(jù)、電腦或移動(dòng)終端收看視頻的數(shù)據(jù)、社交媒體上對(duì)于收看節(jié)目的相關(guān)評(píng)論等。
當(dāng)下我們提及大數(shù)據(jù),還指一種解決問(wèn)題的方法,即通過(guò)手機(jī)、整理生活中的方方面面的海量數(shù)據(jù),并對(duì)其進(jìn)行分析挖掘,從中獲得有價(jià)值的信息,這種對(duì)大數(shù)據(jù)的應(yīng)用與實(shí)踐已經(jīng)演化出一種新的商業(yè)模式,即公司的核心競(jìng)爭(zhēng)力在于其擁有的數(shù)據(jù)規(guī)模以及它運(yùn)用這些數(shù)據(jù)解決問(wèn)題的能力。這種解決問(wèn)題的方法在于對(duì)各領(lǐng)域情況進(jìn)行量化分析:信息準(zhǔn)確描述,使我們認(rèn)知不清晰的方面變得清晰,幫助我們?nèi)ヅ袛喱F(xiàn)狀和趨勢(shì)、確定未來(lái)戰(zhàn)略,在記錄、表述、分析、重組后讓它帶來(lái)效益。
傳媒業(yè)本身就是生產(chǎn)和傳播信息的產(chǎn)業(yè),大數(shù)據(jù)時(shí)代,傳媒業(yè)大有可為:信息源更加豐富,傳媒機(jī)構(gòu)可利用數(shù)據(jù)資源,量化分析,更好地把握信息;對(duì)受眾需求的把握更加準(zhǔn)確,傳媒機(jī)構(gòu)可根據(jù)受眾需求確定傳播內(nèi)容和傳播策略,實(shí)現(xiàn)精準(zhǔn)傳播;傳播效果的反饋對(duì)于不斷調(diào)整內(nèi)容和策略,贏得受眾,提示品牌形象有很大幫助。首先數(shù)字化,讓電腦處理這些數(shù)據(jù)即建立數(shù)據(jù)庫(kù);在數(shù)字化基礎(chǔ)上進(jìn)行數(shù)據(jù)化,變成軟件可以識(shí)別的數(shù)據(jù)化文本:智慧地使用已有的理論和方法,讓這些數(shù)據(jù)發(fā)揮價(jià)值——內(nèi)容提取、分享、互動(dòng),讓它們更好地服務(wù)于使用者,挖掘其中的商業(yè)性創(chuàng)新價(jià)值。然而大數(shù)據(jù)在中國(guó)傳統(tǒng)媒體中的影響目前并未實(shí)現(xiàn),雖然中國(guó)少數(shù)傳統(tǒng)媒體已經(jīng)實(shí)踐或正在實(shí)踐中,對(duì)于互聯(lián)網(wǎng)媒體,這個(gè)領(lǐng)域的實(shí)踐已經(jīng)走在了傳統(tǒng)媒體的前面。
2 借力大數(shù)據(jù)進(jìn)行電視受眾分析
2.1 過(guò)去的受眾分析方法
其一,過(guò)去的人員測(cè)量?jī)x,一種可以記錄受眾收看或收聽(tīng)時(shí)間的專門儀器,可以定時(shí)反饋給數(shù)據(jù)中心。其二,日記卡,由受訪者填寫特定格式的表格,記錄自己的收視行為。其三,面訪,通過(guò)上門或攔問(wèn)了解受眾的收視行為。其四,電話訪問(wèn),由訪員向目標(biāo)受眾打電話了解受眾的收視行為。首先,記錄受眾觀看行為的儀器是抽樣的形式安裝到用戶家中的,這種儀器的安裝行為本身對(duì)受眾觀看心理有一定影響,從而導(dǎo)致記錄儀器的不準(zhǔn)確。其次,觀眾觀看行為的復(fù)雜性,這些信息資料龐大,不是簡(jiǎn)單的受眾回訪、記錄就能得到準(zhǔn)備的數(shù)據(jù),需要更高的技術(shù)來(lái)測(cè)量。由此可見(jiàn),這種簡(jiǎn)單的受眾行為分析顯然不能適應(yīng)當(dāng)下受眾復(fù)雜的行為變化趨勢(shì),也不能夠?yàn)殡娨暶襟w提供精準(zhǔn)可靠的分析數(shù)據(jù),我們需要借助大數(shù)據(jù)進(jìn)行信息分析。
2.2 利用大數(shù)據(jù)分析電視受眾行為
首先,海量電視收視樣本監(jiān)測(cè)。利用海量數(shù)據(jù)收集技術(shù),獲得傳統(tǒng)的電視收視信息、數(shù)字電視、智能電視受眾收視行為。目前大部分用戶使用數(shù)字機(jī)頂盒,通過(guò)數(shù)字機(jī)頂盒可以實(shí)現(xiàn)信息的傳送和反饋,而且這些數(shù)據(jù)包括內(nèi)容豐富,有電視直播頻道、網(wǎng)絡(luò)視頻資源庫(kù)、付費(fèi)點(diǎn)播頻道、特色頻道等等。數(shù)字電視的推廣使受眾點(diǎn)播回看、增值業(yè)務(wù)等行為納入受眾觀看行為內(nèi),這是傳統(tǒng)的收視監(jiān)測(cè)難以監(jiān)測(cè)到的。例如在北京市場(chǎng),北京衛(wèi)視(高清)、CHC動(dòng)作頻道等都是傳統(tǒng)收視率監(jiān)測(cè)很難監(jiān)測(cè)到的頻道,而在海量樣本監(jiān)測(cè)中均屬于常規(guī)可監(jiān)測(cè)頻道。其次,整合網(wǎng)絡(luò)視頻、移動(dòng)終端視頻觀看行為,量化分析受眾觀看行為。雖然新媒體時(shí)代下,互聯(lián)網(wǎng)聲稱取代傳統(tǒng)的電視媒體,但調(diào)查分析,互聯(lián)網(wǎng)視頻觀看內(nèi)容大部分還是傳統(tǒng)的電視媒體提供的。媒體受眾的行為變遷、跨媒體使用行為的增長(zhǎng),也要求對(duì)媒介受眾行為監(jiān)測(cè)更加精細(xì)化和綜合化——如何在新媒體環(huán)境下更好地把握受眾行為偏好,拓展電視媒體的經(jīng)營(yíng)空間,成功實(shí)現(xiàn)節(jié)目創(chuàng)新和經(jīng)營(yíng)創(chuàng)新?成為新時(shí)期電視媒體發(fā)展的關(guān)鍵議題。這就需要借助網(wǎng)絡(luò)視頻網(wǎng)站、移動(dòng)終端視頻觀看數(shù)據(jù),精準(zhǔn)分析受眾的觀看行為。具體實(shí)施方面,需要電視媒體與網(wǎng)絡(luò)視頻網(wǎng)站合作,在為其提供視頻資源的同時(shí),電視媒體需要借助網(wǎng)絡(luò)視頻網(wǎng)站受眾觀看數(shù)據(jù),加上從數(shù)字機(jī)頂盒獲取的量化信息,進(jìn)行深入分析,精準(zhǔn)把握受眾對(duì)節(jié)目?jī)?nèi)容的關(guān)注焦點(diǎn)、對(duì)節(jié)目發(fā)展的心理期待、對(duì)節(jié)目環(huán)節(jié)的個(gè)性意見(jiàn)、對(duì)節(jié)目品牌的情感歸屬等一系列重要問(wèn)題,對(duì)電視節(jié)目的生產(chǎn)編排以及成長(zhǎng)發(fā)展提供有力支持。再者,利用數(shù)據(jù)收集加工處理平臺(tái),挖掘受眾喜好,為電視生產(chǎn)制作提供量化信息。大數(shù)據(jù)之大,重點(diǎn)并不是它的容量大,而在與其強(qiáng)大的數(shù)據(jù)收集加工處理能力,深入數(shù)據(jù)分析提取有效信息的能力,這才是大數(shù)據(jù)的真正價(jià)值,誰(shuí)做到了這一點(diǎn),就能在市場(chǎng)中獲勝。
目前做電視媒體受眾詳細(xì)數(shù)據(jù)收集與分析的公司是基本上由尼爾森壟斷的,中國(guó)并沒(méi)有監(jiān)管收視率調(diào)查的行政機(jī)構(gòu),做電視媒體受眾分析的都是市場(chǎng)調(diào)查公司。目前尼爾森、央視索福瑞等調(diào)查數(shù)據(jù)較為權(quán)威,雖然價(jià)格不菲,但是大多數(shù)電視行業(yè)數(shù)據(jù)分析都是這幾家做的。尼爾森根據(jù)客戶的具體需求來(lái)定制調(diào)查方案,對(duì)于一般性的調(diào)查需求,尼爾森擁有一套在全球范圍內(nèi)得到認(rèn)可的專有調(diào)查產(chǎn)品和方法,為客戶提供最有力的可比性標(biāo)準(zhǔn)化數(shù)據(jù)。有少量傳媒集團(tuán)著手于專業(yè)調(diào)查機(jī)構(gòu)合作,深入開(kāi)發(fā)大數(shù)據(jù)的潛在功能,如2012年2月廣東佛山傳媒集團(tuán)與尼爾森公司合作,寄希望于記住尼爾森大數(shù)據(jù)分析的平臺(tái),通過(guò)對(duì)數(shù)據(jù)的整合、分析、管理,為他們的轉(zhuǎn)型發(fā)展提供戰(zhàn)略性的策略依據(jù)。
對(duì)于電視媒體的受眾調(diào)查分析,尼爾森采用第四代收視測(cè)量海量樣本回路數(shù)據(jù)收視研究,這是全球最新的收視率測(cè)量解決方案:受眾觀看行為通過(guò)機(jī)頂盒的升級(jí),使得機(jī)頂盒能夠?qū)τ^眾開(kāi)關(guān)機(jī)頂盒時(shí)間、轉(zhuǎn)換頻道、使用增值業(yè)務(wù)等具體操作行為進(jìn)行精確到秒的準(zhǔn)確記錄,被機(jī)頂盒記錄的數(shù)據(jù)通過(guò)有線數(shù)字電視網(wǎng)絡(luò),在一個(gè)高度安全的封閉通路中,傳輸至監(jiān)測(cè)服務(wù)器進(jìn)行多層加密,再通過(guò)互聯(lián)網(wǎng)回傳至數(shù)據(jù)處理中心,整個(gè)過(guò)程遮蔽了認(rèn)為干擾的可能性,最大限度報(bào)紙了數(shù)據(jù)采集和傳輸?shù)陌踩裕诶碚撋线_(dá)到全樣本測(cè)量。因?yàn)檫@些數(shù)據(jù)量大幾乎達(dá)到全樣本測(cè)量,需要進(jìn)行量化分析,這就是大數(shù)據(jù)的應(yīng)用。
廣電行業(yè)目前處于三網(wǎng)融合的大環(huán)境 中,在這個(gè)過(guò)程中不可避免地相互滲透和交叉,經(jīng)營(yíng)上互相合作、互相競(jìng)爭(zhēng),內(nèi)容上出現(xiàn)了融合,內(nèi)容的融合意味著數(shù)據(jù)的融合。目前電視媒體對(duì)受眾調(diào)查分析的意識(shí)開(kāi)始增強(qiáng),但在實(shí)踐中電視媒體并沒(méi)有全面應(yīng)用數(shù)據(jù)融合帶來(lái)的海量受眾數(shù)據(jù)信息。而IT、家電等外行將利用技術(shù)進(jìn)入廣電領(lǐng)域?qū)﹄娨暶襟w有一定的警示意義,但是對(duì)于擁有優(yōu)質(zhì)精心制作的媒資的電視媒體,若能抓住受眾行為在大數(shù)據(jù)時(shí)代下的變化,將是大贏家。
參考文獻(xiàn):
[1] 王建磊.互聯(lián)網(wǎng)電視機(jī)頂盒發(fā)展現(xiàn)狀及趨勢(shì)[J].
數(shù)據(jù)分析的方法范文5
[關(guān)鍵詞] 單核苷酸多態(tài)性;聚類分析;基因;數(shù)據(jù)挖掘
[中圖分類號(hào)] R181.2+3 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人類的基因組中存在各種形式的變異,其中,單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNPs),即單個(gè)的核苷酸變異所引發(fā)的DNA鏈序列的多態(tài)性,是這些變異中最普遍的形式。根據(jù)數(shù)據(jù)統(tǒng)計(jì),在人類含有不低于30億個(gè)含氮堿基對(duì)數(shù)量的基因組中,SNP出現(xiàn)的概率在1/1000左右[1]。如何利用這些信息,建立數(shù)字模型,探索這些基因與位點(diǎn)和疾病的關(guān)聯(lián),成為了擺在科學(xué)家面前的一個(gè)富有挑戰(zhàn)意義的課題[2]。
科學(xué)家們?cè)陂L(zhǎng)期的研究中,根據(jù)“物以類聚”的原始思想,衍生出了對(duì)復(fù)雜數(shù)據(jù)或者試驗(yàn)對(duì)象等進(jìn)行歸類的一種多元統(tǒng)計(jì)學(xué)分析方法,即現(xiàn)在歸屬于統(tǒng)計(jì)學(xué)分支的聚類分析(cluster analysis),又稱其群分析。這種統(tǒng)計(jì)方法的核心思想從誕生之日起就未更改,即在沒(méi)有任何可用來(lái)參考的或者依從的規(guī)范下(即先驗(yàn)知識(shí)準(zhǔn)備程度為零),按照被研究對(duì)象或者樣品本身的特點(diǎn)或者性狀,進(jìn)行最大程度合理的分類。通過(guò)聚類分析的計(jì)算過(guò)程,不僅可以保證在最終所分的類別情況下,同一類別中的對(duì)象或者樣品,能夠具有最大程度的相似性,而且使不同類別中的對(duì)象或者樣品,擁有最大程度的相異性。以大量相似為基礎(chǔ),對(duì)收集數(shù)據(jù)來(lái)分類,成為了聚類分析計(jì)算本身的最終目標(biāo)[3]。從統(tǒng)計(jì)學(xué)的觀點(diǎn)看,聚類分析計(jì)算是通過(guò)數(shù)據(jù)建模簡(jiǎn)化原有數(shù)據(jù)復(fù)雜程度的一種方法,而從實(shí)際應(yīng)用的角度看,聚類分析計(jì)算亦是數(shù)據(jù)挖掘的主要任務(wù)之一。高維度高通量SNPs數(shù)據(jù)聚類分析,是近現(xiàn)代聚類分析中一個(gè)非常活躍的領(lǐng)域,同時(shí)也是一個(gè)非常具有挑戰(zhàn)性的工作。
目前用于高維度SNPs數(shù)據(jù)聚類分析的方法有很多種,常用的幾大類有Logistic回歸、潛在類別分析(latent class analysis,LCA)模型、結(jié)構(gòu)方程模型分析(structural equation modeling,SEM)、以決策樹(shù)為基礎(chǔ)的分類回歸樹(shù)(classification and regression trees,CART)和隨機(jī)森林(random forest,RF)算法的分析[4]、基于貝葉斯網(wǎng)絡(luò)(Bayesian networks,BNs)模型的分析、基于神經(jīng)網(wǎng)絡(luò)(neural networks,NNs)模型的分析和支持向量機(jī)(support vector machine,SVM)的方法等,上述種類的方法各有其適用性,在聚類計(jì)算的效能方面也廣泛存在爭(zhēng)議。本文從以上幾類方法中,遴選出應(yīng)用較廣泛、理論相對(duì)成熟的潛在類別分析、分類回歸樹(shù)模型、貝葉斯網(wǎng)絡(luò)潛變量模型、BP神經(jīng)網(wǎng)絡(luò)模型和支持向量機(jī)5種具體方法進(jìn)行比較,闡述其在SNPs數(shù)據(jù)聚類分析中的意義。
1 潛在類別分析
誕生于20世紀(jì)50年代的LCA方法,其基本原理是通過(guò)引入潛變量概念,建立潛在類別模型(latent class model,LCM),在保證維持各個(gè)顯變量的數(shù)據(jù)局部獨(dú)立性的基礎(chǔ)上,力圖用少數(shù)的潛變量與各個(gè)顯變量建立關(guān)系,然后以數(shù)量相對(duì)較小的潛變量進(jìn)行對(duì)象關(guān)系解釋。而爭(zhēng)取利用最少數(shù)量的且關(guān)系上互相排斥的潛變量對(duì)各個(gè)顯變量的概率分布進(jìn)行最大程度的解釋,就是潛在類別分析的基本假設(shè),這種假設(shè)的思想傾向于各種顯變量對(duì)其類別進(jìn)行解釋的潛變量都有反應(yīng)的選擇性[5]。潛在類別分析的統(tǒng)計(jì)原理建立在概率分析的基礎(chǔ)之上。一個(gè)潛在類別模型是由一個(gè)(或多個(gè))潛在變量和多個(gè)外顯變量組成的Bayes網(wǎng)[6]。
完整的LCM分析過(guò)程包括數(shù)據(jù)概率變換參數(shù)化、模型參數(shù)估計(jì)與識(shí)別、模型評(píng)價(jià)指標(biāo)選擇、分類結(jié)果解釋等[7-10]。
1.1 概率參數(shù)化
潛在類別概率和條件概率構(gòu)成了潛在類別模型概率參數(shù)化過(guò)程中的兩種參數(shù)。假設(shè)某數(shù)據(jù)集含有三個(gè)彼此之間不相互獨(dú)立的外顯變量,以A、B、C表示,而且每一個(gè)顯變量分別具有的水平數(shù)為I、J、K。按照假設(shè),若尋找到合適的潛變量X,則X需滿足一下條件:首先,要求合理解釋A、B、C的關(guān)系;第二,在潛變量的各個(gè)類別之中所有顯變量維持最大的局部獨(dú)立性,則為潛在類別分析,如果潛變量X中含有T個(gè)潛在類別的話,用數(shù)學(xué)模型表達(dá)就為:
在上式中,LCM的組合概率,用πijkABC表示,相應(yīng)的,潛在類別概率,以πtX表示,其意義可以解釋為:在觀察變量處于局部獨(dú)立的條件下,潛變量X在第t個(gè)水平的概率,即從樣本中隨機(jī)選取的觀察對(duì)象屬于潛在類別t的概率。容易證明,各個(gè)潛在類別的概率總和永遠(yuǎn)為100%即1,用公式表達(dá)為:
條件概率,用πitAX表示,其意義可以解釋成:外顯變量A的第i個(gè)水平更傾向于劃歸到第t個(gè)潛在類別的個(gè)體的概率。由于各個(gè)潛變量的各個(gè)水平處于相互獨(dú)立的狀態(tài),所以各外顯變量的條件概率總和為1,即:
1.2 參數(shù)估計(jì)與模型擬合
在潛在類別模型的參數(shù)估計(jì)過(guò)程中,最大似然法(maximum likelihood,ML)是被最廣泛使用且計(jì)算軟件中默認(rèn)的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在計(jì)算迭代過(guò)程中為最常用的方法,而其中前者更為常用。在潛在類別模型評(píng)價(jià)方面,AIC評(píng)分(akaike informationcriterion)和BIC評(píng)分(bayesian information criterion)成為使用最為廣泛的擬合評(píng)價(jià)指標(biāo)。兩者共同點(diǎn)為:其計(jì)算理論基礎(chǔ)都為似然比χ2檢驗(yàn),對(duì)于模型對(duì)應(yīng)的參數(shù)限制不一致的情況下,也可以用來(lái)橫向比較,且結(jié)果簡(jiǎn)單直觀,都是數(shù)值越小表示模型擬合越好。Lin與Dayton曾經(jīng)指出,當(dāng)研究的樣本數(shù)量級(jí)達(dá)到或者超過(guò)千位級(jí)時(shí),BIC指標(biāo)更可靠,否則AIC更佳[11]。
1.3 潛在分類
完成最優(yōu)化模型的確定之后,就可以利用模型進(jìn)行計(jì)算,將每個(gè)外顯變量的數(shù)據(jù)值分配到判定的潛在類別之中,通過(guò)這個(gè)過(guò)程,完成數(shù)據(jù)的后驗(yàn)類別分析,即潛在聚類分析。上述分類的理論依據(jù)是著名的貝葉斯理論,分類的計(jì)算公式為:
潛在類別分析雖然理論建立時(shí)間較早,但是一直依靠著自身的優(yōu)勢(shì)在聚類分析領(lǐng)域有一席之地,其計(jì)算思想中融合了結(jié)構(gòu)方程模型與對(duì)數(shù)線性模型的構(gòu)思。該算法的目的明確,即數(shù)量眾多的顯變量之間的關(guān)系,可以用最優(yōu)化的組合模式,使用最少的潛變量來(lái)解釋。結(jié)構(gòu)方程模型只能夠?qū)B續(xù)型潛變量處理的缺陷,在潛在類別模型問(wèn)世后得到了相當(dāng)程度的彌補(bǔ),特別在設(shè)計(jì)思想范圍中,使得研究者以概率論為基礎(chǔ),能夠通過(guò)數(shù)據(jù)對(duì)分類結(jié)果之后所隱藏的因素做更為深刻的了解,這些都要?dú)w功于分類潛變量的引入這一有效提高分類效果的方法[12]。
但是,由于該方法的分析原理比較簡(jiǎn)單,只是脫胎于貝葉斯概率理論的概率參數(shù)化,所以使得該方法在聚類分析過(guò)程中,如果SNPS數(shù)量較少,則表現(xiàn)出不錯(cuò)的聚類效果,但如果SNPS數(shù)據(jù)維度過(guò)高,則有失水準(zhǔn)。具體表現(xiàn)在高維度高通量的SNPS數(shù)據(jù)聚類分析過(guò)程異常復(fù)雜,時(shí)間消耗過(guò)長(zhǎng),而最終得到的聚類結(jié)果也容易在解釋時(shí)發(fā)生阻礙。
2 分類回歸樹(shù)模型
CART[13]不僅可以在已經(jīng)獲得的數(shù)據(jù)庫(kù)中通過(guò)一定的規(guī)則提煉出關(guān)聯(lián),而且是對(duì)隱藏在各種指標(biāo)中的分類屬性進(jìn)行量化計(jì)算成為可能,其作為數(shù)據(jù)挖掘技術(shù)中的經(jīng)典聚類分析方法,為高通量SNPs數(shù)據(jù)的聚類分析制造了一個(gè)科學(xué)而準(zhǔn)確的平臺(tái)。分類回歸樹(shù)的基本原理為:如果對(duì)于已經(jīng)給定的待分類對(duì)象X,已知其可以進(jìn)行Y個(gè)不同屬性的分類,那么該模型將模擬把X逐級(jí)遞歸的分解為多個(gè)數(shù)據(jù)子集,并且認(rèn)為Y在子集上的分布狀態(tài),是均勻并且連續(xù)的,而分解的方法為二叉樹(shù)分類法。該方法如同自然界中的樹(shù)木一樣,數(shù)據(jù)集X由根部向葉部逐步分解移動(dòng),每一個(gè)劃分點(diǎn)即樹(shù)木分叉點(diǎn)的原因,由分支規(guī)則(splitting rules)確定,最終端的葉子表示劃分出的最終區(qū)域,而且每一個(gè)預(yù)測(cè)樣本,只能被分類到唯一的一個(gè)葉子,同時(shí)Y在該點(diǎn)的分布概率也被確定下來(lái)。CART的學(xué)習(xí)樣本集結(jié)構(gòu)如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以稱之為屬性變量,Y可以稱之為標(biāo)簽變量。但在樣本集中無(wú)論是X或是Y,其變量屬性可以容許多種形式,有序變量和離散型變量都可以存在。若Y處于有序變量的數(shù)值情況時(shí),模型被稱為回歸樹(shù);若情況相反,稱之為分類樹(shù)。
2.1 分類回歸樹(shù)的構(gòu)建
將給定的數(shù)據(jù)集L轉(zhuǎn)化成與其對(duì)應(yīng)的最大二叉樹(shù),這個(gè)過(guò)程稱之為構(gòu)建樹(shù)Tmax[14]。為了尋找到對(duì)應(yīng)數(shù)據(jù)集的最優(yōu)分支方法,最大雜度削減算法被運(yùn)用到構(gòu)建過(guò)程之中。在進(jìn)行分支時(shí),數(shù)據(jù)中每個(gè)值都要納入計(jì)算范圍,只有這樣才能計(jì)算出最佳的分支點(diǎn)進(jìn)行分叉。CART的構(gòu)建離不開(kāi)Gini系數(shù)的使用。若數(shù)據(jù)集L中,含有記錄的類別數(shù)量為N,Gini系數(shù)的表達(dá)式就為:
其中,Pj表示T中第N個(gè)分類數(shù)據(jù)的劃分頻率。對(duì)于任意的劃分點(diǎn)T,如果該點(diǎn)中所包含的樣本量非常集中,那么該點(diǎn)的Gini(T)值越小,從分類圖上顯示為該節(jié)點(diǎn)分叉角度越鈍。欲構(gòu)建最終的Tmax,就要重復(fù)操作,將根節(jié)點(diǎn)分支為子節(jié)點(diǎn),而這種遞歸分類的計(jì)算,最好利用統(tǒng)籌學(xué)中的貪心算法。
2.2 樹(shù)的修剪
當(dāng)Tmax建造好之后,下一步需要對(duì)其進(jìn)行所謂的修剪操作,就是去掉那些可能對(duì)未知的樣本分類計(jì)算精度上,沒(méi)有任何幫助的部分,其目標(biāo)是處理掉對(duì)給定數(shù)據(jù)集中的噪音干擾的問(wèn)題,以便形成最簡(jiǎn)單最容易理解的樹(shù)。通常對(duì)樹(shù)進(jìn)行修剪的方法是以下兩種,先剪枝方法(prepruning)與后剪枝(postpruning)方法,兩者都有助于提高已經(jīng)建成的樹(shù),脫離開(kāi)訓(xùn)練數(shù)據(jù)集后,能夠正確地對(duì)未知數(shù)據(jù)進(jìn)行分類的能力,而修剪方法都是通過(guò)統(tǒng)計(jì)計(jì)算,將理論上最不可信的分枝去掉。
2.3 決策樹(shù)評(píng)估
測(cè)試樣本評(píng)估法(test sample estimates)與交叉驗(yàn)證評(píng)估法(cross-validation estimates)[15]是通常被用來(lái)對(duì)CART模型進(jìn)行評(píng)估的方法,而前者的使用率更高。該評(píng)估方法的原理與多因子降維法有些類似,而且即時(shí)效率比較高,在學(xué)習(xí)數(shù)據(jù)集囊括的樣本量比較大的情況下,該方法的優(yōu)越性就更加突出,其原理可以解釋為:將原始的數(shù)據(jù)集L隨機(jī)分成兩部分,分別為測(cè)試集L2與樣本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,將測(cè)試集L2放到序列中的樹(shù)模型之中,TK為L(zhǎng)2中的每個(gè)樣本逐個(gè)分配類別,因?yàn)長(zhǎng)2中每個(gè)樣本的原始分類是事先已經(jīng)知道的,則樹(shù)TK在L2上的誤分情況可以利用公式(6)計(jì)算:
式中,Nij(2)代表L2中j類樣本劃歸至i類的數(shù)量,c(i|j)為把j類誤分到i類的代價(jià),Rts(TK)表示TK針對(duì)L2的誤分代價(jià),則最優(yōu)化樹(shù)的條件為:Rts(TK0)=minK(Rts (TK)。
作為一種經(jīng)典的通過(guò)數(shù)據(jù)集進(jìn)行訓(xùn)練并有監(jiān)督學(xué)習(xí)的多元分類統(tǒng)計(jì)模型,CART以二元分叉樹(shù)的形式給出所構(gòu)建出的分類的形式,這種方式非常容易解釋,也非常容易被研究者理解和運(yùn)用,并且這種方法與傳統(tǒng)意義上的統(tǒng)計(jì)學(xué)聚類分析的方法構(gòu)建完全不一樣[16]。
但是CART方法對(duì)主效應(yīng)的依賴程度很高,無(wú)論是每個(gè)分支的根節(jié)點(diǎn)還是后續(xù)內(nèi)部的子節(jié)點(diǎn),其預(yù)測(cè)因子都是在主效應(yīng)的驅(qū)動(dòng)下進(jìn)行,并且每個(gè)節(jié)點(diǎn)都依賴于上一級(jí)的母節(jié)點(diǎn)分支的情況。而且CART方法對(duì)結(jié)果預(yù)測(cè)的穩(wěn)定性上也有缺陷,具體表現(xiàn)在,如果所給數(shù)據(jù)集中的樣本有小范圍的更改,那么所產(chǎn)生的蝴蝶效應(yīng)就會(huì)導(dǎo)致最終所構(gòu)建的模型與原始模型的差別很大,當(dāng)然分類結(jié)果也就難以一致。
3 貝葉斯網(wǎng)絡(luò)潛變量模型
BNs是一種概率網(wǎng)絡(luò),它用圖形的形式來(lái)對(duì)各種變量間的依賴概率聯(lián)系做描述,經(jīng)典的圖形中,每一個(gè)隨機(jī)變量利用節(jié)點(diǎn)的方式表達(dá),而變量之間的概率依存關(guān)系則利用直線表達(dá),直線的粗細(xì)表示依賴的強(qiáng)度。在BNs中,任何數(shù)據(jù),當(dāng)然也可以是高通量SNPs數(shù)據(jù),都能夠成為被分析的變量。BNs這種分析工具的提出,其原始動(dòng)力是為了分析不完整性和概率性的事件,它可以從表達(dá)不是很精準(zhǔn)的數(shù)據(jù)或信息中推理出概率結(jié)果。
網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和條件概率分布作為構(gòu)成BNs的兩大核心組件,如果再將潛變量概念引入BNs,則成為了BNs潛變量模型。被包含在BNs中的潛變量數(shù)量,決定著這個(gè)模型的復(fù)雜程度,因?yàn)橐话銇?lái)講,在實(shí)際工作中,研究者常常利用潛變量來(lái)進(jìn)行聚類計(jì)算,所以BNs潛變量模型也成為了一個(gè)經(jīng)典的潛結(jié)構(gòu)模型(latent structure model)或潛類模型(latent class model)。
3.1 模型參數(shù)
在滿足一定的假定條件下,才能對(duì)BNs模型進(jìn)行參數(shù)學(xué)習(xí)的過(guò)程。根據(jù)文獻(xiàn)記載,這些條件分別為:所有的樣本處于獨(dú)立狀態(tài);無(wú)論全局和局部,均處于獨(dú)立狀態(tài);變量不能為連續(xù)變量,只能是分類變量。在上述條件得到滿足的情況下,該模型可以利用數(shù)據(jù),計(jì)算出網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中各個(gè)節(jié)點(diǎn)的條件概率θ,且服務(wù)于制訂的BNs模型結(jié)構(gòu)η和數(shù)據(jù)集D。計(jì)算的方法有最大似然估計(jì)法等[17]。
3.2 模型選擇
與LCA方法類似,BNs模型也利用函數(shù)來(lái)對(duì)模型的擬合優(yōu)劣程度進(jìn)行評(píng)價(jià),衡量標(biāo)準(zhǔn)也是BIC、AIC、BICe等的評(píng)分,一般來(lái)說(shuō),分?jǐn)?shù)低的模型更加優(yōu)化。
3.3 模型優(yōu)化
在通過(guò)評(píng)分的方法來(lái)確定BNs潛變量模型后(需綜合考量BIC、AIC、BICe三者的得分),該模型下一步就轉(zhuǎn)化成了如何去搜索符合所給數(shù)據(jù)集的最優(yōu)模型的過(guò)程。由于該網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),使得該模型結(jié)構(gòu)的數(shù)目的增長(zhǎng)速度非常快,與納入模型的變量數(shù)的增長(zhǎng)呈指數(shù)級(jí)別比例,能夠適應(yīng)這種數(shù)量級(jí)的搜索算法是啟發(fā)式的,其過(guò)程是比較不同的模型的評(píng)分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型進(jìn)行高通量SNPs數(shù)據(jù)聚類,其優(yōu)點(diǎn)之一就是在該模型中,所有遺傳的模式都可以被忽略,無(wú)論是對(duì)SNPs的二分類變異賦值,還是三分類變異賦值,只要納入模型中,就轉(zhuǎn)變成純粹的數(shù)學(xué)問(wèn)題。正是由于這種優(yōu)勢(shì)的存在,使得該方法對(duì)原始數(shù)據(jù)的類型容許程度很高,由此擴(kuò)展了此種模型的使用范圍。BNs模型計(jì)算的過(guò)程雖然復(fù)雜,但是結(jié)果解讀起來(lái)卻是十分的簡(jiǎn)單直觀。只要將各個(gè)類別的概率直方圖呈現(xiàn)出來(lái),那所有重要的且有意義的高維度SNPs的整體效應(yīng),就能直觀的展現(xiàn)出來(lái)。BNs模型一旦被建立起來(lái),就可以被用來(lái)對(duì)新納入的患者進(jìn)行分類,其過(guò)程如下:輸入新加入樣本的SNPs的狀況,并且將這些狀況進(jìn)行數(shù)學(xué)化處理即賦予其數(shù)據(jù)值,并帶入模型開(kāi)始運(yùn)行。模型會(huì)通過(guò)新加入樣本的SNPs的狀況,根據(jù)概率理論,將其歸入相應(yīng)類別。
但是BNs模型的理論比較抽象,公式比較復(fù)雜,如果讓醫(yī)學(xué)工作者去理解其中的數(shù)學(xué)機(jī)制,可能不太現(xiàn)實(shí),若再要求對(duì)模型進(jìn)行深刻解釋,則更困難。該模型在優(yōu)化過(guò)程中的搜索算法也有硬傷,爬山算法從出現(xiàn)開(kāi)始,就一直受到一定程度的詬病,因?yàn)槠溆惺鼓P推x到局部最優(yōu)的傾向。
4 BP神經(jīng)網(wǎng)絡(luò)模型
BP(back propagation)神經(jīng)網(wǎng)絡(luò)在所有的神經(jīng)網(wǎng)絡(luò)模型系列中,是被使用最多的模型之一,其核心原理為按照誤差逆?zhèn)鞑ニ惴ǎ瑢?duì)所給數(shù)據(jù)集進(jìn)行多層的正向的反饋擬合,而這些層則包括輸入層(input layer)、隱層(hide layer) 和輸出層(output layer)。
BP神經(jīng)網(wǎng)絡(luò)模型對(duì)于已經(jīng)給定的數(shù)據(jù)集的訓(xùn)練過(guò)程可以解釋為:各種數(shù)據(jù)由輸入層負(fù)責(zé)接收,并且向內(nèi)層進(jìn)行傳遞,傳遞過(guò)程中需經(jīng)過(guò)一定的中間層級(jí),信息在隱層部分進(jìn)行計(jì)算處理,處理完畢后向輸出層傳遞,輸出層的神經(jīng)元接收到后,即完成了一次完整的訓(xùn)練信息的傳播,其結(jié)果由輸出層向外面釋放。如果輸出的結(jié)果與期望值差距沒(méi)有達(dá)到要求,則進(jìn)入信息的反方向運(yùn)動(dòng)過(guò)程,將誤差信息通過(guò)輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過(guò)程中,為了使整個(gè)BP神經(jīng)網(wǎng)絡(luò)模型的誤差的平方和達(dá)到最小,就需要對(duì)各個(gè)層級(jí)的權(quán)重和反應(yīng)閾進(jìn)行相應(yīng)調(diào)整,在一定次數(shù)的迭代過(guò)程中達(dá)到符合設(shè)定的要求范圍內(nèi)[19]。
BP神經(jīng)網(wǎng)絡(luò)模型建立流程:①建立高通量SNPs足夠而可靠的數(shù)據(jù)信息樣本數(shù)據(jù)庫(kù)。②把SNPs樣本數(shù)據(jù)進(jìn)行處理,變成BP神經(jīng)網(wǎng)絡(luò)模型可以納入的形式。③建造BP神經(jīng)網(wǎng)絡(luò)初級(jí)雛形,進(jìn)行數(shù)據(jù)訓(xùn)練。首先確定神經(jīng)網(wǎng)絡(luò)所需層的數(shù)量,還有隱藏節(jié)點(diǎn)的數(shù)量,接下來(lái)完成各連接權(quán)值的初始化過(guò)程,將樣本數(shù)據(jù)代入。④開(kāi)始BP神經(jīng)網(wǎng)絡(luò)的迭代過(guò)程,按照誤差逆?zhèn)鞑ニ惴ǎ瑢?duì)所給數(shù)據(jù)集進(jìn)行多層的正向的反饋擬合,最終確定各個(gè)層的權(quán)重。⑤利用訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò)測(cè)試樣本。將樣本輸入訓(xùn)練好的BP神經(jīng)網(wǎng)絡(luò),并輸出結(jié)果[20]。
非線性問(wèn)題的解決能力是BP神經(jīng)網(wǎng)絡(luò)模型區(qū)別于其他的能夠自我學(xué)習(xí)、自我訓(xùn)練的模型的特點(diǎn)之一,該模型以簡(jiǎn)單的結(jié)構(gòu)模仿神經(jīng)組織的構(gòu)成和信號(hào)傳導(dǎo)通路,根據(jù)提供的數(shù)據(jù)進(jìn)行學(xué)習(xí)和自適應(yīng),最后可以對(duì)復(fù)雜的問(wèn)題求解[21]。該模型的運(yùn)行模式也很簡(jiǎn)單,一旦模型建立,則直接將數(shù)據(jù)帶入,BP神經(jīng)網(wǎng)絡(luò)就可以對(duì)諸多影響因素和結(jié)果之間的復(fù)雜關(guān)系進(jìn)行統(tǒng)計(jì),超越傳統(tǒng)聚類模型,也有能力提供更多的信息量[22]。
但是BP神經(jīng)網(wǎng)絡(luò)模型的缺陷也十分明顯,首先該種聚類方法迭代次數(shù)比較多,計(jì)算收斂的速度比較慢;標(biāo)準(zhǔn)的BP神經(jīng)網(wǎng)絡(luò)算法各個(gè)層的權(quán)重值的確定是完全隨機(jī)性的,容易形成局部最優(yōu)化;在模型建立的初始階段,各個(gè)節(jié)點(diǎn)的確定也沒(méi)有確鑿的理論支持[23]。
5 支持向量機(jī)
1995年Comes等[24]提出了一種新型機(jī)器學(xué)習(xí)方法,該方法的數(shù)學(xué)理論基礎(chǔ)雄厚,被稱之為SVM。這種方法問(wèn)世之后,就以其在小樣本、高維度數(shù)據(jù)方面處理的獨(dú)特優(yōu)勢(shì),被迅速推廣到數(shù)據(jù)聚類分析領(lǐng)域的各個(gè)方面[25]。SVM的基本原理如下:利用非線性映射的方法φ(x):RnH,將待聚類數(shù)據(jù)集首先映射到高維空間H中,試圖在高維空間中尋找最優(yōu)化的一個(gè)超平面,此超平面的作用為對(duì)數(shù)據(jù)進(jìn)行分類。達(dá)到最優(yōu)超平面的要求為:對(duì)于數(shù)據(jù)來(lái)說(shuō),要求分類的間隔最大而且置信區(qū)間最窄;達(dá)到最少的數(shù)據(jù)樣本錯(cuò)分?jǐn)?shù)量,以上兩條的原則為分類風(fēng)險(xiǎn)最低。
SVM的計(jì)算流程為:
在高維空間中,如果被映射數(shù)據(jù)具有二維線性且可分時(shí),則一定存在一個(gè)分類超平面:
其中αi≥0稱為拉格朗日系數(shù),該函數(shù)對(duì)?X和b最小化,對(duì)αi最大化。將該問(wèn)題轉(zhuǎn)化為其對(duì)偶形式,求得最優(yōu)分類函數(shù)為:
其中,K(x,xi) =φ(xi)?φ(xj)被稱之為核函數(shù),其作用是將原始數(shù)據(jù)集映射到高維H空間。而核函數(shù)有很多種形式,多項(xiàng)式形式、徑向基形式等等。但是如果原始數(shù)據(jù)集經(jīng)過(guò)轉(zhuǎn)換后,確實(shí)為線性不可分時(shí),方法會(huì)不可避免的產(chǎn)生錯(cuò)分點(diǎn),此時(shí)非負(fù)松弛變量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并為:
在上述條件下,求下式目標(biāo)函數(shù)的最小值:
在式(13)中,用C來(lái)作為懲罰因子,對(duì)錯(cuò)分點(diǎn)來(lái)進(jìn)行一定程度的懲罰,當(dāng)然是人工定義的,其主要作用是在限制數(shù)據(jù)集偏差和該方法的推廣范圍兩者間,維持一個(gè)平衡。
SVM模型作為一種經(jīng)典的處理小樣本的自我學(xué)習(xí)、自我組織的分類方法,雖然其基礎(chǔ)理論依然與神經(jīng)網(wǎng)絡(luò)模型類似,均為通過(guò)對(duì)給定樣本的統(tǒng)計(jì)學(xué)習(xí),建造模型,而且對(duì)非線性數(shù)據(jù)的處理能力很強(qiáng),但是很大程度上避免了陷入局部最優(yōu)化,維度過(guò)高限制,擬合過(guò)度等缺陷,擁有更廣闊的發(fā)展空間[26]。雖然該方法出現(xiàn)時(shí)間比較晚,但是研究者已經(jīng)在包括預(yù)測(cè)人口狀況[27]、嬰兒死亡率前瞻[28]、金融產(chǎn)業(yè)[29]和工業(yè)產(chǎn)業(yè)[30]前景推斷等方面進(jìn)行了有效使用,當(dāng)然也包括在高通量SNPs數(shù)據(jù)聚類,均取得了不錯(cuò)的效果。
但是SVM一樣存在短處,由于其分類過(guò)程是基于對(duì)原始數(shù)據(jù)集的再次規(guī)劃來(lái)尋找超平面,而再次規(guī)劃的計(jì)算就有n階矩陣(n為樣本個(gè)數(shù)),如果n的數(shù)量很大,則電腦的內(nèi)存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對(duì)數(shù)據(jù)集進(jìn)行二分類計(jì)算,有一定的局限性,由于在實(shí)際工作中,很多情況下分類數(shù)量要大于二,為了解決這個(gè)問(wèn)題,只能去在其他方面想相應(yīng)的解決方法。
6 討論
不僅上述5種具體方法,而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優(yōu)缺點(diǎn),研究者們已經(jīng)針對(duì)上述幾類聚類方法的缺陷進(jìn)行了深入的研究,并提出了許多改進(jìn)方法,提高了在高通量SNPs數(shù)據(jù)聚類分析時(shí)的計(jì)算效能。董國(guó)君等[31]提出了將仿生學(xué)算法中的退火算法引入到神經(jīng)網(wǎng)絡(luò)模型中,能夠有效地避免該模型收斂到局部最優(yōu)的狀態(tài)。胡潔等[32]更是經(jīng)過(guò)改進(jìn),建造了一種能夠快速收斂而且全局最優(yōu)的神經(jīng)網(wǎng)絡(luò)模型算法,將BP神經(jīng)網(wǎng)絡(luò)的計(jì)算效率大為提高。而Leo Breiman在2001年提出的隨機(jī)森林(random forest)算法,本質(zhì)上就是對(duì)分類回歸樹(shù)算法的一種組合改進(jìn),其計(jì)算原理為:利用多個(gè)樹(shù)的模型對(duì)數(shù)據(jù)進(jìn)行判別與分類,其在對(duì)數(shù)據(jù)進(jìn)行處理的同時(shí),還可以給出各個(gè)變量的重要性得分,評(píng)估變量在分類中所起的作用[33]。2012年提出了混合潛變量模型(structural equation mixture modeling,SEMM),本質(zhì)上是一種結(jié)構(gòu)方程模型衍生出的改進(jìn)版,其設(shè)計(jì)思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素,將潛變量分析與結(jié)構(gòu)方程進(jìn)行協(xié)調(diào)組合,創(chuàng)造出的一種新型SNPs分析方法。這種新的方法,將結(jié)構(gòu)方程的缺點(diǎn)――只能分析連續(xù)潛變量和潛在類別分析的缺點(diǎn)――只能分析分類潛變量,進(jìn)行有效的補(bǔ)充,而且把一種全新的探索式的思路引入了高維數(shù)據(jù)分析的領(lǐng)域。在實(shí)際進(jìn)行聚類分析時(shí),也可以將幾種方法結(jié)合使用,分別在計(jì)算的不同階段利用效能最高的方法,做到優(yōu)勢(shì)互補(bǔ)。現(xiàn)已經(jīng)出現(xiàn)基于神經(jīng)網(wǎng)絡(luò)算法和蟻群算法進(jìn)行結(jié)合使用的報(bào)道。
盡管用于高通量SNPs數(shù)據(jù)聚類分析的方法有多種,但目前沒(méi)有任何一種方法可以適用于所有的情況。因此,研究者們依舊沒(méi)有停下尋找更為合適的方法的腳步。不可否認(rèn),在基因組相關(guān)研究中,SNPs數(shù)據(jù)的分析對(duì)于研究復(fù)雜性疾病和遺傳因素的聯(lián)系是一項(xiàng)挑戰(zhàn),但也是機(jī)遇。如果能正確合理地運(yùn)用各種復(fù)雜的統(tǒng)計(jì)學(xué)方法,就可以提高聚類分析的效能,提示研究者們未來(lái)應(yīng)在尋找更適用的高通量SNPs數(shù)據(jù)聚類分析方法方面付出更多努力。
[參考文獻(xiàn)]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 馬靖,張韶凱,張巖波.基于貝葉斯網(wǎng)潛類模型的高維SNPs分析[J].生物信息學(xué),2012,10(2):120-124.
[3] 張家寶.聚類分析在醫(yī)院設(shè)備管理中應(yīng)用研究[J].中國(guó)農(nóng)村衛(wèi)生事業(yè)管理,2014,34(5):510-513.
[4] 袁芳,劉盼盼,徐進(jìn),等.基因-基因(環(huán)境)交互作用分析方法的比較[J].寧波大學(xué)學(xué)報(bào):理工版,2012,25(4):115-119.
[5] 張潔婷,焦璨,張敏強(qiáng).潛在類別分析技術(shù)在心理學(xué)研究中的應(yīng)用[J].心理科學(xué)進(jìn)展,2011,18(12):1991-1998.
[6] 曾憲華,肖琳,張巖波.潛在類別分析原理及實(shí)例分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潛在類別模型的原理與技術(shù)[M].北京:教育科學(xué)出版社,2011.
[10] 張巖波.潛變量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(1):7-10.
[13] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國(guó)水利水電出版社,2013.
[14] 王立柱,趙大宇.用分類與回歸樹(shù)算法進(jìn)行人才識(shí)別[J].沈陽(yáng)師范大學(xué)學(xué)報(bào):自然科學(xué)版,2014,23(1):44-47.
[15] 溫小霓, 蔡汝駿.分類與回歸樹(shù)及其應(yīng)用研究[J].統(tǒng)計(jì)與決策,2010,(23):14-16
[16] 符保龍,陳如云.分類回歸樹(shù)在高校計(jì)算機(jī)聯(lián)考數(shù)據(jù)分析中的應(yīng)用[J].計(jì)算機(jī)時(shí)代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 張凡,齊平,倪春梅.基于POS的BP神經(jīng)網(wǎng)絡(luò)在腮腺炎發(fā)病率預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2014,41(11):1924-1927.
[20] 張晶.BP神經(jīng)網(wǎng)絡(luò)在圖書(shū)館信息處理中的應(yīng)用研究[J].圖書(shū)情報(bào),2014,(9):132-133.
[21] 徐學(xué)琴,孫寧,徐玉芳.基于BP神經(jīng)網(wǎng)絡(luò)的河南省甲乙類法定報(bào)告?zhèn)魅静☆A(yù)測(cè)研究[J].中華疾病控制雜志,2014,18(6) :561-563.
[22] 馬曉梅,隋美麗,段廣才,等.手足口病重癥化危險(xiǎn)因素BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)分析[J].中國(guó)公共衛(wèi)生,2014,30(6):758-761.
[23] 任方,馬尚才.基于條件對(duì)數(shù)似然的BP神經(jīng)網(wǎng)絡(luò)多類分類器[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2011,26(1):32-42.
[26] 解合川,任欽,曾海燕,等.支持向量機(jī)在傳染病發(fā)病率預(yù)測(cè)中的應(yīng)用[J].現(xiàn)代預(yù)防醫(yī)學(xué),2012,40(22):4105-4112.
[27] 劉崇林.人口時(shí)間序列的支持向量機(jī)預(yù)測(cè)模型[J].寧夏大學(xué)學(xué)報(bào):自然科學(xué)版,2013,27(4):308-310.
[28] 張俊輝,潘曉平,潘驚萍,等.基于支持向量回歸的5歲以下兒童死亡率預(yù)測(cè)模型[J].現(xiàn)代預(yù)防醫(yī)學(xué),2014,36(24):4601-4603,4605.
[29] 陳詩(shī)一.非參數(shù)支持向量回歸和分類理論及其在金融市場(chǎng)預(yù)測(cè)中的應(yīng)用[M].北京:北京大學(xué)出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董國(guó)君,哈力木拉提.基于隨機(jī)退火的神經(jīng)網(wǎng)絡(luò)算法及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,46(19):39-42.
[32] 胡潔,曾祥金.一種快速且全局收斂的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[J].系統(tǒng)科學(xué)與數(shù)學(xué),2014,30(5):604-610.
數(shù)據(jù)分析的方法范文6
關(guān)鍵詞:牛頓環(huán); 逐差法; 線性回歸法; 加權(quán)平均法
中圖分類號(hào):Q4361;TP274文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X(2010)08-0141-04
Analysis of Data Processing in Lens Curvature Radius Measured by Newton′s Ring
LI Xiao-li
(School of Science, Xi’an Shiyou University, Xi’an 710065, China)
Abstract: The methods and procedures of using interative differential method, linear recursive analysis, and weighted average method to process the data of lens curvature of Newton′s Rings are introduced in detail, three experimental dada processing methods are compared. The weighted average method can overcome the experimental systematic distortions, and make a nonprecision measurement according to processing priuciple, and build on the basis of mathematical statistical theory. This method mainly compared the corresponding rights, and then found out the weighted average, used Matlab software processing. It is proved that the weighted average method is optimal for this experiment by theoretic analysis.
Keywords: Newton′s rings; interative differential method; linear recursive analysis; weighted average method
0 引 言
“牛頓環(huán)”是牛頓在1675年制作天文望遠(yuǎn)鏡時(shí),偶然把一個(gè)望遠(yuǎn)鏡的物鏡放在平板玻璃上發(fā)現(xiàn)的。牛頓環(huán)屬于用分振幅法產(chǎn)生干涉現(xiàn)象,亦是典型的等厚干涉條紋。它為光的波動(dòng)提供了重要的實(shí)驗(yàn)證據(jù)。光的干涉現(xiàn)象廣泛地應(yīng)用于科學(xué)研究、工業(yè)生產(chǎn)和檢驗(yàn)技術(shù)中,如利用光的干涉法進(jìn)行薄膜等厚、微小角度、曲面的曲率半徑等幾何量的精密測(cè)量,也普遍應(yīng)用檢測(cè)加工工件表面的光潔度和平整度及機(jī)械零件的內(nèi)力分布等。
為了獲得真實(shí)可靠的數(shù)據(jù),需要對(duì)實(shí)驗(yàn)的全過(guò)程進(jìn)行誤差控制。如果實(shí)驗(yàn)原理、方法和采用的實(shí)驗(yàn)裝置不同,實(shí)驗(yàn)結(jié)果的精度也不同,這是因?yàn)椴捎昧瞬煌奈锢砟P秃蛯?shí)驗(yàn)條件[1]。即使當(dāng)實(shí)驗(yàn)原理、方法和采用的實(shí)驗(yàn)裝置相同,如果采用不同的數(shù)據(jù)處理方法(如最小二乘法、逐差法等),也會(huì)帶來(lái)精度不同的結(jié)果,這是因?yàn)椴捎昧瞬煌臄?shù)學(xué)模型。甚至對(duì)同一組實(shí)驗(yàn)數(shù)據(jù)采用同一種數(shù)據(jù)處理方法,如果處理方式不同,其精度也會(huì)有很大的不同,這是因?yàn)椴捎昧瞬煌乃惴āR虼?如何利用有限的測(cè)量數(shù)據(jù),發(fā)揮其最大效用,選擇適當(dāng)?shù)臄?shù)據(jù)處理方法和算法,有效地減少誤差,在實(shí)驗(yàn)結(jié)果的分析中就顯得非常重要。
牛頓環(huán)屬于用分振幅法產(chǎn)生干涉現(xiàn)象,它是典型的等厚干涉條紋。下面以牛頓環(huán)干涉實(shí)驗(yàn)為例,對(duì)實(shí)驗(yàn)數(shù)據(jù)分別用逐差法、線性回歸法、加權(quán)平均法三種方法進(jìn)行分析,然后比較三種方法的優(yōu)劣,并對(duì)結(jié)果進(jìn)行討論。
1 實(shí)驗(yàn)部分
1.1 實(shí)驗(yàn)原理
最常見(jiàn)的牛頓環(huán)干涉結(jié)構(gòu)如圖1所示\,把一塊曲率半徑相當(dāng)大的平凸鏡放在一塊平板玻璃片上,在單色光的垂直照射下,用讀數(shù)顯微鏡可觀察到以接觸點(diǎn)為中心的一系列干涉圓環(huán)。其中亮暗環(huán)紋交替出現(xiàn),隨著半徑增大而由稀變密,直至模糊一片。
設(shè)入射單色光的波長(zhǎng)為λ,第k級(jí)干涉條紋的半徑為rk,該處空氣膜的厚度為e,通過(guò)數(shù)學(xué)推導(dǎo),產(chǎn)生明暗環(huán)的干涉條件為[3]:
明條紋:
И
δk=2ek+λ/2=kλ, k=1,2,3,…(1)
暗條紋:
И
δk=2ek+λ/2=(2k+1)λ, k=1,2,3,…(2)
根據(jù)圖1的幾何關(guān)系可知,R2=r2k+(R-ek)2,則r2k=2ekR-e2k,R為透鏡的曲率半徑。由于Rek,上式近似表示為:
И
ek=r2k/(2R)(3)
將式(3)代入式(1)、式(2)中,則:
明環(huán)半徑:
И
r2k=(2k-1)R(λ/2), k=1,2,3,…(4)
暗環(huán)半徑:
И
r2k=kλR, k=1,2,3,…(5)
若用兩個(gè)暗環(huán)或明環(huán)半徑和的平方差進(jìn)行計(jì)算,可以消除因附加光程差產(chǎn)生的誤差,д饈鋇m環(huán)暗環(huán)半徑為r2m=mλR,第n環(huán)明環(huán)半徑為r2n=nλR,Я絞較嗉醯們率半徑為:
И
R=r2m-r2n(m-n)λ=D2m-D2n4(m-n)λ(6)
И
式中:D為牛頓環(huán)直徑。所以實(shí)驗(yàn)中只要測(cè)量出第m環(huán)和第n環(huán)的直徑,根據(jù)上式就可以算出透鏡的曲率半徑R。
圖1 牛頓環(huán)裝置
1.2 實(shí)驗(yàn)數(shù)據(jù)分析
實(shí)驗(yàn)中測(cè)量牛頓環(huán)干涉條紋的數(shù)據(jù)記錄如表1所示。
表1 牛頓環(huán)干涉條紋的原始測(cè)量數(shù)據(jù)
k
51015202530
D左 /mm30.52231.27831.88032.38532.83233.240
D右 /mm26.32125.55724.96224.46924.01923.612
下面分別用逐差法、線性回歸法和加權(quán)平均法對(duì)實(shí)驗(yàn)中測(cè)量牛頓環(huán)干涉條紋的數(shù)據(jù)進(jìn)行分析。
1.2.1 逐差法
由于牛頓環(huán)裝置中玻璃接觸處的彈性形變會(huì)引起系統(tǒng)誤差,因而不能直接用牛頓環(huán)的直徑D(k)計(jì)算平凸透鏡的曲率半徑。可以假設(shè)干涉條紋為均勻分布,采用逐差法,在計(jì)算機(jī)上利用Matlab軟件中的數(shù)值插值法處理實(shí)驗(yàn)數(shù)據(jù),處理結(jié)果如表2所示。
表2 采用逐差法分析實(shí)驗(yàn)數(shù)據(jù)
kD左/mmD右/mmkD左/mmD右/mmD2(k+15)-D2(k)/mm2
130.52226.3211432.19224.65945.015
230.68826.1521532.29024.56345.058
330.84725.9911632.38524.46945.056
430.99825.8391732.47824.37645.058
531.14125.6941832.56924.28545.056
631.27825.5571932.65924.19545.026
731.40925.4262032.74624.10644.984
831.53425.3022132.83224.01944.939
931.65425.1842232.91623.93444.899
1031.76925.0712332.99923.85044.869
1131.88024.9622433.08123.76944.850
1231.98724.8582533.16123.68944.843
1332.09124.7572633.24023.61244.840
注:光源為鈉光燈λ= 589.3 nm
算術(shù)平均值的標(biāo)準(zhǔn)偏差為:
И
σ[D2(k+15)-D2(k)]=0.019 mm2
И
則曲率半徑的平均值為:
И
R1=D2(k+15)-D2(k)4mλ=1 271.0 mm
相對(duì)標(biāo)準(zhǔn)偏差為:
И
σR1R1=σ[D2(k+m)-D2(m)]D2(k+m)-D2(m)=0.04%,
平凸透鏡的曲率半徑的標(biāo)準(zhǔn)偏差為:
И
σR1 = 0.5 mm
所以實(shí)驗(yàn)結(jié)果為:
И
R1=R1±σR1=(1 271.0±0.5) mm
И
1.2.2 線性回歸法
根據(jù)牛頓環(huán)實(shí)驗(yàn)的基本原理,設(shè)第m條暗紋的干涉級(jí)次為(m+j),則D2k = 4Rλ(m+j),可以看出D2k與m成線性關(guān)系,只要測(cè)量得到各m級(jí)(自變量x)所對(duì)應(yīng)的D2k(應(yīng)變量y),用最小二乘法擬合線性函數(shù)(直線)可以得到[4]:y=A+Bx。
所以要確定R,只需要確定系數(shù)B即可,依據(jù)最小二乘法處理實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)整理后用Matlab軟件計(jì)算線性擬合系數(shù)B為[5]:
И
B=n∑i(xiyi)-∑ixi∑iyin∑ix2i-(∑ixi)2=2.999 0 mm
И
式中:xi=m,yi=D2m。
為了檢驗(yàn)直線擬合的好壞,并確定測(cè)量的不確定度,求出相關(guān)系數(shù)[6]:
И
r=xy-xy(x2-x2)(y2-y2)=0.999 984 57
平凸透鏡的曲率半徑為:
И
R2=B/(4mλ)=1 272.7 mm
相對(duì)不確定度為:
И
ur(R2)=u(R2)R2=u(B)B=1/r2-1n-2=0.000 8
平凸透鏡的曲率半徑的不確定度為:
И
u(R2)=0.000 8×1 272.7=1.0 mm
所以實(shí)驗(yàn)結(jié)果為:
И
R2 =R2 ±u(R2 )=(1 272.7±1.0) mm
И
1.2.3 加權(quán)平均法
實(shí)驗(yàn)中,牛頓環(huán)的直徑為D(k)=D左(k)-D右(k),其中D左(k),D右(k)是第k級(jí)牛頓環(huán)左、右兩端位置坐標(biāo)。由于D左(k),D右(k)只做單次測(cè)量,其精度為儀器精度,而讀數(shù)裝置最小刻度為0.01 mm,則有σ=0.01 mm=D左(k)=D右(k),в晌蟛畬遞知牛頓環(huán)直徑的測(cè)量精度為[7]:
И
σ2D(k)=σD2左(k)+D2右(k)=2σ2(7)
從而m個(gè)相鄰牛頓環(huán)直徑平方差的測(cè)量精度為:
σ2[D2(k+m) -D2(k) ]=[σD2(k+m) ]2+[σD2(k)]
=σ2D2(k+m)+σ2D2(k)
= 4D2(k+m)σ2D(k+11)+4D2(k)σ2D(k)
=8σ2\(8)
所以:
И
σ2[D2(k+m) -D2(k)]=0.000 8[D2(k+m)+D2(k)](9)
令yk=D2(k+m)-D2(k),相應(yīng)的權(quán)\為ωk=1σ2(yk),Р捎眉尤ㄆ驕法分析測(cè)量數(shù)據(jù)如表3所示。
表3 加權(quán)平均法分析實(shí)驗(yàn)數(shù)據(jù)
kyk/mm2精度/mm2權(quán)ωk/mm-2ωkyky-yk/mm2ωk(y-yk)2/ mm2
145.0150.064 215.56700.62-0.071 20.078 9
245.0580.069 014.50653.21-0.114 80.190 9
345.0560.073 813.56610.75-0.112 30.171 1
445.0260.078 612.72572.84-0.082 60.086 8
544.9840.083 511.98539.01-0.040 90.020 0
644.9390.088 311.32508.830.004 30.000 2
744.8990.093 210.73481.860.044 90.021 6
844.8690.098 010.20457.730.074 50.056 6
944.8500.102 99.72436.050.093 40.084 9
1044.8430.107 79.29416.510.100 80.094 4
1144.8400.112 48.89398.770.103 80.095 8
計(jì)算可得加權(quán)平均值為:
И
y=∑11i=1ωiyi/∑11i=1ωi=44.957 mm2
標(biāo)準(zhǔn)偏差為:
И
σy=∑11i=1(y-yi)2〗/(n-1)∑11i=1ωi=0.078 mm2
И
從而得曲率半徑的平均值為:
И
R3=y/(4mλ)=1 271.1 mm
相對(duì)標(biāo)準(zhǔn)偏差為:
И
σR3R3=σyy=0.02%
И
則實(shí)驗(yàn)結(jié)果的測(cè)量精度為:
И
σR3=0.2 mm
所以實(shí)驗(yàn)結(jié)果為:
И
R3=R3±σR3=(1 271.1±0.2) mm
И
1.3 實(shí)驗(yàn)結(jié)果與討論
對(duì)于實(shí)驗(yàn)數(shù)據(jù)分別用逐差法、線性回歸法和加權(quán)平均法進(jìn)行處理后,實(shí)驗(yàn)結(jié)果可分別表示為:
逐差法:
И
R1 = R1 ±σR1 =(1 271.0±0.5) mm
線性回歸法:
И
R2 =R2 ±σR2 =(1 272.7±1.0) mm
加權(quán)平均法:
И
R3=R3±σR3=(1 271.1±0.2) mm
下面對(duì)這三種數(shù)據(jù)處理方法進(jìn)行檢驗(yàn),選擇最優(yōu)的數(shù)據(jù)處理方法,檢驗(yàn)方法較多,現(xiàn)選擇采用t分布檢驗(yàn)[9]:
t=x1-x2(n1-1)σ21+(n2-1)σ22ν(1/n1+1/n2)(10)
式中:n1和n2分別為凸透鏡球面的上、下兩面的折射率,由于凸透鏡球面周圍都為空氣薄膜,故n1=n2,則令ν=n1+n2-2=2(n-1),Т傭有:
И
t=\-R2)\〗/(σ2R1+σ2R2)(11)
方法1與方法2比較計(jì)算,可得:t1=0.350;方法2與方法3比較計(jì)算,可得:t2=0.340。
若取顯著水平σ=10%,則置信率p=90%,ν=18,查t分布表可得[10]tζ=1.734,則|t1|=0.354
若取σ= 50 %,則p=50%,ν=18,查表得tζ=0.688,則|t1|=0.354
通過(guò)上面分析可以看出三種數(shù)據(jù)處理方法有如下特點(diǎn):
(1) 逐差法主要是圍繞如何克服實(shí)驗(yàn)的系統(tǒng)誤差來(lái)進(jìn)行的,是建立在算術(shù)計(jì)算的基礎(chǔ)上,但并不滿足非等精度測(cè)量實(shí)驗(yàn)數(shù)據(jù)處理的條件,而牛頓環(huán)干涉實(shí)驗(yàn)是非等精度測(cè)量,故逐差法對(duì)于牛頓環(huán)實(shí)驗(yàn)來(lái)說(shuō)并不是一種理想的數(shù)據(jù)處理方法。
(2) 線性回歸法主要是為了避免非等精度測(cè)量的困難,但未考慮該次實(shí)驗(yàn)中的系統(tǒng)誤差,所以線性回歸法對(duì)于牛頓環(huán)實(shí)驗(yàn)來(lái)說(shuō)也不是理想的數(shù)據(jù)處理方法。
(3) 加權(quán)平均法既考慮了如何克服實(shí)驗(yàn)的系統(tǒng)誤差,又能按照處理原則去對(duì)待非等精度測(cè)量,且建立在數(shù)理統(tǒng)計(jì)理論基礎(chǔ)上,所以加權(quán)平均法是處理牛頓環(huán)實(shí)驗(yàn)數(shù)據(jù)的最佳方法。
2 結(jié) 語(yǔ)
本文對(duì)牛頓環(huán)實(shí)驗(yàn)數(shù)據(jù)分別采用逐差法、線性回歸法和加權(quán)平均法進(jìn)行分析。逐差法在牛頓環(huán)干涉實(shí)驗(yàn)中是一種常用的實(shí)驗(yàn)處理方法,其原理簡(jiǎn)單且便于理解,對(duì)它的實(shí)驗(yàn)原理不用再做過(guò)多的敘述,但由于逐差法不滿足非等精度測(cè)量實(shí)驗(yàn)數(shù)據(jù)的條件,而牛頓環(huán)干涉實(shí)驗(yàn)就是一種非等精度測(cè)量,故該方法對(duì)于牛頓環(huán)干涉實(shí)驗(yàn)并不是一種理想的實(shí)驗(yàn)處理方法;線性回歸法先利用數(shù)值插值法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,再利用最小二乘法將實(shí)驗(yàn)數(shù)據(jù)擬合成一條直線函數(shù),最后用Matlab軟件計(jì)算出線性擬合系數(shù)B及相關(guān)系數(shù)r,進(jìn)而算出凸透鏡的曲率半徑R和測(cè)量的相對(duì)不確定度;加權(quán)平均值法主要是比較相應(yīng)的權(quán),進(jìn)而求出加權(quán)平均值,利用Matlab軟件處理較為方便,在優(yōu)化模型中應(yīng)用較廣。經(jīng)過(guò)分析與討論可知應(yīng)用加權(quán)平均值法為牛頓環(huán)實(shí)驗(yàn)數(shù)據(jù)處理的最佳方法。
參考文獻(xiàn)
[1]劉才明, 許毓敏. 對(duì)牛頓環(huán)干涉實(shí)驗(yàn)中若干問(wèn)題的研究[J]. 實(shí)驗(yàn)室研究與探索, 2003(6): 1314.
[2]王德新. 牛頓環(huán)實(shí)驗(yàn)非等精度分析之我見(jiàn)\. 物理實(shí)驗(yàn), 1993, 13(4): 184-185.
[3]王紀(jì)龍. 大學(xué)物理[M]. 北京: 科學(xué)出版社, 2002.
[4]沈元華, 陸申龍. 基礎(chǔ)物理實(shí)驗(yàn)[M]. 北京: 高等教育出版社, 2001.
[5]張德啟, 李新鄉(xiāng). 物理實(shí)驗(yàn)教學(xué)研究[M]. 北京: 科學(xué)出版社, 2005.
[6]鄒進(jìn)和. 應(yīng)用“逐差法”處理實(shí)驗(yàn)數(shù)據(jù)[J]. 大學(xué)物理實(shí)驗(yàn), 2003(3): 51-52.
[7]滕堅(jiān). 牛頓環(huán)實(shí)驗(yàn)數(shù)據(jù)處理方法分析[J]. 物理通報(bào), 2006(6): 3436.
[8]虞仲博, 屠全良. 牛頓環(huán)實(shí)驗(yàn)等精度測(cè)量及其不確定度的評(píng)定與表示[J]. 物理實(shí)驗(yàn), 2000, 20(5): 1719.
[9]劉智敏. 不確定度與分布合成[J]. 物理實(shí)驗(yàn), 1999, 19(5): 5860.