免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

分享

關(guān)于數(shù)據(jù)挖掘中的聚類分析

 123#¥ 2009-04-23

聚類
  數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主 要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。80年代初,Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是,在劃分對象時(shí)不僅考慮對象之間的距離,還要求劃分出 的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。

統(tǒng)計(jì)分析(statistical analysis

    常見的統(tǒng)計(jì)方法有回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯分析、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)和探索性分析(主元分析法、相關(guān)分析法等)。其處理過程可以分為三個(gè)階段:搜集數(shù)據(jù)、分析數(shù)據(jù)和進(jìn)行推理。

 

在整個(gè)過程中,聚類的依據(jù)是統(tǒng)計(jì)距離和相似系數(shù)。

 

如何度量距離的遠(yuǎn)近:統(tǒng)計(jì)距離和相似系數(shù)

 

人工神經(jīng)網(wǎng)絡(luò)
  神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注,因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上 百個(gè)參數(shù)的問題(當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多)。神經(jīng)網(wǎng)絡(luò)常用于兩類問題:分類和回歸。
  在結(jié)構(gòu)上,可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層(見圖4)。輸入層的每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)個(gè)的預(yù)測變量。輸出層的節(jié)點(diǎn)對應(yīng)目標(biāo)變量,可有多 個(gè)。在輸入層和輸出層之間是隱含層(對神經(jīng)網(wǎng)絡(luò)使用者來說不可見),隱含層的層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。

  除了輸入層的節(jié)點(diǎn),神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都與很 多它前面的節(jié)點(diǎn)(稱為此節(jié)點(diǎn)的輸入節(jié)點(diǎn))連接在一起,每個(gè)連接對應(yīng)一個(gè)權(quán)重Wxy,此節(jié)點(diǎn)的值就是通過它所有輸入節(jié)點(diǎn)的值與對應(yīng)連接權(quán)重乘積的和作為一個(gè) 函數(shù)的輸入而得到,我們把這個(gè)函數(shù)稱為活動(dòng)函數(shù)或擠壓函數(shù)。如圖5中節(jié)點(diǎn)4輸出到節(jié)點(diǎn)6的值可通過如下計(jì)算得到:
  W14*節(jié)點(diǎn)1的值+W24*節(jié)點(diǎn)2的值
  神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都可表示成預(yù)測變量(節(jié)點(diǎn)1,2)的值或值的組合(節(jié)點(diǎn)3-6)。注意節(jié)點(diǎn)6的值已經(jīng)不再是節(jié)點(diǎn)1、2的線性組合,因?yàn)閿?shù)據(jù)在隱含 層中傳遞時(shí)使用了活動(dòng)函數(shù)。實(shí)際上如果沒有活動(dòng)函數(shù)的話,神經(jīng)元網(wǎng)絡(luò)就等價(jià)于一個(gè)線性回歸函數(shù),如果此活動(dòng)函數(shù)是某種特定的非線性函數(shù),那神經(jīng)網(wǎng)絡(luò)又等價(jià) 于邏輯回歸。
  調(diào)整節(jié)點(diǎn)間連接的權(quán)重就是在建立(也稱訓(xùn)練)神經(jīng)網(wǎng)絡(luò)時(shí)要做的工作。最早的也是最基本的權(quán)重調(diào)整方法是錯(cuò)誤回饋法,現(xiàn)在較新的有變化坡度法、類牛頓 法、Levenberg-Marquardt法、和遺傳算法等。無論采用那種訓(xùn)練方法,都需要有一些參數(shù)來控制訓(xùn)練的過程,如防止訓(xùn)練過度和控制訓(xùn)練的速 度。
  決定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(或體系結(jié)構(gòu))的是隱含層及其所含節(jié)點(diǎn)的個(gè)數(shù),以及節(jié)點(diǎn)之間的連接方式。要從頭開始設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò),必須要決定隱含層和節(jié)點(diǎn)的數(shù)目,活動(dòng)函數(shù)的形式,以及對權(quán)重做那些限制等,當(dāng)然如果采用成熟軟件工具的話,他會幫你決定這些事情。
在諸多類型的神經(jīng)網(wǎng)絡(luò)中,最常用的是前向傳播式神經(jīng)網(wǎng)絡(luò),也就是我們前面圖示中所描繪的那種。我們下面詳細(xì)討論一下,為討論方便假定只含有一層隱含節(jié)點(diǎn)。
  可以認(rèn)為錯(cuò)誤回饋式訓(xùn)練法是變化坡度法的簡化,其過程如下:
  前向傳播:數(shù)據(jù)從輸入到輸出的過程是一個(gè)從前向后的傳播過程,后一節(jié)點(diǎn)的值通過它前面相連的節(jié)點(diǎn)傳過來,然后把值按照各個(gè)連接權(quán)重的大小加權(quán)輸入活動(dòng)函數(shù)再得到新的值,進(jìn)一步傳播到下一個(gè)節(jié)點(diǎn)。
  回饋:當(dāng)節(jié)點(diǎn)的輸出值與我們預(yù)期的值不同,也就是發(fā)生錯(cuò)誤時(shí),神經(jīng)網(wǎng)絡(luò)就要 “學(xué)習(xí)”(從錯(cuò)誤中學(xué)習(xí))。我們可以把節(jié)點(diǎn)間連接的權(quán)重看成后一節(jié)點(diǎn)對前 一節(jié)點(diǎn)的“信任” 程度(他自己向下一節(jié)點(diǎn)的輸出更容易受他前面哪個(gè)節(jié)點(diǎn)輸入的影響)。學(xué)習(xí)的方法是采用懲罰的方法,過程如下:如果一節(jié)點(diǎn)輸出發(fā)生錯(cuò)誤, 那么他看他的錯(cuò)誤是受哪個(gè)(些)輸入節(jié)點(diǎn)的影響而造成的,是不是他最信任的節(jié)點(diǎn)(權(quán)重最高的節(jié)點(diǎn))陷害了他(使他出錯(cuò)),如果是則要降低對他的信任值(降 低權(quán)重),懲罰他們,同時(shí)升高那些做出正確建議節(jié)點(diǎn)的信任值。對那些收到懲罰的節(jié)點(diǎn)來說,他也需要用同樣的方法來進(jìn)一步懲罰它前面的節(jié)點(diǎn)。就這樣把懲罰一 步步向前傳播直到輸入節(jié)點(diǎn)為止。


  對訓(xùn)練集中的每一條記錄都要重復(fù)這個(gè)步驟,用前向傳播得到輸出值,如果發(fā)生錯(cuò)誤,則用回饋法進(jìn)行學(xué)習(xí)。當(dāng)把訓(xùn)練集中的每一條記錄都運(yùn)行過一遍之后,我 們稱完成一個(gè)訓(xùn)練周期。要完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可能需要很多個(gè)訓(xùn)練周期,經(jīng)常是幾百個(gè)。訓(xùn)練完成之后得到的神經(jīng)網(wǎng)絡(luò)就是在通過訓(xùn)練集發(fā)現(xiàn)的模型,描述了訓(xùn)練 集中響應(yīng)變量受預(yù)測變量影響的變化規(guī)律。
  由于神經(jīng)網(wǎng)絡(luò)隱含層中的可變參數(shù)太多,如果訓(xùn)練時(shí)間足夠長的話,神經(jīng)網(wǎng)絡(luò)很可能把訓(xùn)練集的所有細(xì)節(jié)信息都“記”下來,而不是建立一個(gè)忽略細(xì)節(jié)只具有規(guī) 律性的模型,我們稱這種情況為訓(xùn)練過度。顯然這種“模型”對訓(xùn)練集會有很高的準(zhǔn)確率,而一旦離開訓(xùn)練集應(yīng)用到其他數(shù)據(jù),很可能準(zhǔn)確度急劇下降。為了防止這 種訓(xùn)練過度的情況,我們必須知道在什么時(shí)候要停止訓(xùn)練。在有些軟件實(shí)現(xiàn)中會在訓(xùn)練的同時(shí)用一個(gè)測試集來計(jì)算神經(jīng)網(wǎng)絡(luò)在此測試集上的正確率,一旦這個(gè)正確率 不再升高甚至開始下降時(shí),那么就認(rèn)為現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到做好的狀態(tài)了可以停止訓(xùn)練。
  圖6中的曲線可以幫我們理解為什么利用測試集能防止訓(xùn)練過度的出現(xiàn)。在圖中可以看到訓(xùn)練集和測試集的錯(cuò)誤率在一開始都隨著訓(xùn)練周期的增加不斷降低,而測試集的錯(cuò)誤率在達(dá)到一個(gè)谷底后反而開始上升,我們認(rèn)為這個(gè)開始上升的時(shí)刻就是應(yīng)該停止訓(xùn)練的時(shí)刻。
  神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)方法在本質(zhì)上有很多差別。神 經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計(jì)方法多很多。如圖4中就有13個(gè)參數(shù)(9個(gè)權(quán)重和4個(gè)限制條件)。由于參數(shù)如此之多,參數(shù)通過各種各樣的組合方式來影響輸出結(jié)果, 以至于很難對一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來用的,不用去管“盒子”里面是什么,只管用就行了。在大部分情況 下,這種限制條件是可以接受的。比如銀行可能需要一個(gè)筆跡識別軟件,但他沒必要知道為什么這些線條組合在一起就是一個(gè)人的簽名,而另外一個(gè)相似的則不是。 在很多復(fù)雜度很高的問題如化學(xué)試驗(yàn)、機(jī)器人、金融市場的模擬、和語言圖像的識別,等領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。
  神經(jīng)網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是很容易在并行計(jì)算機(jī)上實(shí)現(xiàn),可以把他的節(jié)點(diǎn)分配到不同的CPU上并行計(jì)算。
  在使用神經(jīng)網(wǎng)絡(luò)時(shí)有幾點(diǎn)需要注意:第一,神經(jīng)網(wǎng)絡(luò)很難解釋,目前還沒有能對神經(jīng)網(wǎng)絡(luò)做出顯而易見解釋的方法學(xué)。
  第二,神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)過度,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一定要恰當(dāng)?shù)氖褂靡恍┠車?yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法,如前面提到的測試集方法和交叉驗(yàn)證法等。這主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太多,如果給足夠的時(shí)間,他幾乎可以“記住”任何事情。
  第三,除非問題非常簡單,訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)可能需要相當(dāng)可觀的時(shí)間才能完成。當(dāng)然,一旦神經(jīng)網(wǎng)絡(luò)建立好了,在用它做預(yù)測時(shí)運(yùn)行時(shí)還是很快得。
  第四,建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大。一個(gè)很有誤導(dǎo)性的神話就是不管用什么數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測。這是不確切的,要 想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清洗、整理、轉(zhuǎn)換、選擇等工作,對任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的輸 入變量都必須是0-1(或-1 -- +1)之間的實(shí)數(shù),因此像“地區(qū)”之類文本數(shù)據(jù)必須先做必要的處理之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入。
在數(shù)據(jù)量特別大的時(shí)候,統(tǒng)計(jì)方法會出現(xiàn)困難,因?yàn)槠鋾r(shí)間復(fù)雜度不是線性的。還有不能動(dòng)態(tài)的增加數(shù)據(jù)。再有就是聚類的方法還是不一樣,雖然都是距離,但統(tǒng)計(jì)方法中用的是空間距離,而神經(jīng)網(wǎng)絡(luò)中使用的是屬性描述。

1.統(tǒng)計(jì)距離


距離有點(diǎn)間距離好和類間距離

 

2.常用距離

統(tǒng)計(jì)距離有多種,常用的是明氏距離。


3.相似系數(shù)

當(dāng)對 個(gè)指標(biāo)變量進(jìn)行聚類時(shí),用相似系數(shù)來衡量變量間的關(guān)聯(lián)程度,一般地稱 為變量 和 間的相似系數(shù)。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等。

夾角余弦:

 


相關(guān)系數(shù):


對于分類變量的研究對象的相似性測度,一般稱為關(guān)聯(lián)測度。

 

第二節(jié)  如何進(jìn)行聚類分析

 

一、系統(tǒng)聚類

 

1.系統(tǒng)聚類的基本步驟


2.最短距離法


3.最長距離法

 


4.重心法和類平均法

 


5.離差平方和法

 


 

二、SPSS中的聚類分析

1、事先要確定分多少類:K均值聚類法;

 

2、事先不用確定分多少類:分層聚類;

 

分層聚類由兩種方法:分解法和凝聚法。

分層聚類的功能:即可進(jìn)行樣品的聚類,也可進(jìn)行變量的聚類。

分層聚類的原理:即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。

 

分層聚類的中要進(jìn)行以下的選擇:

數(shù)據(jù)的標(biāo)準(zhǔn)化

測度方法的選擇:距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。

聚類方法的選擇:即以什么方法聚類,spss中提供了7中方法可進(jìn)行選擇。

 

輸出圖形的選擇:樹形圖或冰柱圖。

 

3、聚類分析要注意的問題。

 

      聚類方法的優(yōu)缺點(diǎn):

類平均法比較好,因?yàn)榕c類平均法相比,最短和重心法是“空間濃縮”,即并類的距離范圍小,區(qū)別類的靈敏度差;

 

與類平均法相比,其他方法是“空間擴(kuò)張”,即并類距離范圍大,區(qū)別類的靈敏度強(qiáng)。

最短距離比最長距離法好

 

聚類結(jié)果中,如果孤類點(diǎn)太多,則說明該中聚類方法不好。

 

如果從減少孤類來看,一般情況下用Word’s方法最好。

      快速聚類法與層次聚類法應(yīng)用區(qū)別

層次聚類法的聚類過程是單方向的,一旦某個(gè)樣品(case)進(jìn)入某一類,就不可能從該類出來,再歸入其他的類。

 

而快速聚類法受奇異值、相似測度和不合使得聚類變量的影響較小,對于不合適的初始分類可以進(jìn)行反復(fù)調(diào)整.

 

在聚類分析發(fā)展的早期,層次聚類法應(yīng)用普遍,其中尤以組間類平均法和離差平方和法應(yīng)用最廣。

后來快速聚類方法逐步被人們接受,應(yīng)用日益增多?,F(xiàn)在是兩者相結(jié)合,取長補(bǔ)短。

 

首先使用層次聚類法確定分類數(shù),檢查是否有奇異值,去除奇異值后,對剩下的案例重新進(jìn)行分類,把用層次聚類法得到的各個(gè)類的重心,作為迭代法的初始分類中心,對樣本進(jìn)行重新調(diào)整。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多