關(guān)于數(shù)據(jù)挖掘中的聚類分析

123#￥ 2009-04-23

展開全文

聚類
　　數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集，即聚類。聚類增強(qiáng)了人們對客觀現(xiàn)實(shí)的認(rèn)識，是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。80年代初，Mchalski提出了概念聚類技術(shù)牞其要點(diǎn)是，在劃分對象時(shí)不僅考慮對象之間的距離，還要求劃分出的類具有某種內(nèi)涵描述，從而避免了傳統(tǒng)技術(shù)的某些片面性。

統(tǒng)計(jì)分析（statistical analysis）

常見的統(tǒng)計(jì)方法有回歸分析（多元回歸、自回歸等）、判別分析（貝葉斯分析、費(fèi)歇爾判別、非參數(shù)判別等）、聚類分析（系統(tǒng)聚類、動(dòng)態(tài)聚類等）和探索性分析（主元分析法、相關(guān)分析法等）。其處理過程可以分為三個(gè)階段：搜集數(shù)據(jù)、分析數(shù)據(jù)和進(jìn)行推理。

在整個(gè)過程中，聚類的依據(jù)是統(tǒng)計(jì)距離和相似系數(shù)。

如何度量距離的遠(yuǎn)近：統(tǒng)計(jì)距離和相似系數(shù)

人工神經(jīng)網(wǎng)絡(luò)
　　神經(jīng)網(wǎng)絡(luò)近來越來越受到人們的關(guān)注，因?yàn)樗鼮榻鉀Q大復(fù)雜度問題提供了一種相對來說比較有效的簡單方法。神經(jīng)網(wǎng)絡(luò)可以很容易的解決具有上百個(gè)參數(shù)的問題（當(dāng)然實(shí)際生物體中存在的神經(jīng)網(wǎng)絡(luò)要比我們這里所說的程序模擬的神經(jīng)網(wǎng)絡(luò)要復(fù)雜的多）。神經(jīng)網(wǎng)絡(luò)常用于兩類問題：分類和回歸。
　　在結(jié)構(gòu)上，可以把一個(gè)神經(jīng)網(wǎng)絡(luò)劃分為輸入層、輸出層和隱含層（見圖4）。輸入層的每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)個(gè)的預(yù)測變量。輸出層的節(jié)點(diǎn)對應(yīng)目標(biāo)變量，可有多個(gè)。在輸入層和輸出層之間是隱含層（對神經(jīng)網(wǎng)絡(luò)使用者來說不可見），隱含層的層數(shù)和每層節(jié)點(diǎn)的個(gè)數(shù)決定了神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。

　　除了輸入層的節(jié)點(diǎn)，神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都與很多它前面的節(jié)點(diǎn)（稱為此節(jié)點(diǎn)的輸入節(jié)點(diǎn)）連接在一起，每個(gè)連接對應(yīng)一個(gè)權(quán)重Wxy，此節(jié)點(diǎn)的值就是通過它所有輸入節(jié)點(diǎn)的值與對應(yīng)連接權(quán)重乘積的和作為一個(gè) 函數(shù)的輸入而得到，我們把這個(gè)函數(shù)稱為活動(dòng)函數(shù)或擠壓函數(shù)。如圖5中節(jié)點(diǎn)4輸出到節(jié)點(diǎn)6的值可通過如下計(jì)算得到：
　　W14*節(jié)點(diǎn)1的值+W24*節(jié)點(diǎn)2的值
　　神經(jīng)網(wǎng)絡(luò)的每個(gè)節(jié)點(diǎn)都可表示成預(yù)測變量（節(jié)點(diǎn)1，2）的值或值的組合（節(jié)點(diǎn)3-6）。注意節(jié)點(diǎn)6的值已經(jīng)不再是節(jié)點(diǎn)1、2的線性組合，因?yàn)閿?shù)據(jù)在隱含層中傳遞時(shí)使用了活動(dòng)函數(shù)。實(shí)際上如果沒有活動(dòng)函數(shù)的話，神經(jīng)元網(wǎng)絡(luò)就等價(jià)于一個(gè)線性回歸函數(shù)，如果此活動(dòng)函數(shù)是某種特定的非線性函數(shù)，那神經(jīng)網(wǎng)絡(luò)又等價(jià) 于邏輯回歸。
　　調(diào)整節(jié)點(diǎn)間連接的權(quán)重就是在建立（也稱訓(xùn)練）神經(jīng)網(wǎng)絡(luò)時(shí)要做的工作。最早的也是最基本的權(quán)重調(diào)整方法是錯(cuò)誤回饋法，現(xiàn)在較新的有變化坡度法、類牛頓法、Levenberg-Marquardt法、和遺傳算法等。無論采用那種訓(xùn)練方法，都需要有一些參數(shù)來控制訓(xùn)練的過程，如防止訓(xùn)練過度和控制訓(xùn)練的速度。

　　決定神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)（或體系結(jié)構(gòu)）的是隱含層及其所含節(jié)點(diǎn)的個(gè)數(shù)，以及節(jié)點(diǎn)之間的連接方式。要從頭開始設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)，必須要決定隱含層和節(jié)點(diǎn)的數(shù)目，活動(dòng)函數(shù)的形式，以及對權(quán)重做那些限制等，當(dāng)然如果采用成熟軟件工具的話，他會幫你決定這些事情。
在諸多類型的神經(jīng)網(wǎng)絡(luò)中，最常用的是前向傳播式神經(jīng)網(wǎng)絡(luò)，也就是我們前面圖示中所描繪的那種。我們下面詳細(xì)討論一下，為討論方便假定只含有一層隱含節(jié)點(diǎn)。
　　可以認(rèn)為錯(cuò)誤回饋式訓(xùn)練法是變化坡度法的簡化，其過程如下：
　　前向傳播：數(shù)據(jù)從輸入到輸出的過程是一個(gè)從前向后的傳播過程，后一節(jié)點(diǎn)的值通過它前面相連的節(jié)點(diǎn)傳過來，然后把值按照各個(gè)連接權(quán)重的大小加權(quán)輸入活動(dòng)函數(shù)再得到新的值，進(jìn)一步傳播到下一個(gè)節(jié)點(diǎn)。
　　回饋：當(dāng)節(jié)點(diǎn)的輸出值與我們預(yù)期的值不同，也就是發(fā)生錯(cuò)誤時(shí)，神經(jīng)網(wǎng)絡(luò)就要 “學(xué)習(xí)”（從錯(cuò)誤中學(xué)習(xí)）。我們可以把節(jié)點(diǎn)間連接的權(quán)重看成后一節(jié)點(diǎn)對前一節(jié)點(diǎn)的“信任” 程度（他自己向下一節(jié)點(diǎn)的輸出更容易受他前面哪個(gè)節(jié)點(diǎn)輸入的影響）。學(xué)習(xí)的方法是采用懲罰的方法，過程如下：如果一節(jié)點(diǎn)輸出發(fā)生錯(cuò)誤，那么他看他的錯(cuò)誤是受哪個(gè)（些）輸入節(jié)點(diǎn)的影響而造成的，是不是他最信任的節(jié)點(diǎn)（權(quán)重最高的節(jié)點(diǎn)）陷害了他（使他出錯(cuò)），如果是則要降低對他的信任值（降低權(quán)重），懲罰他們，同時(shí)升高那些做出正確建議節(jié)點(diǎn)的信任值。對那些收到懲罰的節(jié)點(diǎn)來說，他也需要用同樣的方法來進(jìn)一步懲罰它前面的節(jié)點(diǎn)。就這樣把懲罰一步步向前傳播直到輸入節(jié)點(diǎn)為止。

　　對訓(xùn)練集中的每一條記錄都要重復(fù)這個(gè)步驟，用前向傳播得到輸出值，如果發(fā)生錯(cuò)誤，則用回饋法進(jìn)行學(xué)習(xí)。當(dāng)把訓(xùn)練集中的每一條記錄都運(yùn)行過一遍之后，我們稱完成一個(gè)訓(xùn)練周期。要完成神經(jīng)網(wǎng)絡(luò)的訓(xùn)練可能需要很多個(gè)訓(xùn)練周期，經(jīng)常是幾百個(gè)。訓(xùn)練完成之后得到的神經(jīng)網(wǎng)絡(luò)就是在通過訓(xùn)練集發(fā)現(xiàn)的模型，描述了訓(xùn)練集中響應(yīng)變量受預(yù)測變量影響的變化規(guī)律。
　　由于神經(jīng)網(wǎng)絡(luò)隱含層中的可變參數(shù)太多，如果訓(xùn)練時(shí)間足夠長的話，神經(jīng)網(wǎng)絡(luò)很可能把訓(xùn)練集的所有細(xì)節(jié)信息都“記”下來，而不是建立一個(gè)忽略細(xì)節(jié)只具有規(guī) 律性的模型，我們稱這種情況為訓(xùn)練過度。顯然這種“模型”對訓(xùn)練集會有很高的準(zhǔn)確率，而一旦離開訓(xùn)練集應(yīng)用到其他數(shù)據(jù)，很可能準(zhǔn)確度急劇下降。為了防止這種訓(xùn)練過度的情況，我們必須知道在什么時(shí)候要停止訓(xùn)練。在有些軟件實(shí)現(xiàn)中會在訓(xùn)練的同時(shí)用一個(gè)測試集來計(jì)算神經(jīng)網(wǎng)絡(luò)在此測試集上的正確率，一旦這個(gè)正確率不再升高甚至開始下降時(shí)，那么就認(rèn)為現(xiàn)在神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到做好的狀態(tài)了可以停止訓(xùn)練。
　　圖6中的曲線可以幫我們理解為什么利用測試集能防止訓(xùn)練過度的出現(xiàn)。在圖中可以看到訓(xùn)練集和測試集的錯(cuò)誤率在一開始都隨著訓(xùn)練周期的增加不斷降低，而測試集的錯(cuò)誤率在達(dá)到一個(gè)谷底后反而開始上升，我們認(rèn)為這個(gè)開始上升的時(shí)刻就是應(yīng)該停止訓(xùn)練的時(shí)刻。

　　神經(jīng)元網(wǎng)絡(luò)和統(tǒng)計(jì)方法在本質(zhì)上有很多差別。神經(jīng)網(wǎng)絡(luò)的參數(shù)可以比統(tǒng)計(jì)方法多很多。如圖4中就有13個(gè)參數(shù)（9個(gè)權(quán)重和4個(gè)限制條件）。由于參數(shù)如此之多，參數(shù)通過各種各樣的組合方式來影響輸出結(jié)果，以至于很難對一個(gè)神經(jīng)網(wǎng)絡(luò)表示的模型做出直觀的解釋。實(shí)際上神經(jīng)網(wǎng)絡(luò)也正是當(dāng)作“黑盒”來用的，不用去管“盒子”里面是什么，只管用就行了。在大部分情況下，這種限制條件是可以接受的。比如銀行可能需要一個(gè)筆跡識別軟件，但他沒必要知道為什么這些線條組合在一起就是一個(gè)人的簽名，而另外一個(gè)相似的則不是。在很多復(fù)雜度很高的問題如化學(xué)試驗(yàn)、機(jī)器人、金融市場的模擬、和語言圖像的識別，等領(lǐng)域神經(jīng)網(wǎng)絡(luò)都取得了很好的效果。
　　神經(jīng)網(wǎng)絡(luò)的另一個(gè)優(yōu)點(diǎn)是很容易在并行計(jì)算機(jī)上實(shí)現(xiàn)，可以把他的節(jié)點(diǎn)分配到不同的CPU上并行計(jì)算。
　　在使用神經(jīng)網(wǎng)絡(luò)時(shí)有幾點(diǎn)需要注意：第一，神經(jīng)網(wǎng)絡(luò)很難解釋，目前還沒有能對神經(jīng)網(wǎng)絡(luò)做出顯而易見解釋的方法學(xué)。
　　第二，神經(jīng)網(wǎng)絡(luò)會學(xué)習(xí)過度，在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)一定要恰當(dāng)?shù)氖褂靡恍┠車?yán)格衡量神經(jīng)網(wǎng)絡(luò)的方法，如前面提到的測試集方法和交叉驗(yàn)證法等。這主要是由于神經(jīng)網(wǎng)絡(luò)太靈活、可變參數(shù)太多，如果給足夠的時(shí)間，他幾乎可以“記住”任何事情。
　　第三，除非問題非常簡單，訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)可能需要相當(dāng)可觀的時(shí)間才能完成。當(dāng)然，一旦神經(jīng)網(wǎng)絡(luò)建立好了，在用它做預(yù)測時(shí)運(yùn)行時(shí)還是很快得。
　　第四，建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大。一個(gè)很有誤導(dǎo)性的神話就是不管用什么數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)都能很好的工作并做出準(zhǔn)確的預(yù)測。這是不確切的，要想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清洗、整理、轉(zhuǎn)換、選擇等工作，對任何數(shù)據(jù)挖掘技術(shù)都是這樣，神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn)。比如神經(jīng)網(wǎng)絡(luò)要求所有的輸入變量都必須是0-1（或-1 -- +1）之間的實(shí)數(shù)，因此像“地區(qū)”之類文本數(shù)據(jù)必須先做必要的處理之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入。

在數(shù)據(jù)量特別大的時(shí)候，統(tǒng)計(jì)方法會出現(xiàn)困難，因?yàn)槠鋾r(shí)間復(fù)雜度不是線性的。還有不能動(dòng)態(tài)的增加數(shù)據(jù)。再有就是聚類的方法還是不一樣，雖然都是距離，但統(tǒng)計(jì)方法中用的是空間距離，而神經(jīng)網(wǎng)絡(luò)中使用的是屬性描述。

1．統(tǒng)計(jì)距離

距離有點(diǎn)間距離好和類間距離

2．常用距離

統(tǒng)計(jì)距離有多種，常用的是明氏距離。

3．相似系數(shù)

當(dāng)對個(gè)指標(biāo)變量進(jìn)行聚類時(shí)，用相似系數(shù)來衡量變量間的關(guān)聯(lián)程度，一般地稱為變量和間的相似系數(shù)。常用的相似系數(shù)有夾角余弦、相關(guān)系數(shù)等。

夾角余弦：

相關(guān)系數(shù)：

對于分類變量的研究對象的相似性測度，一般稱為關(guān)聯(lián)測度。

第二節(jié) 如何進(jìn)行聚類分析

一、系統(tǒng)聚類

1．系統(tǒng)聚類的基本步驟

2．最短距離法

3．最長距離法

4．重心法和類平均法

5．離差平方和法

二、SPSS中的聚類分析

1、事先要確定分多少類：K均值聚類法；

2、事先不用確定分多少類：分層聚類；

分層聚類由兩種方法：分解法和凝聚法。

分層聚類的功能：即可進(jìn)行樣品的聚類，也可進(jìn)行變量的聚類。

分層聚類的原理：即我們前面介紹過的系統(tǒng)聚類方法的原理和過程。

分層聚類的中要進(jìn)行以下的選擇：

數(shù)據(jù)的標(biāo)準(zhǔn)化

測度方法的選擇：距離方法的選擇或相似性、關(guān)聯(lián)程度的選擇。

聚類方法的選擇：即以什么方法聚類，spss中提供了7中方法可進(jìn)行選擇。

輸出圖形的選擇：樹形圖或冰柱圖。

3、聚類分析要注意的問題。

聚類方法的優(yōu)缺點(diǎn)：

類平均法比較好，因?yàn)榕c類平均法相比，最短和重心法是“空間濃縮”，即并類的距離范圍小，區(qū)別類的靈敏度差；

與類平均法相比，其他方法是“空間擴(kuò)張”，即并類距離范圍大，區(qū)別類的靈敏度強(qiáng)。

最短距離比最長距離法好

聚類結(jié)果中，如果孤類點(diǎn)太多，則說明該中聚類方法不好。

如果從減少孤類來看，一般情況下用Word’s方法最好。

快速聚類法與層次聚類法應(yīng)用區(qū)別

層次聚類法的聚類過程是單方向的，一旦某個(gè)樣品（case）進(jìn)入某一類，就不可能從該類出來，再歸入其他的類。

而快速聚類法受奇異值、相似測度和不合使得聚類變量的影響較小，對于不合適的初始分類可以進(jìn)行反復(fù)調(diào)整.

在聚類分析發(fā)展的早期，層次聚類法應(yīng)用普遍，其中尤以組間類平均法和離差平方和法應(yīng)用最廣。

后來快速聚類方法逐步被人們接受，應(yīng)用日益增多?，F(xiàn)在是兩者相結(jié)合，取長補(bǔ)短。

首先使用層次聚類法確定分類數(shù)，檢查是否有奇異值，去除奇異值后，對剩下的案例重新進(jìn)行分類，把用層次聚類法得到的各個(gè)類的重心，作為迭代法的初始分類中心，對樣本進(jìn)行重新調(diào)整。

本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

免费高清特黄a大片,九一h片在线免费看,a免费国产一级特黄aa大,国产精品国产主播在线观看,成人精品一区久久久久,一级特黄aa大片,俄罗斯无遮挡一级毛片

關(guān)于數(shù)據(jù)挖掘中的聚類分析

統(tǒng)計(jì)分析（statistical analysis）