| SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計(jì)、推斷性統(tǒng)計(jì)、因子分析、聚類分析、回歸分析等多種統(tǒng)計(jì)分析功能,并包括文本分析、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)分析模型等。SPSS的界面友好,易于操作,能夠快速?gòu)臄?shù)據(jù)中提取有用的洞察和分析,廣泛應(yīng)用于教育、心理、醫(yī)學(xué)、市場(chǎng)、人口、保險(xiǎn)等多個(gè)研究領(lǐng)域,也用于產(chǎn)品質(zhì)量控制、人事檔案管理和日常統(tǒng)計(jì)報(bào)表等。 作為廣受數(shù)據(jù)分析師青睞的一款數(shù)據(jù)統(tǒng)計(jì)和分析軟件,IBM SPSS Statistics中有全面的數(shù)據(jù)分析方法,今天我們要介紹的是它的聚類分析中的快速聚類分析。
一、方法概述
聚類分析是將研究對(duì)象按照一定的標(biāo)準(zhǔn)進(jìn)行分類的方法,分類結(jié)果是每一組的對(duì)象都具有較高的相似度,組間的對(duì)象具有較大的差異。
這類分析方法多用于對(duì)于數(shù)據(jù)樣本沒有特定的分類依據(jù)的情況,IBM SPSS Statistics會(huì)通過對(duì)數(shù)據(jù)的觀察為用戶做出較為完善的分類。
圖1:功能位置
快速聚類是聚類分析的一種,使用到的功能在“分析”——“分類”中的“K-均值聚類”。
二、案例分享
1.樣本數(shù)據(jù)
圖2:功能位置
我們這里選擇的數(shù)據(jù)樣本是一部分學(xué)生的各科期末成績(jī),使用快速聚類方法可以分析各個(gè)學(xué)生成績(jī)分布的差異和共性。
2.變量設(shè)置
圖3:功能位置
我們將學(xué)生的所有單科成績(jī)作為分析變量,移入到“變量”窗口中,將學(xué)生的編號(hào)變量移入到下側(cè)的“個(gè)案標(biāo)記依據(jù)”窗口。
聚類數(shù)設(shè)置的是分類的數(shù)目,這個(gè)需要根據(jù)數(shù)據(jù)樣本的特點(diǎn)來設(shè)置,我們這里設(shè)置為4類。
聚類方法有兩類,即迭代和分類,前者較為復(fù)雜,會(huì)在分析過程中不斷移動(dòng)凝聚點(diǎn),后者則始終使用初始凝聚點(diǎn),我們選擇兩類都有的第一種分析方法。
3.聚類中心
圖4:聚類中心
用戶可以選擇從外部文件或數(shù)據(jù)文件中寫入或讀取聚類中心,本案例中我們不使用這個(gè)功能。
4.迭代設(shè)置
圖5:迭代設(shè)置
我們可以設(shè)置迭代的終止條件,即到達(dá)設(shè)定的最大值后將停止迭代分析,輸出聚類分析結(jié)果。
收斂性標(biāo)準(zhǔn)設(shè)置的是凝聚點(diǎn)改變的最大距離小于初始凝聚點(diǎn)的比例,小于設(shè)定值時(shí),也會(huì)停止迭代,輸出結(jié)果。
使用運(yùn)行均值表示每次觀測(cè)后都重新計(jì)算凝聚點(diǎn),這些設(shè)置保持默認(rèn)即可。
5.保存
圖6:保存新變量
這是用來設(shè)置保存形式的,勾選“聚類成員”將保存SPSS的分類結(jié)果,勾選“與聚類中心的距離”將保存觀測(cè)值和所屬類別的歐氏距離,我們不做設(shè)置。
6.選項(xiàng)
圖7:選項(xiàng)設(shè)置
這個(gè)對(duì)話框設(shè)置的是輸出的統(tǒng)計(jì)量和個(gè)案缺失處理方法,勾選“初始聚類中心”和“每個(gè)個(gè)案的聚類信息”。
7.結(jié)果輸出
圖8:聚類結(jié)果
在輸出日志中可以看到,這些學(xué)生根據(jù)他們的單科成績(jī)被分成了四類,SPSS輸出了多個(gè)表格,包括初始聚類中心、迭代歷史記錄、聚類成員、最終聚類中心、最終聚類中心之間的距離和每個(gè)聚類中的個(gè)案數(shù)目,完整詳細(xì),可信度較高。
三、小結(jié)
使用IBM SPSS Statistics進(jìn)行快速聚類的方法和案例分享就是這么多啦,這是一個(gè)較為常用的分類分析法,適用程度很高,希望可以對(duì)大家有所幫助!
世界上許多有影響的報(bào)刊雜志就SPSS給予了高度的評(píng)價(jià)。 |