量性資料分析以統計應用為主,分為描述統計 (descriptive statistics) 和推論統計 (inferential statistics) 兩大類。前者把基本變項的分佈和數值呈現,進行摘要分析,以較簡單的方法(如交互表列)初探變項間的關係。後者則以較繁複的統計技巧驗證變項之間的機率關係,並非中學程度的同學所能應付。正因如此,本課將集中探討描述統計技巧,並示範一些簡單而有效的Excel工具,以探索數據和檢視變項間可能存在的相互關係。
在「面對面」式導修課(課題二「數據及資料整理」)中我們的導師會帶領學員以此案例做一次excel練習,包括單變項、雙變項統計及交互表列的使用。
2.2.1 單變項描述統計(univariate descriptive statistics)
假設我們蒐集了50份有關父親自我形象的問卷調查,而資料已按先前建議的模式記錄於以下檔案。
·
模擬數據:父親的自我形象(問卷數目 = 50)
|
|
(a) 分佈 (distribution)
描述分析最基本的工作便是審視數據的分佈。對這份模擬問卷調查,我們想探究的是父親自我形象。由於我們把自我形象操作化為三個面向,而每個面向之下再有類分,我們首要的工夫便是把每個變項 (Q1至Q10) 的資料做一個簡單的分佈描述:
|
|
||||||||||||||||||||||||||||||||||||
|
儘管我們的探究問題是Y,這階段的單變項描述統計必須包括 Y 以外的資料,即Q8至Q10的數據。原因是我們需要知道樣本屬性的實質分佈,包括年齡、教育程度以及收入階層。X 變項的分佈能幫助我們審視數據可能出現的誤差。例如,Q1至Q7 的數據可能顯示父親的自我形象頗高,然而,當我們細看 Q10 的分佈資料後,卻發覺大部份受訪者都來自高收入階層。假設兩個同學同時進行這項探究,來自A探究的Q10分佈相對均勻,B探究之樣本則大多數來自高收入階層。如是者,A探究所能提供的資料將較多元豐富,容許我們較有力地比較階層間的差異,並更有信心地就父親自我形象這課題下相對較具普遍性的結論。
(b) 項目個數和百份比分析
拿Q2為例子,問題涉及父親們對自己提供情感關懷和支持的能力之自我評價。我們可借助Excel軟件,快速了解各答項的基本分佈。步驟如下:
|
|
|
|
|
|
軟件收到這些指令,便知道我們想探究Q2的內容。然而,我們還欠一個指令步驟,告訴軟件所顯示的是什麼有關Q2的數據。我們可把滑鼠放置「計數的Q2」之上,然後點擊兩下,便會彈出樞紐分析表欄位的摘要方式選項。需留意是,Q2的答案屬於等級 / 順序變項 (ordinal measures),各答項之間的間距只顯示累退的邏輯,不能以加減方法來計算實質的差別。在這情況下,計算平均值等資料完全沒有意思,我們需要知道的只是簡單的項目個數,即每個答項的總數目。
|
|
|
(c) 項目平均值和最大、最小值
|
|
|
|
|
(d) 圖表顯示
|
|
|
|
2.2.2 雙變項分佈 (bivariate distribution) 和 交互表列 (cross-tabulation)
(a) 基本的雙變項分析
Excel 的樞紐分析工具還可提供十分有用的雙變項分佈分析。雖然同學未必會使用到雙變項分析去作母群的推論,但仍可利用此方法探討變項間之關係的強弱,根據早前設計,我們可探索的雙變項關係包括:
Xs |
|
Ys |
· 父親之自我形象 (y1-7) 會否因年齡 (x1)而異?
· 父親之自我形象 (y1-7) 會否因教育程度 (x2) 而異?
· 父親之自我形象 (y1-7) 會否因收入 (x3) 而異?
讓我們示範如何探索年齡 (Q8) 和能力(Q2) 之相互關係,步驟如下:
由於此組模擬數據沒有控制各年齡層的受訪數目,計算「總列數的百分比」可能沒有多大意思,或只會反映樣本中不平均的年齡分佈。在此情況下,「總欄數的百分比」更
能提供有關年齡層之間的分別,幫助我們比較這變項與父親自我形象的關係。當然,我們還須考慮年齡之單變項分佈。如年齡之間的樣本分佈甚不平均,或個案數目
太少,所得來的數據亦未必太有意思。總而言之,探究員還是需要清晰概念邏輯,小心衡量和評估資料該如何詮釋,才能確定哪些是可用的資料,哪些需要進一步補
充。
上圖為初步分析。要刪除空白欄列,可拉下Q2 或 Q8之表單,剔除「空白」一欄,便會出現右方的表列。
|
|
|
初步觀察,沒有一個受訪者認為自己(5 - 毫無能力),而年齡在35歲或以上的受訪者較多選擇(3 - 基本滿足)或(4 - 不是太有能力)。視乎探究員的判斷和數據的型態,我們可選擇把資料重組以方便審視。例如,我們可以35歲為界線,把來自Q8的資料重組為兩個年齡層,分別為35以下和35或以上。我們須重新打開工作頁,並新增一個欄目(如下圖的Q8b),根據Q8之數據重新鍵入Q8b下之編碼 (1 = 35歲以下,2 = 35歲或以上)。為免錯誤刪改本來的檔案,我們建議同學把所有進一步修正的工作表重新命名,然後另存檔案。
|
|
|
如想進一步修正左欄之百分比數目,把小數位數刪去,並將最大數目定為100,則可把滑鼠移至圖表的Y軸(即紅線圖示),點擊兩下,然後在「數值」選項中把小數位數改至0。確定以後,重復程序並在「刻度」選項中把最大值改為 1,再按確定。
|
|
|
完成以上的程序後,便會出現以下圖表。同學加上適當的標題,便可用於探究報告中:
練習 - 嘗試使用模擬數據,建立一個探索Q5和Q10的雙變項交互表列。(示範答案) - 對上述示範有充份掌握的老師,更可考慮把Q10的資料重新編碼,進一步把表列簡化。
|
(b) 詮釋變項之間的關係
圖
表能更清晰和直接的顯示兩個年齡層的分別。根據以上之模擬數據,父親在情感上的自我評價普遍合格,只有少數覺得自己不是太有能力。然而,年紀較輕的父親之
自我評價似乎較高。圖表顯示了兩個變項之相互關係,但並不代表這便是一個因果關係。我們須追問兩個年齡層之差異因何而來,會否跟樣本中的收入和教育程度分
佈有關呢?要查探這些問題,我們可就不同的變項配搭繪製交互表列和相關圖表。例子如下:
年齡組別之單變項分佈 |
|
|
以下之雙變項表列顯示兩個年齡組別的屬性其實有所不同,35歲或以上的受訪者普遍有較高的教育程度和收入。我們必須考慮各個X (年齡、教育程度、收入)對自我形象 (Y) 可能產生的效應,在報告中仔細分別解述,才能有效地舉證以及立論。
年齡組別和教育程度之相互關係 |
|
|
年齡組別和收入之相互關係 |
|
|
為探討其他兩個 X 變項 (收入、教育程度)和 Y 變項 (如Q2)的關係,我們可建立以下表列:
教育程度和自我能力 (情感) 評價之相互關係 |
|
|
收入和自我能力(情感)評價之相互關係 |
|
|
可 想而知,我們將在這過程中建立不少圖表。部份資料可能支持我們原來的推論,亦可帶來意想不到的發現。我們需在原有的概念框架下,有耐性並開放地審視各項資 料,才能理解數據所反映的真相。先前花了很多篇幅強調概念操作化和抽樣的科學程序,正是為了確保這階段的資料充分,而且可信有效。假若先前的程序太隨意或 是欠缺系統— 只搜集有關自我形象的問題,忽略了查問受訪者的年齡、教育程度和收入;或在量度自我形象之時,只籠統測量了一個面向的現象,則這階段的資料會很單薄,所能進行的分析亦會有限,縱有軟件幫助也無補於事。
老師可嘗試利用這個模擬數據,繪製不同圖表並就自我形象的不同面向進行分析。我們將在第四課續用這些資料,討論如何把這些數據過濾整理,以撰寫探究報告。
2.2.3 其他基本工具和圖表
總括而言,較適用於中學專題探究的描述統計有以下幾類:
(a) 分佈 (distribution)
分佈統計的意思是按資料分類來計算項目分佈,先前的討論亦集中示範分佈統計之單變項和雙變項分析。相關的統計項目包括:
· 頻數 (frequency):即簡單的個數分析
· 百分比 (percentage):以百份數為基數,比較不同變值之比例;另見百分比之補充示範
· 比例 (proportion) :不同變值之相對比重,功能和百份比相似,只是沒有以百份數作為基數計算
· 比率 (ratio):即兩個數值之比值,如男生 (n=40) 相對女生 (n=60) 的比率 = 4:6
(b) 集中趨勢 (central tendency)
除分佈配外,我們也想了解每個變項(如年齡)變值之最佳代表值。一般來說,我們可計算變值之中心位置,而計算方法有三種:
假設樣本只有十一個個案,年齡分別為: |
三個數值的計算方法不同,眾數考慮個數的數量,而中位數則以距離為依歸,減少了一些極端個案(如例子中最後一個80歲的個案)可能帶來的影響。
Excel 提供了一個快捷的方法去計算這些數字。假設我們想了解父親探究中樣本的年齡集中趨勢,我們可先打開工作頁,然後拉下「工具」表單,選擇「資料分析」:
然後選擇「敘述統計」
之後會彈出下左圖,我們需點擊箭咀指示的輸入範圍按鈕,再在彈出的右圖中按範圍圖示
|
|
|
然後用滑鼠拖曳需要計算的數值範圍
(即 I2 至 I51)
然後再按下左圖之箭咀位置,以確認選定數值。當我們返回描述統計的指令版面,便可選擇適用的輸出選項(如摘要統計),然後按「確定」進行統計:
|
|
|
按「確定」出現的便是以下表列。以中學專題探究而言,暫且用不著使用表中所有數據,但最基本應知道平均數、中間值和眾數,及對變項變值的分佈形態有初步理解。
(c) 圖表分析
Excel 的圖表精靈提供多種圖表選項,專題報告中較常用的包括:
圖表類型 |
適用之測量尺度 |
功能 |
|
圓形圖 (pie chart) |
|
所有尺度 |
適用於顯示變項中不同變值之比例 |
直線圖 (bar chart) |
|
間斷 (類別和等級變項) |
- 概括和呈現不同組別的數據 |
群組直條圖 (grouped bar chart) |
|
繪製方法同上,不同的是X軸中每個類別都包括 兩個或以上的直條 |
|
直方圖 (histogram) |
|
連續 (等距和等比變項) |
表達連續性資料的頻率分佈,以直方形的面積顯示個數的相對比例 |
折線圖 (line chart) |
|
連續 (等距和等比變項) |
用於趨勢分析,以線條的連續變化顯示變值之跨年升降 |
(d) 趨勢分析的示範
假設我們想探討2000-2007年間,21歲以下之年青人的吸毒趨勢,並在保安局禁毒處的網站下載相關資料的 Excel 檔案:
2000年至2007年按年齡組別及性別劃分的首次/曾被呈報人士數目(為方便示範,這個資料檔案經簡化及整理。按此到保安局網頁下載原本資料檔案。)
我們先打開工作頁,然後以滑鼠拖曳相關資料。
然後點擊圖表精靈,選項如下:
螢光幕便會出現圖表,顯示男性和女性的濫藥趨勢。我們只須在相關步驟中填上變項之名目,以及圖表標題和X、Y軸的資料,便能完成圖表。
|
|
|
進階課題 - 多變項分佈
(multivariate distribution) 和交互表列
Excel 提供多項分析工具,同學可在熟習以上技巧之後,進一步探索多於兩個變項之關係。詳見以下連結:
3
|
4 | |
![]() |
||
![]() |