測驗結果有可能是錯的嗎?北市大黃宏宇破解測驗瑕疵,釋放真實自我

該如何瞭解一個人呢?測驗是很好的方式之一。

臺灣是一個測驗導向的社會,我們藉由一份份有系統的測驗,意圖瞭解一個人的學業成績、能力評量、人格特質、態度傾向甚至情緒波動。

這使我們從小到大經歷了無數次的測驗或考試,而所映照出的分數,就代表了個人的傾向、態度,甚至價值。然而,這許多大大小小的測驗,真的能測出我們想要的答案嗎?

臺北市立大學心理與諮商學系黃宏宇教授,認為過去編製的傳統測驗,存在一些假設瑕疵,例如最容易被一般大眾提出的詰問:「這個測驗真的準嗎?」。

黃宏宇認為過去編製的傳統測驗,存在假設瑕疵。
攝影/陳怡瑄

在我們的成長經驗中,通常會將一份試卷的分數加加減減,最終得出的總分就是測驗的結果,同時也代表了我們某項特質或能力的程度。

這是傳統測驗普遍基於「古典測驗理論觀點」所編製出的處理方式。古典測驗理論方法相當簡便且快速,但是測出來的結果,真的能夠反映出每個人的真實表現嗎?

越測越不準?古典測驗理論的瑕疵

事實上,有別於固定的試題內容,人是更多變且容易被外在因素影響的個體。因此運用古典測驗理論加總各題項的分數,用總分表現個人特質的方式,忽略了每個人對於各題項認知處理的歷程。

黃宏宇說測驗的目的,是希望透過穩定、且有效的方式,真正測到個人的真實能力或態度傾向。但是運用古典測驗理論所編製的測驗,卻有著三大假設錯誤。

「其一是尺度問題,」黃宏宇進一步說明:「例如今天有一個題項詢問你的憂鬱程度,請你圈選1到5分,但是很有可能因為每個人對於分數的標準都不一樣,有人覺得4分很嚴重,有人可能覺得3分就很嚴重了。另外還有種可能是,假設最近考試壓力大,你覺得好像蠻憂鬱的,於是填答了4分甚至5分,這就是『等距假設』所導致的誤差。」

因為各題項的分數,在每個人的心理表徵並不見得是等距的。而如果將這些不等距的各題項分數加總,並聲稱該總分就是個人特質的話,便可能會影響測驗結果。

「一百個人眼中就有一百個哈姆雷特」,對於題項和分數強弱的解讀也是。
照片來源/unsplash

「另一種為『答題風格』的假設錯誤。」黃宏宇表示我們每個人,都有屬於自己答題的「反應風格(response style)」。

可以觀察一下自己或他人,在寫測驗的時候,是不是會有特別的填答傾向?例如有些人特別喜歡填答「是」-具贊同試題的傾向,或者相反。另外,還有些人反應比較大,在分數1到5的答案之中,不是將分數填答在「1」、就是填答在「5」,很難有中間值,這就是每個人的答題反應風格的不同。

另外黃宏宇指出華人普遍喜歡趨中的填答,「還好」、「沒感覺」是經常會遇到的中庸答案,其實這樣的答題反應風格,相當容易造成研究的偏誤。比如說,具趨中反應的受試者,填答「3」時,其內心反應的強度,搞不好已經和填答「5」的人相似。

「然而在古典測驗理論的觀點裡,無法改善這類偏誤,只能把它列為測驗是否有效的影響因子而已。」黃宏宇補充道:「事實上,每個人在個別試題的反應上,都會有不同的表現。」

最後第三個假設錯誤是「測驗難度的依賴性」。黃宏宇表示:「以古典測驗理論所編製出的測驗,同時拿給普通班、資優班、資源班進行施測,會發現不同的測驗結果。對於資優班而言,題目可能相對簡單;但是對於資源班來說,題目又會過難,此時就很難去定義測驗本身到底是偏難或偏易。」這是因為受試者具有不同族群的特殊性存在。

倘若具有不同族群的受試者同時進行同一份測驗,則因為群體間存在能力上的差異,進而會影響到測驗結果分析。此外,在古典測驗理論的信度模式下,測量結果的誤差不會存在群體間的變異,這也是一個很不合理的假設。試想一件M號的衣服,它給中等身材的人穿很合身,但是對於高大身材的人就不是那麼合適。測驗也是如此,中等難度的測驗適合一般學生,但不見得適合資優或資源班學生,因此測量結果的誤差就會不相同。

每個人都是獨一無二的個體,我們該如何提出更有鑑別度的適性測驗呢?
圖片來源/unsplash

而遵循古典測驗理論的研究者,通常將測驗分數視為等距量尺來計分,忽略個體的認知反應歷程,以及忽視測驗結果誤差的變異性,並據此宣稱獲得研究結果。黃宏宇便強調,以此方法所得出的研究結果,可能是有瑕疵、或是不正確的。

當代測驗理論:試題反應理論(item response theory, IRT

「試題反應理論則可以解決上述問題。」黃宏宇堅定道:「因為在試題反應理論所建構的機率參數模型裡,已將受試者的能力與試題的特性納入考慮,其中受試者的表現情形或反應機率,可以與內在潛在特質形成一種連續性遞增的數學函數。」

這條數學函數稱作「試題特徵曲線」(item characteristic curve, ICC),是由數學方程式所推導所形成的「機率參數模型」,可以用來表徵每一道試題的特性,包含試題難度、試題鑑別度與試題猜測度,並透過機率模型,顯示受試者的個體能力在不同試題上的答題表現。在這個架構之中,能提供更有效且貼近真實的能力或特質的測量。

具備「試題特徵曲線」的題項,可以估計出受試者在某一試題上的選答機率,以及受試者某種潛在特質的程度。當潛在特質的程度愈高(或愈強),在試題上的正確反應機率便愈大。

黃宏宇指出:「有別於古典測驗理論以測驗總分來看待個人特質,試題反應理論是以單一題項觀點為出發的測量理論。」在這個關係線中,可看出試題是否能有效鑑別出個人的潛在特質,以及瞭解個人在答題上更細緻的樣貌。

經由數學模型檢驗受測者的答題結果,可辨別出極端反應和中庸反應的受測者。
圖表來源/黃宏宇,<極端反應之試題反應理論模式的發展與擴展>,P.51;插圖/李昀

若以試題反應理論來分析個體的反應風格,黃宏宇指出「中庸答題」受試者的試題選項之特徵曲線會呈現較寬廣的分布,意味著不管能力或特質高低,其在試題中間選項的選答機率較高。

而極端答題狀況的試題選項之特徵曲線呈現緊縮分布,與中庸答題相反,極端答題者經常習慣性的選擇最高分或最低分的選項,所以若以傳統方式計算總分時,便會發現受測者會落在偏向於高分或低分群,這樣便容易高估或低估受測結果。因此需要藉由試題反應的統計模式加以校正,以還原受試者的真實表現。

黃宏宇慎重道:「測驗中充滿著許多不確定因素,只有在許多因素被篩選、控制之後,所得出的結果才更能貼近個體特質的真實樣貌。」極端反應風格只是其中一種可能存在的干擾測驗結果因素,還有其他可能的因素,例如受試者答題動機、或猜題傾向等,唯有藉由合適的試題反應理論模式,才能正確且真實地捕捉受試者的特質表現之原貌。

「個人特質不能單純以分數加總來看。更進一步地說,測量的本質、量尺的特性,與受試者的認知歷程等,都應該納入考慮,將其視為影響測驗結果的變項,進一步檢驗。唯有如此,才能真正做到測驗的有效性,及受試者分數的可比性。」

黃宏宇從當代測驗理論出發,致力消弭傳統測驗可能導致的測量偏差,讓測驗能夠真正的了解受試者。他透過將受試者作答反應和題項相互拆開檢視,觀察到受試者細緻的作答表現,進而推導到更適切的研究結果。

要測量出一個人的特質,不能單純地加總分數來看待,而需端看受試者在各題項的答題反應。
圖片來源/unsplash

測驗方法也需要與時俱進

「不過,」他話鋒一轉,略為憂慮地說:「即便試題反應理論早在1960年代就被提出了,可惜的是,現今社會科學的研究或測驗的編製,仍大多以古典測驗理論的觀點進行。」

這是為什麼呢?更能檢測出個人真實內涵的試題反應理論,為何還是比不上古典測驗理論普及呢?

黃宏宇表示試題反應理論內有著繁瑣的數學模型,亦是眾多研究者對此分析方法卻步的主因,也造成社會科學研究大多仍以古典測驗理論方式進行研究。

因此目前具試題反應理論的分析專業研究人員仍需大於供,黃宏宇指出:「現在大多是心理、教育等相關科系的學生才會修習這類學門,在人才培育上,有關單位應該再增加課程,以及鼓勵學生進修,以補足專業領域上的缺口。」

黃宏宇由衷希望,社會科學學門的研究者們能導入試題反應理論模型進行研究,更能提高研究的真實性。並且,現今的分析軟體(R軟體)也逐漸成熟,不像以前一樣,研究者須具備統計知能外,還需要會撰寫程式語言,才可進行分析。

「現在我們有更為便利的硬軟體設備,以及逐漸成熟的理論方法和培訓課程,理論上,不應再停留在傳統測驗理論過時的觀點之中。」黃宏宇語重心長,他認為:「若以不適切的方法學進行研究,可能會得到不適切的結果,而阻礙了自己對社會現象的認識與釐清的機會,是相當可惜的一件事。」

採訪撰文/吳景濱
編輯/張傑凱
攝影/陳怡瑄

研究來源:
黃宏宇(2009)。具有階層結構潛在能力之試題反應模式的建構與發展。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2010)。階層結構電腦化適性測驗的發展:結合題庫安全性與能力估計精準度之控制。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2010)。階層結構電腦化適性測驗的發展:結合題庫安全性與能力估計精準度之控制。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2011)。高階題組反應理論模式的發展及其在電腦化適性測驗上之應用。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2013)。高階試題反應理論模式的擴展: 多層次與混合模式之取向。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2012)。多層次高階試題反應理論模式的發展與應用。科技部(原國科會)專題研究計畫(新進人員研究計畫)。
黃宏宇(2017)。認知診斷模式的發展與應用:模式的擴展與電腦化適性測驗的運用。科技部專題研究計畫(優秀年輕學者研究計畫)。