測驗結果有可能是錯的嗎？北市大黃宏宇破解測驗瑕疵，釋放真實自我

全文朗讀：

該如何瞭解一個人呢？測驗是很好的方式之一。

臺灣是一個測驗導向的社會，我們藉由一份份有系統的測驗，意圖瞭解一個人的學業成績、能力評量、人格特質、態度傾向甚至情緒波動。

這使我們從小到大經歷了無數次的測驗或考試，而所映照出的分數，就代表了個人的傾向、態度，甚至價值。然而，這許多大大小小的測驗，真的能測出我們想要的答案嗎？

臺北市立大學心理與諮商學系黃宏宇教授，認為過去編製的傳統測驗，存在一些假設瑕疵，例如最容易被一般大眾提出的詰問：「這個測驗真的準嗎？」。

黃宏宇認為過去編製的傳統測驗，存在假設瑕疵。
攝影／陳怡瑄

在我們的成長經驗中，通常會將一份試卷的分數加加減減，最終得出的總分就是測驗的結果，同時也代表了我們某項特質或能力的程度。

這是傳統測驗普遍基於「古典測驗理論觀點」所編製出的處理方式。古典測驗理論方法相當簡便且快速，但是測出來的結果，真的能夠反映出每個人的真實表現嗎？

越測越不準？古典測驗理論的瑕疵

事實上，有別於固定的試題內容，人是更多變且容易被外在因素影響的個體。因此運用古典測驗理論加總各題項的分數，用總分表現個人特質的方式，忽略了每個人對於各題項認知處理的歷程。

黃宏宇說測驗的目的，是希望透過穩定、且有效的方式，真正測到個人的真實能力或態度傾向。但是運用古典測驗理論所編製的測驗，卻有著三大假設錯誤。

「其一是尺度問題，」黃宏宇進一步說明：「例如今天有一個題項詢問你的憂鬱程度，請你圈選1到5分，但是很有可能因為每個人對於分數的標準都不一樣，有人覺得4分很嚴重，有人可能覺得3分就很嚴重了。另外還有種可能是，假設最近考試壓力大，你覺得好像蠻憂鬱的，於是填答了4分甚至5分，這就是『等距假設』所導致的誤差。」

因為各題項的分數，在每個人的心理表徵並不見得是等距的。而如果將這些不等距的各題項分數加總，並聲稱該總分就是個人特質的話，便可能會影響測驗結果。

「一百個人眼中就有一百個哈姆雷特」，對於題項和分數強弱的解讀也是。
照片來源／unsplash

「另一種為『答題風格』的假設錯誤。」黃宏宇表示我們每個人，都有屬於自己答題的「反應風格（response style）」。

可以觀察一下自己或他人，在寫測驗的時候，是不是會有特別的填答傾向？例如有些人特別喜歡填答「是」－具贊同試題的傾向，或者相反。另外，還有些人反應比較大，在分數1到5的答案之中，不是將分數填答在「1」、就是填答在「5」，很難有中間值，這就是每個人的答題反應風格的不同。

另外黃宏宇指出華人普遍喜歡趨中的填答，「還好」、「沒感覺」是經常會遇到的中庸答案，其實這樣的答題反應風格，相當容易造成研究的偏誤。比如說，具趨中反應的受試者，填答「3」時，其內心反應的強度，搞不好已經和填答「5」的人相似。

「然而在古典測驗理論的觀點裡，無法改善這類偏誤，只能把它列為測驗是否有效的影響因子而已。」黃宏宇補充道：「事實上，每個人在個別試題的反應上，都會有不同的表現。」

最後第三個假設錯誤是「測驗難度的依賴性」。黃宏宇表示：「以古典測驗理論所編製出的測驗，同時拿給普通班、資優班、資源班進行施測，會發現不同的測驗結果。對於資優班而言，題目可能相對簡單；但是對於資源班來說，題目又會過難，此時就很難去定義測驗本身到底是偏難或偏易。」這是因為受試者具有不同族群的特殊性存在。

倘若具有不同族群的受試者同時進行同一份測驗，則因為群體間存在能力上的差異，進而會影響到測驗結果分析。此外，在古典測驗理論的信度模式下，測量結果的誤差不會存在群體間的變異，這也是一個很不合理的假設。試想一件M號的衣服，它給中等身材的人穿很合身，但是對於高大身材的人就不是那麼合適。測驗也是如此，中等難度的測驗適合一般學生，但不見得適合資優或資源班學生，因此測量結果的誤差就會不相同。

每個人都是獨一無二的個體，我們該如何提出更有鑑別度的適性測驗呢？
圖片來源／unsplash

而遵循古典測驗理論的研究者，通常將測驗分數視為等距量尺來計分，忽略個體的認知反應歷程，以及忽視測驗結果誤差的變異性，並據此宣稱獲得研究結果。黃宏宇便強調，以此方法所得出的研究結果，可能是有瑕疵、或是不正確的。

當代測驗理論：試題反應理論（item response theory, IRT）

「試題反應理論則可以解決上述問題。」黃宏宇堅定道：「因為在試題反應理論所建構的機率參數模型裡，已將受試者的能力與試題的特性納入考慮，其中受試者的表現情形或反應機率，可以與內在潛在特質形成一種連續性遞增的數學函數。」

這條數學函數稱作「試題特徵曲線」（item characteristic curve, ICC），是由數學方程式所推導所形成的「機率參數模型」，可以用來表徵每一道試題的特性，包含試題難度、試題鑑別度與試題猜測度，並透過機率模型，顯示受試者的個體能力在不同試題上的答題表現。在這個架構之中，能提供更有效且貼近真實的能力或特質的測量。

具備「試題特徵曲線」的題項，可以估計出受試者在某一試題上的選答機率，以及受試者某種潛在特質的程度。當潛在特質的程度愈高（或愈強），在試題上的正確反應機率便愈大。

黃宏宇指出：「有別於古典測驗理論以測驗總分來看待個人特質，試題反應理論是以單一題項觀點為出發的測量理論。」在這個關係線中，可看出試題是否能有效鑑別出個人的潛在特質，以及瞭解個人在答題上更細緻的樣貌。

經由數學模型檢驗受測者的答題結果，可辨別出極端反應和中庸反應的受測者。
圖表來源／黃宏宇，＜極端反應之試題反應理論模式的發展與擴展＞，P.51；插圖／李昀

若以試題反應理論來分析個體的反應風格，黃宏宇指出「中庸答題」受試者的試題選項之特徵曲線會呈現較寬廣的分布，意味著不管能力或特質高低，其在試題中間選項的選答機率較高。

而極端答題狀況的試題選項之特徵曲線呈現緊縮分布，與中庸答題相反，極端答題者經常習慣性的選擇最高分或最低分的選項，所以若以傳統方式計算總分時，便會發現受測者會落在偏向於高分或低分群，這樣便容易高估或低估受測結果。因此需要藉由試題反應的統計模式加以校正，以還原受試者的真實表現。

黃宏宇慎重道：「測驗中充滿著許多不確定因素，只有在許多因素被篩選、控制之後，所得出的結果才更能貼近個體特質的真實樣貌。」極端反應風格只是其中一種可能存在的干擾測驗結果因素，還有其他可能的因素，例如受試者答題動機、或猜題傾向等，唯有藉由合適的試題反應理論模式，才能正確且真實地捕捉受試者的特質表現之原貌。

「個人特質不能單純以分數加總來看。更進一步地說，測量的本質、量尺的特性，與受試者的認知歷程等，都應該納入考慮，將其視為影響測驗結果的變項，進一步檢驗。唯有如此，才能真正做到測驗的有效性，及受試者分數的可比性。」

黃宏宇從當代測驗理論出發，致力消弭傳統測驗可能導致的測量偏差，讓測驗能夠真正的了解受試者。他透過將受試者作答反應和題項相互拆開檢視，觀察到受試者細緻的作答表現，進而推導到更適切的研究結果。

要測量出一個人的特質，不能單純地加總分數來看待，而需端看受試者在各題項的答題反應。
圖片來源／unsplash

測驗方法也需要與時俱進

「不過，」他話鋒一轉，略為憂慮地說：「即便試題反應理論早在1960年代就被提出了，可惜的是，現今社會科學的研究或測驗的編製，仍大多以古典測驗理論的觀點進行。」

這是為什麼呢？更能檢測出個人真實內涵的試題反應理論，為何還是比不上古典測驗理論普及呢？

黃宏宇表示試題反應理論內有著繁瑣的數學模型，亦是眾多研究者對此分析方法卻步的主因，也造成社會科學研究大多仍以古典測驗理論方式進行研究。

因此目前具試題反應理論的分析專業研究人員仍需大於供，黃宏宇指出：「現在大多是心理、教育等相關科系的學生才會修習這類學門，在人才培育上，有關單位應該再增加課程，以及鼓勵學生進修，以補足專業領域上的缺口。」

黃宏宇由衷希望，社會科學學門的研究者們能導入試題反應理論模型進行研究，更能提高研究的真實性。並且，現今的分析軟體（R軟體）也逐漸成熟，不像以前一樣，研究者須具備統計知能外，還需要會撰寫程式語言，才可進行分析。

「現在我們有更為便利的硬軟體設備，以及逐漸成熟的理論方法和培訓課程，理論上，不應再停留在傳統測驗理論過時的觀點之中。」黃宏宇語重心長，他認為：「若以不適切的方法學進行研究，可能會得到不適切的結果，而阻礙了自己對社會現象的認識與釐清的機會，是相當可惜的一件事。」

採訪撰文／吳景濱
編輯／張傑凱
攝影／陳怡瑄

研究來源：
黃宏宇（2009）。具有階層結構潛在能力之試題反應模式的建構與發展。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2010）。階層結構電腦化適性測驗的發展：結合題庫安全性與能力估計精準度之控制。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2010）。階層結構電腦化適性測驗的發展：結合題庫安全性與能力估計精準度之控制。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2011）。高階題組反應理論模式的發展及其在電腦化適性測驗上之應用。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2013）。高階試題反應理論模式的擴展: 多層次與混合模式之取向。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2012）。多層次高階試題反應理論模式的發展與應用。科技部（原國科會）專題研究計畫（新進人員研究計畫）。
黃宏宇（2017）。認知診斷模式的發展與應用：模式的擴展與電腦化適性測驗的運用。科技部專題研究計畫（優秀年輕學者研究計畫）。