您現在的位置:首頁> 新聞列表 > 詳情
分享到:

精選:教育質量監測工具的公平性研究
2019-10-21 16:21:32    


隨著我國義務教育質量監測制度的建立以及各層面教育質量監測的有序開展,教育質量監測正積極服務于教育管理決策、教育教學的改進與提高。在這一背景下,教育質量監測特別是教育質量監測工具的公平性問題也日益成為學術界和實踐領域關注的焦點。雖然與傳統的學業成就性測驗相比,教育質量監測屬于低利害測驗,測驗結果對個體沒有直接影響,但是公平性仍然是教育質量監測工具值得優先考慮的關鍵事項。因為它決定著能否全面客觀地收集到監測對象的真實信息,最終實現監測促進教育質量提高和均衡發展、服務教育決策的目的。



一、教育質量監測公平性期待下的測驗工具要求


(一)教育測驗公平性的內涵


經濟合作與發展組織(OECD)在2012年出版的《教育的平等和質量: 支持弱勢學生和學?!芬粫?,對教育公平給出了包括兩個方面的定義:一是公平(fairness); 二是全納(inclusion)。要實現教育公平,一方面,在高利害的教育考試中(如高考),需要通過保障考試的公平性守護教育公平乃至社會公平;另一方面,對于低利害的教育質量監測,也需要通過工具公平性的保障,切實保證監測結果的可靠性和科學性,使其能夠對教育教學改革發揮最大程度的作用。教育測驗公平性是指測驗要公平、平等地對待考生,測驗結果不受與測量構念(某一測驗所要測量的全部知識、技能及能力等)無關的考生個體特征(如殘疾、性別、種族、民族等)的影響。


(二)教育測驗公平性的制度保障借鑒


為了實現教育測驗的公平性,相關機構所出臺的教育測驗評價標準提供了重要的制度保障。目前,國際上較為公認的標準有兩個,一是美國《教育與心理測量標準》,二是著名教育考試機構美國教育考試服務公司(ETS)的《ETS 質量和公平性標準》。這兩個標準都將教育測驗的公平性放在非常重要的位置。


1.美國《教育與心理測量標準》

1985年出版的美國《教育與心理測量標準》中,將公平性作為與測驗的制作、評估和文件存檔以及測驗的應用相并列的第二大部分,包括測試和測驗應用中的公平性、考生的權利和義務、多元語言背景考生的測試、殘疾考生的測試四個章節的內容。這對我們的啟發是,對于教育測驗的公平性,應該從兩個維度來綜合考慮。第一個維度是測驗公平性的對象,即應當全面地分析對象的特征,考慮到考生群體所具有的不同民族、性別、種族、語言背景及身體殘障與否等。特別是對于一些較為敏感的群體,應當保證測驗分數對于所有的子群體都是公正有效的。例如,我國幅員遼闊,民族眾多,不同的民族有不同的生活習俗、語言文化。在進行全國范圍的教育質量監測時,如何保證監測工具考慮到了不同民族的特點,對于少數民族群體的測量沒有包含與測量目標無關的偏差,是保證教育質量監測工具公平性應當認真思考的問題。第二個維度是測驗的整個過程,包括測驗設計、開發、施測、評分、分數合成、分數解釋等各個環節。應當在每一個環節中都考慮不同子群體的特點,實現真正的公平。


2.美國教育考試服務公司(ETS)的《ETS 質量和公平性標準》

與《教育與心理測量標準》相比,《ETS 質量和公平性標準》更加具體,具有更強的操作性。在該標準中,公平性是第五章的內容??偟膩碚f,2014年版的《ETS 質量和公平性標準》為測驗工具的公平性提出了新的要求。例如,對產品或服務提供公平的可及性,對測驗提供注冊、施測和結果報告方面的公平性證據。這對我們也有一定的啟發。我國以往的測驗,大多側重通過報告測驗成績來評價考生、教師和學校,很少注重對于測驗質量本身的評價。即使有關于測驗質量評價的研究,也多從內容要素、信度、難度、試卷長度、題型等方面進行,很少從公平性的角度對測驗質量進行評價。美國教育考試服務公司對測驗質量的要求提醒我們,保證測驗本身的科學、公平和公正,才是運用測驗分數進行決策的前提。相關的教育考試機構不僅對測驗的命題、施測等環節負有直接責任,更重要的是要同時提供包括測驗公平性在內的測驗質量的相關證據,使得測驗的公平性和有效性受到大眾的監督,使得測驗的結果更具有公信力。


(三) 教育測驗公平性到工具公平性


綜合以上兩個標準可以發現,一方面,測驗所涉及的所有環節,都與測驗工具有關。測驗設計、測驗開發、測驗評分這幾個環節都以測驗工具為主要對象,可以通過一些程序性的操作規范和相關的統計測量學指標,嚴格控制所開發的測驗工具的質量,保證其滿足公平性的要求;在后面的數據分析環節中,又可以通過教育測量中一些專門的技術和手段,對測驗工具的公平性進行進一步的后驗性評估,從而為分數的解釋和使用提供更可靠的證據。另一方面,為保證測驗公平性,提供測驗工具公平性的證據是測驗開發部門的主要責任和義務。因此,從已有標準對于教育測驗公平性的規定出發,我們認為,保證教育質量監測公平性的核心就是要保證教育質量監測工具的公平性。



二、教育測量專業視角下教育質量監測工具公平性的技術保障


在教育質量監測中,涉及各種各樣的教育測驗工具,既包括與學業成就相關的試卷,也包括測試學生品德發展水平和身心發展水平等非學業水平的量表、調查學生課業負擔的問卷、調查學生學習背景的問卷等。盡管教育質量監測工具的標準直接關系到監測結果的有效性和可信度,但是截至目前,仍然沒有形成普遍一致的,專門針對教育質量監測工具的評價指標和標準。國外的相關標準對我國教育質量監測工具質量的研究和保障提供了重要的參考。從教育測量專業的角度出發,僅針對教育質量監測工具中的學業成就相關測驗,如何通過一些技術手段保障測驗工具的公平性,是本文接下來要著重介紹和探討的方面。


(一)測驗等值


在教育質量監測中,由于測試的內容較為廣泛而測試的時間極為有限,常常會用到矩陣抽樣的技術。這時會出現考察同一個內容的多個測驗形式,為了實現這些測驗分數之間的比較,往往需要使用測驗等值的方法。除此之外,在教育質量監測中,有時還需要對同一測驗內容不同年份的測驗結果進行比較,以得到某些群體的能力發展變化情況,這時也需要使用測驗等值的方法將不同測試時間得到的結果鏈接起來,使之具有可比性。


在教育質量監測的等值中,通常應當包括以下四個步驟。一是確定等值目的。這跟測驗的整體設計有關,比如,在矩陣抽樣設計中,等值的目的就是將這些不同學生在不同題冊上作答的分數實現等值。二是設計數據收集方式。設計數據收集方式(等值設計),即確定采取何種方式對考生實施測驗。等值設計的基本原則就是使得所采集的數據能最有效地提供不同測驗版本的差異信息,也就是說,數據采集中的特殊設計使不同版本測驗之間得以建立聯系?;镜牡戎翟O計有單一組設計、隨機等組設計、平衡設計、非等組鉚測驗設計等。歸根到底,這些設計區別就在于建立不同版本測驗之間聯系的方法不同,基本就是“鉚人”和“鉚題”兩種。在教育質量監測中,普遍使用的是鉚題的方式。三是對考試分數進行等值處理?;诓煌牡戎翟O計和理論假設,已經有大量較為成熟的等值方法。根據等值依據的理論,可分為經典測量理論(CTT)等值和項目反應理論(IRT)等值;根據等值的直接操作對象,可分為測驗分數的等值和項目參數的等值;根據等值關系的假設是否為線性,可分為線性等值和非線性等值;根據等值測驗之間的關系,可分為水平等值和垂直等值;根據等值進行的步驟,可分為分別等值和同時等值。四是等值結果評價。等值完成后需要對等值結果進行評價,論證所估計的等值關系的可靠性和準確性。等值結果評價可以從測驗編制、施測、統計方法以及依據的等值假設等方面進行。評價的主要標準就是等值誤差。


(二)項目功能差異分析


項目功能差異(DIF)指的是一個項目(題目)在不同團體中引起的差異, 或者說是在兩個具有相同能力但有不同匹配的組別中引起的差異。從最初的公平性研究一直到現在測驗的信效度研究,DIF的檢測一直在發揮著很重要的作用。只有當引起DIF的原因是兩組被試在與測驗所測的能力無關的知識或經驗上存在差異時,才能認為具有項目偏差。例如,以英語為母語的學生和以英語為外語的學生在同一個數學測驗中的分數差異,包含著因語言限制造成的偏差。但是,存在顯著的DIF是測驗不公平的必要而非充分條件。1986年夏開始, ETS對測驗的編制過程規定:必須對試題進行項目功能差異的分析,對試題的常規分析過程加入了一個項目功能差異指數。


目前,關于DIF檢驗已經發展出很多相對成熟的方法。分析方法的類別主要有:一是根據項目的計分方式,可分為適用于二級計分(如MH、SIBTEST、LRDIF和STND)和適用于多級計分項目的方法(如LRDIF、STND、SIBTEST、DLA、MLA等);二是根據方法是否以參數估計為基礎,可分為參數方法(IRT和LRDIF)和非參數方法(SIBTEST、MH、STND等);三是根據匹配變量是否是真分數,可分為實際得分(例如STND、MH和LRDIF等方法)和潛在能力(IRT等)為匹配變量的方法。不同方法的概念、計算和解釋方面都不同。關于各種方法的評價已有研究也沒有得出一致性的結論。在實際中往往需要使用多種方法,對一致性判定為項目功能差異的題目進行重點考察。


(三)低利害測驗中的不努力作答分析


與傳統的教育考試不同,教育質量監測中的學業成就測驗結果一般不會直接報告給學生個體,也不會對學生個體的分班、升學等造成直接影響,因此屬于低利害測驗。在這種低利害測驗中,學生可能沒有足夠的動機在整個測驗中都保持非常努力的狀態,很可能出現一些不努力作答的行為。在現代測量理論中,很多測量模型的建立都默認學生在作答題目時給予了每道題目足夠的努力程度。因此,如果在測驗中出現了不努力的行為,那么原有的測量模型就不能處理這種情況,會造成一些有偏差的估計結果,例如考生的能力值會被低估等。在教育質量監測中,如果這種不努力的行為比例較大,也會對群體的匯總分數造成較大偏差,進而影響教育質量監測結果的公平公正。因此,在大規模的教育質量監測項目中,越來越多的研究者開始關注測驗中不努力作答的影響及識別。如果能夠通過恰當的分析方法,找到含有較大比例不努力作答的題目,在工具修正或數據分析的環節加以處理,將會進一步保障教育質量監測的公平性。


已有的研究提出了四類方法識別不努力作答的行為:自陳量表方法、個人擬合指標、混合IRT模型和基于反應時的方法。其中,隨著計算機測驗的發展,基于反應時的方法得到了極大的發展和應用。這類方法大多通過設定閾值,然后將考生在題目上作答的反應時與閾值比較,判斷作答是否屬于不努力作答。目前研究較多的方法包括正態閾值方法(NT10)、正確率和反應時的累積分布方法等,這兩種方法也被研究者證明表現較好。



三、中國教育質量監測工具公平性保證的具體舉措


(一)科學命題是保證公平性的基礎


在明確測驗的目的和內容后,依據測驗藍圖進行科學命題是教育質量監測工具開發中至關重要的環節。首先,為了保證工具的公平性,測驗的開發團隊中應當包括不同背景的專家,即專家的地區、民族等應當盡可能覆蓋與測驗目標群體一致的范圍。例如,在中國基礎教育質量監測協同創新中心對我國義務教育數學相關因素監測工具研發的過程中,命題的團隊除了高校和研究機構的專家學者,還有來自全國各地教育教學一線的教研員和優秀教師,具有廣泛的代表性。通過增強工具研發團隊的代表性,可以使得不同背景的專家在命題的同時,考慮到各群體考生的特點、典型的思維方式和作答反應,從而對題目是否會存在偏差作出經驗性的判斷,進而保證工具的公平性。其次,在教育質量監測價值取向上,中國“以縣為主”的教育管理體制,東西部之間、城鄉之間存在教育不均衡現象??紤]到這些差異,在工具研發階段,就應當充分考慮到監測對象的異質性,在命題團隊的組建、命題人員的培訓、命題過程的把控等方面都加強對公平性的監督。例如,何家軍早在2008年就提出了對于高考命題階段公平性的考慮。例如,“命題和審題人員應該受過專業培訓,對于測驗的使用地區可能涉及的公平公正性審視方針和政策,他們要非常熟悉?!钡?,這些建議在實際的教育質量監測工具研發階段是否能夠被采納,履行的程度如何,又是值得調查和反思的問題。


(二)合理實現等值設計和方法選用是保證公平性的途徑


由于教育質量監測中會普遍應用到矩陣抽樣的設計,因此需要使用測驗等值的方法對數據進行處理,以保證完成不同題冊的考生所得到的能力估計結果是可比的。另外,根據教育質量監測的目的,不僅要了解測試當年的實際狀況,還需要掌握質量的變化發展趨勢,對不同年份的測評結果進行分析比較,這也需要用到等值的方法。為保證測驗等值的結果準確、可靠,應當采用合理的等值設計,并選用恰當的等值方法。


首先,在等值設計方面,應當在監測工具研發階段制訂科學可行的等值方案。例如,在進行測驗設計時,由于鉚測驗(不同測驗中相同的題目)本身對等值結果有顯著的影響,因此應當盡量滿足鉚測驗的相關要求。這些要求包括:鉚測驗應當包含足夠多的題目,至少為測驗總題量的20%;鉚測驗應當具有內容代表性, 并且難度參數的均值與總測驗相等?;跍y量學理論,從整體上科學地架構整個教育質量監測工具的測驗設計,也是保證工具公平性的重要途徑。然而,在實際中,由于缺乏相關的測量統計學知識,在測驗設計中不考慮等值,而在結果比較中又默認分數可比的現象比比皆是。例如,如果兩年的監測工具中沒有共同題,參加測試的群體中也沒有子群體同時參加了兩個測試,那么即使監測的目標和內容相同,也不能對兩年的整體狀況作出比較。又例如,直接將數學測試結果和科學測試結果相比較,也違背了測驗等值的前提假設。目前,大部分的國際測評項目大多采用共同題的方法來實現等值的目的。在中國傳統考試文化背景下,這種方法是否合適?如何修改完善?這些如何實現兩年以上的發展趨勢動態分析?這些都需要更深入的預研究和精心設計。


其次,在等值方法選用方面,應當基于已有的比較等值方法的研究結論,并結合教育質量監測的等值設計及數據特點,選用適當的方法。例如,在一些國際大型教育質量監測項目(如國際學生評價項目PISA)中,多采用基于共同題的項目參數等值,另外,還會對預試中發現的在不同語言或者不同年度間表現差異較大的群體,使用單獨估計的題目參數。為了確保等值方法的選擇更加符合教育質量監測的實際需求,可以采用模擬研究的方法,基于本次教育質量監測實際的等值設計及數據結構產生數據,對各種等值方法進行比較和評價,從而找到對于某次教育質量監測的實際數據最為準確的等值方法。


(三)基于相關指標修訂工具是保證公平性的重點


教育測量學的發展為科學地評價工具公平性提供了可能。結合本文所介紹的項目功能差異分析和不努力作答分析等手段,可以對監測工具作出更加科學、準確的判斷。結合這些指標的概念和算法,可以采用先驗或后驗的方式加以應用。先驗的方式主要是指在利用工具正式施測之前,通過分析預試數據在各指標上的特征,發現可能存在項目功能差異或者容易誘發不努力作答的題目,對其進行刪除或修訂。后驗的方式主要是指在利用工具正式施測之后,通過相關指標的計算,在后續的數據分析中考慮有偏差的題目并予以處理。例如,可以在最后的分析中刪除項目功能差異較大的題目,刪除判斷為不努力作答的個體作答,也可以在最后測量模型構建中考慮作答努力程度的影響等。目前,我國的教育質量監測主要是采用先驗的方式。例如,在研發全國義務教育數學教育質量監測工具時,無論數學測試題,還是問卷題,除專家多輪次審核外,都經過兩次以上預測試及修訂,確保了所有題目具有良好的測量參數和良好的質量保障。這能夠在很大程度上避免出現含有項目功能差異的題目。但是,在實際的監測實施中,由于其具有低利害的特點,會有很多學生出現不努力作答的行為,這將大大影響結果的準確性,甚至影響地區之間、年度之間比較的結論。因此,在數據收集之后,通過后驗的方式對數據進行清理,并刪除有問題的題目避免入庫,總結這類題目的特征以幫助下一次的工具研發,也是需要重視的方面。希望能夠通過這些技術手段,進一步保證教育質量監測工具的公平性。


(四)加強教育質量監測工具監控是維護公平性的制度保障


美國的《教育與心理測量標準》和《ETS 質量和公平性標準》對我國教育監測工具公平性的監控提供了很好的借鑒。目前,自2015 年《國家義務教育質量監測方案》實施以來,我國已經持續開展了4 年的全國義務教育質量監測工作。為了積極響應國家號召,全國各地也對開展區域性的教育質量監測作出了積極嘗試。然而,由于教育質量監測是一項專業性較強的工作,目前很多地區尚不具備獨立開發高質量監測工具,通過標準化流程實施監測等條件。為了嚴格把控教育質量監測工具的質量關,切實保證監測工具的公平性,有必要在借鑒國外先進經驗的基礎上,制定適用于我國的教育質量監測工具公平性標準,作為教育質量監測領域的行業標準。從教育質量監測工具的研發流程到相關的測量學指標等方面,對公平性作出具體規定。例如,可以要求工具研發部門對將要投入使用的工具出具質量報告,報告中應明確包括含有質性評價和量化指標的對工具公平性審查的結果。對未能出示質量報告或者質量不合格的工具,將不予采用,即使已經投入使用,其結果也不能得到廣泛認可和應用。希望通過這一舉措,加強教育質量監測的行業規范,切實保證教育質量監測工具的公平性。






经纬彩票苹果 秒速赛车基本走势图 极速赛车技巧百度经验 股票融资排行 腾讯分分彩走势图分析 江西11选5中奖助手 黑龙江11选五5开奖走势图 大为配资 云南快乐十分计划 上海时时乐所有走势图哪里看 产业基金配资要求