留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

奥尔维斯欺负量表的Rasch模型分析

上一篇

下一篇

赵福菓, 何壮, 袁淑莉, 等. 奥尔维斯欺负量表的Rasch模型分析[J]. 西南大学学报(社会科学版), 2020, 46(5): 115-121. doi: 10.13718/j.cnki.xdsk.2020.05.012
引用本文: 赵福菓, 何壮, 袁淑莉, 等. 奥尔维斯欺负量表的Rasch模型分析[J]. 西南大学学报(社会科学版), 2020, 46(5): 115-121. doi: 10.13718/j.cnki.xdsk.2020.05.012
Fuguo ZHAO, Zhuang HE, Shuli YUAN, et al. An Item Analysis of Olweus Bully/Victim Questionnaire by Rasch Model[J]. Journal of Southwest University Social Science Edition, 2020, 46(5): 115-121. doi: 10.13718/j.cnki.xdsk.2020.05.012
Citation: Fuguo ZHAO, Zhuang HE, Shuli YUAN, et al. An Item Analysis of Olweus Bully/Victim Questionnaire by Rasch Model[J]. Journal of Southwest University Social Science Edition, 2020, 46(5): 115-121. doi: 10.13718/j.cnki.xdsk.2020.05.012

奥尔维斯欺负量表的Rasch模型分析

  • 基金项目: 国家社会科学基金教育学一般项目“青少年校园霸凌的特点和机制研究:以贵州省为例”(BBA170070), 项目负责人:赵福菓
详细信息
    作者简介:

    赵福菓, 贵阳学院教育科学学院, 教授 .

  • 中图分类号: B841

An Item Analysis of Olweus Bully/Victim Questionnaire by Rasch Model

图( 4) 表( 5)
计量
  • 文章访问数:  1583
  • HTML全文浏览数:  1583
  • PDF下载数:  376
  • 施引文献:  0
出版历程
  • 收稿日期:  2020-02-22
  • 刊出日期:  2020-09-01

奥尔维斯欺负量表的Rasch模型分析

    作者简介: 赵福菓, 贵阳学院教育科学学院, 教授
  • 1. 贵阳学院 教育科学学院, 贵阳 550005
  • 2. 西南大学 心理学与社会发展研究中心, 心理学部, 重庆 400715
基金项目:  国家社会科学基金教育学一般项目“青少年校园霸凌的特点和机制研究:以贵州省为例”(BBA170070), 项目负责人:赵福菓

摘要: 奥尔维斯欺负量表是国内青少年校园霸凌领域应用最广、影响最大的研究工具之一。该工具中文版发布已满20年, 在中国被试中的测量属性、该工具在新时代的适用性需要再度检验。本研究应用中文版量表对2 116名学生被试进行施测; 使用Rasch模型对数据进行分析。结果表明, 量表对国内霸凌行为的调查仍有借鉴意义, 但在等级选项设置、题目难度、区分度、项目功能差异、题目内容设计、时代适用性等方面均存在一定程度的问题。奥尔维斯欺负量表是为了调查霸凌现状而编制的工具, 将其用于霸凌相关的心理建模研究可能是对该工具的误用。

English Abstract

  • 校园霸凌是中小学校学生个体或群体受到力量较强一方蓄意或恶意、持续多次的身心攻击行为。校园霸凌有恃强凌弱、蓄意伤害、重复发生的本质特征,对霸凌者、受害者及旁观者的身心都存在不同程度的影响和危害,扭曲其对教育、社会的看法进而改变正常的行为方式,甚而导致受害者长期抑郁、失去或放弃生命,霸凌者也会遭到报复。对霸凌现状的调查是法律法规、政策制定的重要前提。奥尔维斯欺负量表(Olweus Bully/Victim Questionnaire, OBVQ)是国际公认发布最早、最权威的调查工具之一,迄今为止已经在多个国家、多种语言文化背景下得以应用。

    OBVQ由瑞典人Olweus于20世纪80年代编制,中文版由张文新和武建芬于1999年修订并引入中国[1],是国内霸凌相关研究常用的工具之一。仅2017—2019近3年期间,发表在CSSCI和中文核心期刊上的相关研究中,就有14篇应用。相关研究可以划分为三类:第一类是作为调查工具,进行现状调查,如狄文婧等人基于该量表调查了青海省小学生校园霸凌的现状,并对藏汉两地进行了对比[2];第二类是作为霸凌者/被霸凌者/置身事外者的鉴别工具,如桑青松等人将被霸凌维度得分前25%的被试确定为高受霸凌组[3],凌辉等人基于霸凌/被霸凌维度得分区分卷入者身份[4];第三类是将OBVQ作为重要变量,建立中介、调节模型,以解释霸凌及相关变量间的关系,如赵占峰等人研究了青少年同伴侵害与问题行为的关系及心理素质在其中的中介和调节作用[5]

    OBVQ中文版引进已满20周年,我国的社会、经济、文化都发生了巨大变化。校园霸凌的主体、类型、频率等特点是否都与当年有了较大差别,量表是否还适用于今天的被试群体都是需要解答的问题。

  • 本研究以张文新和武建芬于1999年修订的中文版为工具,共分为被他人霸凌(Victim)及霸凌他人(Bully)两个维度,分别包括6个李克特5级量表形式的题目。

  • 2019年10-12月,在贵州省贵阳市的初中、高中、职业高中分层整群抽样,共发放问卷2 177份,收回有效问卷2 116份,有效率97.2%,平均年龄16.4±1.3岁,年龄跨度12~18岁,男女比例4:6。

  • 数据分析基于Rasch理论,Rasch模型是一簇模型的统称,被广泛应用在考试与问卷数据分析中。本研究根据数据的点,选择了Rasch理论一系列模型中的评定等级量表模型(Andrich Rating Scale Model, RSM),该模型由David Andrich于1978年提出,专门用于分析等级量表数据。RSM除继承了Rasch模型参数不变性、参数估计不受被试能力分布影响、精确估计每个项目的测量误差等优点以外,还将数据分析拓展到李克特量表等级设置科学性的评价上。本次数据分析采用的软件为Winsteps 3.74,被霸凌和霸凌他人两维度分别进行。

  • 单维性是指测量过程中有且仅有一种心理特质在影响被试作答。具体到本研究是指学生仅基于霸凌/被霸凌行为的情况作答,答题过程中未受到社会称许效应、主试及其他因素的影响。

    Rasch模型通过对测量残差的主成分分析来判断数据的单维性。根据Raiche的建议,首对比残差的特征值应当在[1.4~2.1]之间[6];方差数据中能被Rasch模型解释的比例越高越好。同时Linacre的建议根据被试态度和题目难度来确定方差数据中应被Rasch模型所解释的比例[7]。霸凌维度首对比残差为1.9,由Rasch模型解释的残差比例为28.5%,比Linacre建议的10%~20%之间更高。被霸凌维度首对比残差为1.4,由Rasch模型解释的残差比例为30%,达到了Linacre建议的20%~30%之间的标准。

  • 作答选项按照发生频次或频率由低到高依次是“从来没有过”“总共一两次”“一个月两三次”“一周一次”“一周几次”。相邻两个选项之间的时间间隔不是等距递增的。例如“每周一次”代表平均每7天发生一次,“每月两三次”代表平均每十天发生一次,“总共一两次”则未明确具体时间间隔。若等级选项的设计与被试群体霸凌行为的实际频率不匹配,被试可能会因为发生的频率更高或更低而无法给出准确信息,导致量表不能对被试进行有效区分。例如,被试每天都遭受语言侮辱,则应设置相应选项“每天多次”,否则他只能在当前选项中选择“一周几次”,随后的数据分析,他将被判定为一周受到几次语言霸凌,最终结论数据反映的发生频率远低于实际情况。

    使用Rasch模型可以系统地分析每个选项的测量特性。绘制选项概率曲线(Category Probability Curve, CPC)可以判断是否存在选项等级的滥用或缺失。以被霸凌维度为例,图 1所示:图中每条曲线对应一个选项,横轴代表被试受到霸凌的程度(从左往右递增),纵轴代表被试选择的概率。由于Rasch模型分析过程中对数据做了中心化处理,因此横轴量尺以0为中心向正负两端无限延伸,数值大小仅代表受霸凌程度高低。

    以某位受霸凌程度为-2的被试为例,他选择“从来没有过”的概率约为80%,选择“总共一两次”的概率约为20%,选择其他选项的概率接近于0。据此推断,该被试选择“从来没有过”的可能最大。以此类推,受霸凌程度在-∞,-0.6区间内,即A点左侧的被试,选择“从来没有过”的概率最大;-0.6,0.2区间内,即AE点之间的被试,选择“总共一两次”的概率最大;0.2,+∞区间内,即E点右侧的被试,选择“一周几次”的概率最大。无论在哪一区间,“一个月两三次”“一周一次”被选择的概率都非常低,两条曲线均被“一周几次”曲线覆盖。结合表 1数据,测量过程中,有多个等级选项使用率偏低。

    Rasch模型将相邻两个选项曲线的交点称为阈值(Threshold)。以A点为例,对应到横轴为-0.6,受霸凌程度低于-0.6的被试(即A点左侧)选择“从来没有过”的概率最高,在A点右侧,即受霸凌程度高于-0.6的被试选择“总共一两次”的概率最高。李克特量表等级代表的含义是递增的,与之对应,阈值也应当是依次递增的。分析结果如表 1,四个阈值排序为D<A<C<B,顺序颠倒,与李克特量表的基本假设不符。

    模型预测与实际数据的一致性也是评价等级选项设置合理性的重要指标,如表 1所示。M代表由模型根据受霸凌程度预测出的被试作答情况,C代表被试的实际作答。表 1“M→C”列表示“预测会出现在某一选项里的作答,在实际测量中仍出现在该选项的百分比”[8]。两个变量的一致性比例越高,则数据与模型假设契合度越高,说明量表的等级设定越合理。“一个月两三次”“一周一次”两个选项的M→C比例都在20%以下;说明等级设置不合理,需要修订。

    根据Linacre的建议,当出现阈值顺序颠倒、李克特等级滥用等情况,应当将相应的选项与相邻选项合并[9]。将“一个月两三次”“一周一次”“一周几次”合并为“多次”,合并后的CPC曲线如图 2所示,代表三个选项的曲线均存在一个区间,在这个区间内,该选项被选择的概率最大,说明测量过程中每个选项都发挥了区分作用。

    修订后三个等级的M→C一致性比例有较大程度提高。说明被霸凌维度更适合使用李克特3等级量表。五级量表拟合较差的原因可能是被试群体对时间频率的判断能力较差,经常受到他人霸凌的被试很难准确得回忆并报告霸凌事件发生的频率。

  • 霸凌维度的CPC曲线如图 3所示,从图形上看,代表“一个月两三次”“一周一次”两个选项的曲线均被其他曲线覆盖,未起到区分不同程度霸凌者的作用。

    霸凌维度阈值出现了顺序颠倒的情况,排序为D<A<B<C,如表 3所示。“一周一次”“一个月两三次”“一周几次”选项的M→C一致性比例较低。

    将“一个月两三次”“一周一次”“一周几次”合并为“多次”,修订后的CPC曲线如图 4所示。

    合并后的三个等级的M→C一致性比例较修订前有较大程度提高,见表 4。综合相关分析结果,认为霸凌维度更适合使用李克特3级量表。

  • 题目拟合指数通过比较实际数据与模型预期数据的一致性来评价单个题目符合模型假设的程度。常用的拟合指标如表 5所示,A4、A7、B2、B3、B4、B5、B7的拟合较差,超出了Wright建议的[0.8,1.2]范围[10]。霸凌维度Infit MNSQ均值1.3±0.32;被霸凌维度Infit MNSQ均值1.13±0.24。相比而言,被霸凌维度的拟合均值更接近理想值1,且标准差更小,拟合更好。霸凌维度拟合均值已超出了建议的范围,说明整个维度的拟合较差。

  • Rasch模型通过被试分隔系数(Person Separation Index, PSI)、分隔信度(Person Separation Reliability, PSR)和分隔指数(Strata)评价测量信度。分隔指数Strata=(4*PSI+1)/3,例如当PSI=2时,Strata=3,即量表可以将被试区分为高分、中分、低分三组;同时,PSR应高于0.8[10]。实测数据两个维度的PSI、PSR、Strata均低于0.1。说明量表区分度很差,出现这种情况的原因可能是:题目的数量少,且难度(题目中行为的霸凌/被霸凌强度)跨度较小,但被试霸凌/被霸凌程度差异较大,二者间的匹配程度较差。

    Rasch模型还可以通过Targeting值来评价题目难度与被试能力的匹配程度;Targeting=题目的平均难度-被试平均能力,该值越小代表二者的匹配越好。两个维度的Targeting分别为3.28和4.129,说明题目的平均难度远高于被试群体的平均霸凌/被霸凌程度。

    以被霸凌维度难度值最大的A4题(我曾被打、踢、推、恶意对待,或者锁在室内)为例,难度为1.034,96.6%的被试选择“从来没有过”,2.6%选择“总共一两次”,另外三个选项仅0.8%。该题将几种伤害程度和发生概率不同的霸凌行为合并是导致其难度较大的原因。这表明OBVQ部分题目所涉及的霸凌/被霸凌行为代表性不高,在被试群体中发生的概率较低,若想提高量表区分能力,应该再增加一些出现频率较高的行为,或将几种典型行为分别提问。

  • Rasch模型下,在控制了被试特质水平后,比较不同组别间作答概率的差异,若存在显著差异,则认为该题目存在项目功能差异(Differential Item Functioning, DIF)。根据Zwick等人的建议,采用Mantel-Haenszel法检验性别DIF,当性别差异的绝对值大于0.5且p<0.05时认为题目存在DIF[11]。检验结果如表 5,A2、A5、B2、B3、B5存在性别DIF。两个维度上均有较大比例题目存在性别功能差异,影响了测量的公平性。

  • OBVQ在中国被试中应用出现的问题可能与“霸凌”的东西方文化差异有关。与西方不同,中文词源学角度提供的证据表明,“重复发生”不是霸凌的界定性特征[12]。但OBVQ的指导语中明确“只有重复发生的行为才能称为霸凌”。其次,中文与Bully对应或意思相近的词汇有“欺负”“欺凌”“霸凌”“欺辱”“凌辱”等,这些词汇在强度甚至内容上均存在较大差异,在引进过程中未做相应的考虑。这些因素都影响OBVQ跨文化的适用性。

    等级选项分析显示量表存在等级选项过多且前后含义不统一的情况,前两个等级询问事件发生的次数、后三个等级询问事件发生的频率。这类量表的回答过程需要被试回溯式时距估计能力、自传体记忆的共同参与,多数被试时距估计相对不准确[13]。CPC曲线和阈值分析发现学生很难在三个代表频率的选项上做出精确判断。这可能与学生的主观感受有关,令他们印象深刻的首先是被霸凌时的心理感受,而非霸凌行为发生的精确时间和频率。因此,进一步假设,仅调查行为发生的次数可能会对数据拟合有所改善。于是,我们将三个代表频率的选项合并为“多次发生”,合并后的分析结果也支持了这一假设。

  • 典型霸凌行为的代表性对量表影响极大,研究发现,部分题目的质量较差或许与霸凌行为的选择有关。如测量身体霸凌的题目A4(我曾被打、踢、推、恶意对待,或者锁在室内)、B4(我曾经撞、踢、推他/她,或者将他/她锁在室内),将“踢、打、推”同“恶意对待”并列;但“恶意对待”并不一定表现为身体霸凌。且在同一个题目中询问多种霸凌行为发生的情况也会因被试作答时无法对不同行为作出明确区分,导致题目拟合较差。

    典型霸凌行为的代表性还体现在是否与社会时代背景有密切的联系。Olweus发布量表的年代,典型的霸凌类型包括身体霸凌、关系霸凌、言语霸凌。但随着社会发展,新的霸凌形式如“网络霸凌”开始出现;某些霸凌形式受到更多关注,如“性霸凌”“种族霸凌”。OBVQ并未将上述霸凌行为纳入其中, 这会导致基于OBVQ的相关研究结论完整性、代表性不足,研究结论的科学性受到挑战。

    典型行为的选择还关系到测验的公平性。研究发现,有相当一部分题目存在显著的性别差异,同等霸凌/被霸凌程度下,男女生的得分存在显著差异。这意味着这些题目所选择的典型霸凌行为跨性别一致性较差,基于OBVQ开展的性别比较研究都将受其影响。

  • 将题目难度与霸凌/被霸凌程度放在同一量尺下比较是Rasch模型的优点之一。研究发现,OBVQ两个维度绝大多数题目为霸凌/被霸凌程度较轻的行为,且难度分布非常集中,导致量表对不同霸凌/被霸凌程度被试的区分度较差,尤其在高霸凌/被霸凌群体中的区分能力不足。

  • 核心概念内涵的文化差异是导致OBVQ部分测量学指标较差的一个重要原因,如“重复性”等核心概念细节上的差异将会影响到操作性定义,进而影响测量工具的应用效果。

    OBVQ设计之初,以调查霸凌现状为首要目的,希望尽可能收集与霸凌/被霸凌相关的信息,所以将发生频率作为重要的内容之一。但在国内青少年群体中的应用表明,被试对频率的估计能力较差,且这种状况对测量结果的影响很大。因此,在量表修订或编制适用于中国被试测量工具的过程中,可以充分考虑国内青少年面对霸凌行为时的心理特点,合理设置选项等级内容及数量,尝试以“心理感受”为测量指标,如主观感受到被侵犯的程度:“非常严重”“比较严重”“轻微”“无”。

    部分题目拟合较差的原因可能与同一题目包含多种典型霸凌行为有关,在修订或编制测量工具的过程中,可以考虑将这些典型行为分开考察。并增加一些侵犯程度较严重的霸凌行为,拓宽题目的难度跨度,以提高量表的区分能力,如“网络霸凌”“性霸凌”等有关的行为。并且,对于所选行为,都应当进行性别、民族、城乡、学段等变量的项目功能差异检验,以保证工具的跨群体公平性。

    OBVQ有三个特点值得借鉴:一是量表不仅调查霸凌行为发生的频率,还进一步询问这些行为发生的细节以及青少年的态度和反应;二是同时测量霸凌行为与被霸凌行为,为研究霸凌行为提供了全面、丰富的信息;三是量表并非单纯的调查工具,而是Olweus校园霸凌预防项目(Olweus Bullying Prevention Program, OBPP)的内容之一,量表调查的目的是为后续的干预工作及效果评估提供直接证据。

  • 在Olweus的研究和著作中,OBVQ仅作为现状调查的工具出现。受限于心理测量学技术的发展和普及,原版和中文版均未在结构方程模型、项目反应理论框架下进行测量学属性的分析,区分度、效度等特点尚不明确。近年来,国内外研究将OBVQ作为构建心理模型的工具,应用到高级统计分析过程中,且未对数据质量进行检验。这种将调查问卷当做标准化量表的使用方式可能是对OBVQ的误用。

参考文献 (13)

目录

/

返回文章
返回