内容摘要:随着教育改革在我国的不断推进,教育研究者包括教师,对各种教育现象的讨论日益丰富,进行教育研究的热情也不断增加,这也促进了对各种教育研究方法的学习和应用。在前文[1]中,我们曾讨论了一些关于学术研究和论文写作的问题。在教育研究中,最为重要的还是研究方法。
关键词:教育改革;教育研究方法;误区;教育现象
作者简介:
随着教育改革在我国的不断推进,教育研究者包括教师,对各种教育现象的讨论日益丰富,进行教育研究的热情也不断增加,这也促进了对各种教育研究方法的学习和应用。在前文[1]中,我们曾讨论了一些关于学术研究和论文写作的问题。在教育研究中,最为重要的还是研究方法。这不仅是研究生(特别是博士研究生)在学习阶段最值得投入时间和精力钻研的,同时也是各种国际期刊的审稿人所重视的。然而,无论是指导研究生论文,或是审阅一些其他的论文,时常看到学生在研究方法使用上的误解甚至是错误,这些问题其实并非只有学术新手才会有,许多作教育研究多年的学者有时也会错而不自知。这些问题既涉及量化方法(定量分析),也涉及质化方法(定性分析),本文尝试对几个比较突出的问题进行探讨分析。
一、叙事研究就是讲故事吗?
近年,叙事研究或叙述性研究(narrative study)开始在质化研究(或称为质性研究)中流行起来,[2]它也给人一种错觉,诸如叙述性质化研究就是说故事或写日记。而且,无论讲故事和学术研究之间是何种关系(我们不是要低贬讲故事,不少故事均有很重要的学术意味),我们总要回答这种研究方法的所谓信度的问题。当然,没有人无知到把量化研究中的效度与质化研究中的效度等同,但质化研究所得出的结果是否是碎片信息,是否会受主观角度(无论研究者或受访者(informant))的影响还是值得我们注意的。
叙事的质化研究与历史探索(重现)其实有类似的地方。例如,我们在探讨香港小学数学近半世纪的历史发展研究中就遇到过这种情况。[3]该研究利用叙事研究的方法,采访了大量参与早期香港小学数学课程改革的相关人士。其中,有一位受访者(冯源先生)提供了颇为完整(且有文档支持)的“故事”。他在故事中提到何兆伦先生在其中(课改)的参与,于是我们再找何先生进行访谈。何先生又说出了另一个与冯先生略有不同的版本。我们总不能老是用“罗生门”来解释问题。后来,经过反复的访谈引证,不同的访谈实际上组成一幅颇为完整的图画。例如,其中一个关键是冯先生当时主导小学课程改革,他说基本上把英国的Nuffield(纳菲尔德)数学计划作为香港课改的主要参考,但何先生却说在集体会议当中并无人提过Nuffield数学,而且课改也不只参考英国的教育,还包括美国等国的教育。表面上看,两个受访者的故事相悖,其实这两个观点不难组成另一个完整的“故事”。首先,冯先生借鉴了Nuffield数学却不一定需要在会上提到Nuffield这个词,而当时整个西方(英美)都受到“动手数学”(hands-on mathematics)的影响,Nuffield是其中一个代表者,故此参考英国也好,美国也好,都会大同小异。在勾勒整个历史发展过程中,出现的表面矛盾点仍会很多,但透过研究者进一步反复追问和印证,收集到的佐证(evidence)愈是丰富,就愈有可能得出一个大家都没甚异议(所谓“公认”或客观)的图画,亦即获得质化研究的效度。
对质化研究来说,无论研究者使用访谈或现时很流行的教师反思日志,甚或隐喻(metaphor),我们(无论是读者或者审稿人)有理由期望研究者应接触和追查所有合理的、进一步的数据源(尤其当涉及表面的矛盾点时),否则所谓的分析便会流于表面,当成写小品文一样。不然,我们就要问:为何应该要访问的人你不访问?应该去调查的数据你不去调查?例如,当访问教师时,他提到校政的影响,我们就有理由期望研究者进一步访问校长、主任,甚至反复引证。否则,若研究停在这里,就有听取一面之词之嫌。当然,一个单一研究能否做这么多东西是另一回事,不过这还只是技术性的问题。
二、三角验证是在寻找一致性吗?
以往的社会学科研究,往往太侧重量化方法,以为大样本、多数据就能说明问题。特别是,一些批评量化方法的人停留在“量化=发问卷”,用SPSS或其他工具随便左试右试。其实,好的量化方法在厘定不同假设性(hypothesis)和因子(factor),以至一层层用不同的统计方法逐个看变量的比重和解释度,逐层作出推断等方面,都有其严谨性。而有一些批评质化的人以为“质化研究=找一两个受访者进行访谈”而已,又以为质化研究不用什么立论(无论你把它叫作框架也好,概念化(conceptualization)也好),只要进田野收集了“厚数据”(thick data)就一定能找到研究问题的答案。不少人对于两种研究传统不了解是基于对它们的不认识,因而变成了一种二分法和互相批评。现时又常遇到有一些研究使用量化加质化的研究方法(甚或声称混合研究方法(mixed method)),本意是不错的,试图透过多角度来分析数据,以了解真相(其实是否真的存在真相呢?或者说勾画出研究对象的一幅完整图画更贴切)。但我们要问,如果可以用量化方法解释的,为何还要使用质化方法?其实,不少人放弃量化方法,未尝不是因为惧怕统计造成,当然也有一些人滥用量化方法(下文会再谈)。研究方法的选取应出于对哪种方式能回答某项研究问题的考虑,而不是技术性的考虑。例如,如果你因不善交际,研究的某个环节明明是用访谈有效些,反而改为问卷就不恰当,除非你真的有“社交障碍”,若真是这种情况应去学会访谈技巧!于是乎,按照不同环节的需要选取研究方法,这才是真正的混合方法(mixed method)!质化研究强调深入解读、分析数据,也包括调查多种数据。其中,三角验证(triangulation)是目前很多研究者热衷的方法。
三角验证是处理主观性的一种手段,也被认为是用来增加质化研究的效度。其实,质化和量化方法的结合使用,本身便是一种三角验证。三角验证并不只限于质化研究。除了找不同人对同一数据作独立分析外,较常用的还有多元方法三角验证。[4]例如,使用教案、观课和课后访谈去探讨教师如何执行课程改革背景下的新课程。这些方法在教育研究中比较常见。但在三角验证的使用上,亦发现存在很多误解。是否利用了不同数据说明就能声称自己是在进行三角验证?而倘若不同数据来源不互相佐证或达成一致,就无法三角验证呢?运用大量手段(访谈、观课、日志等)获得一堆数据,并非不好,但它们之间的关系究竟如何?研究者需要回答:为何要访谈,为何要观课,它们对研究问题的解决会有什么帮助。这些数据是否指向同一个研究目的?如果不同数据之间能相互支持、补充,当然很好,增强了研究的说服力。但如果不同数据出现矛盾又如何?比如,在调查教师执行新课程的研究中,其实教案、观课和访谈是三个不同的数据群组(data set),它们分别面向新课程实施中不同的问题:教案为意图课程、观课为执行课程、访谈则可能包含教师信念和理解课程(perceived curriculum)。它们不一致(甚至有矛盾)又能说明些什么呢?反过来说,它们之间出现差异是正常的,[5]我们亦不会期望它们一致,所以不应该用它们的一致性印证研究的不主观性。但是,是不是不能进行三角验证呢?此时,三角验证可能有更高的一个层次,这是对研究者的考验,需要研究者提高解释的层次。例如,如果能用信念的强度、权力关系、持分者等方面作解释(并有佐证支持)上述三组数据的共同处和不协调处,研究的分析和立论就全面、合理得多了。
内容摘要:随着教育改革在我国的不断推进,教育研究者包括教师,对各种教育现象的讨论日益丰富,进行教育研究的热情也不断增加,这也促进了对各种教育研究方法的学习和应用。在前文[1]中,我们曾讨论了一些关于学术研究和论文写作的问题。在教育研究中,最为重要的还是研究方法。
关键词:教育改革;教育研究方法;误区;教育现象
作者简介:
三、有了问卷就有了分析数据吗?
有的研究者用量化研究方法,时常有个误解:以为只要将问卷发下去,收回来对着电脑分析就是了,而调查结果是必然出现的。这里首先便有一个问卷的信度和效度如何保证的问题,很多介绍量化研究的书均有提及,于此不赘。这里要指出的是,一些研究者在使用问卷(无论自己研发的还是借用他人的)时,不甚明白为何问卷中会有很多相类似的问题而惯常用之?例如,问及“你喜欢数学吗?”,甚至“你的性别、年龄”等,问一句不就够了吗?何以要问很多句?这便是普通问卷(questionnaire)和量表(scale)的分别。在理论层面而言,我们问“你喜欢数学吗?”是一种观感,有别于性别、年龄等客观事实。答题者的观感会受到情绪(填写问卷时)、语意及具体表现的影响。例如,对于喜欢数学,不同的人对喜欢的理解不同。有人会回家先做数学家课,有人会多买数学书,有人会喜欢数学故事……,故而,我们设计量表时要从多个角度旁敲侧击地问。但怎样保证这些问题都指向一个单一的想问的“东西”(或构念(construct))呢?就是靠Cronbach Alpha系数或α系数。一般地,α系数愈高,问题的指向性愈好。
当然,这亦衍生量表的其他问题。例如,要增加α系数不难,问10题“你喜欢数学吗?”或10题与“你喜欢数学吗?”十分类似的问题。这亦是一些著名量表遭人诟病之处,把研究的构念(construct)收得太窄。故此,建立一个既在统计数据上不错又有公信力的量表,往往花十数廿年的时间。在技术层面而言,我们将来对题项作统计分析时,往往就要假设样本是正态分布(normal distribution)的。简化而言,问了一句只属贝努利试验(Bernoulli Trial),要多问一些问题才会出现重复性贝努利试验(repeated Bernoulli Trial)。样本数量n愈大,样本愈趋于正态。最理想的情况是,量表中的这些命题的字眼是来自实地观察(包括访谈)得到的,即用质化方法探视学生对数学观感的具体表现,然后慢慢归类,找出相类似的词句,用一堆指向“喜欢”的字眼来构作量表。从这个意义上讲,量化研究其实与质化研究是密切联系的。
四、收回问卷就能作统计分析吗?
一堆问卷收回来了,数据也输入了电脑,于是有研究者就开始不假思索地试试各种统计分析方法,一个方法不行换另外一个,也有人戏称这种做法为数据按摩(data massage)。老调重弹,研究问题决定研究方法。即便确定了量化研究,但是选择何种统计方法并不随意,也不能期望电脑肯定能“跑”出个结果来。事实上,大部分统计分析(如t-检验、方差分析、回归分析等)都要求总体满足正态分布,但很多研究者并未意识到这点,而草率行事。而且,不同统计方法其分析的目的是存在差异的。
常常用到的t-test(t-检验)主要用来检测两组数据的平均数或均值(mean)是否相同,根据分析对象的不同可分成配对t-检验(paired t-test)和双样本t检验(two-sample t-test)两种。配对t-检验中,两组数据均取自同一个来源,例如,对同一减肥对象实施前测(pre-test)与后测(post-test)——减肥前后的体重,以研究减肥方法成效。双样本t检验中,是比较同性质但不同来源的两组数据,例如,比较班级A和班级B的数学成绩。另外,t-test是有预先假设的,首先总体要求是正态分布,样本均值统计量才服从正态分布,进而t统计量才服从t分布。而更重要的是,两个样本要有相同的方差或称变异数(variance)。所以,在着手作研究分析时,一定要先处理好方差。相比让数据服从正态分布(normal distribution),要两组数据有相同的方差其实更难。故而,在t-test之前,统计人员一定会做F-test来测试两组数据的方差是否相同。
方差分析或称变异数分析(Analysis of Variance,ANOVA)也常在研究中被用到,它其实是t-test之引申,旨在测试两班人(如男女)的同一分数有否显著差异,且能得出可解释差异的百分比。该分析亦可涉及数个因素,此时即为协方差分析或共变异数分析(Analysis of Covariance,ANCOVA)。但一般作了ANCOVA后,只知多个因素有差异与否,却无法知道究竟是哪个因素造成的,这就要作逐步回归分析(stepwise regression analysis),而此类回归分析也与正态有关。
另外,对同一对象进行的前测、后测会受不少因素影响(如实验组/控制组、性别等),理论上用ANCOVA就可以了,但因为无法断定所解释的方差,故而采用多层回归分析(hierarchical regression analysis)较妥,而这又需要假定样本服从正态分布。总括来说,上述所有这些分析都要假设正态分布,可以想象,没有分布的方程式,又如何能作出种种计算呢?但如何才能让总体服从正态呢?
内容摘要:随着教育改革在我国的不断推进,教育研究者包括教师,对各种教育现象的讨论日益丰富,进行教育研究的热情也不断增加,这也促进了对各种教育研究方法的学习和应用。在前文[1]中,我们曾讨论了一些关于学术研究和论文写作的问题。在教育研究中,最为重要的还是研究方法。
关键词:教育改革;教育研究方法;误区;教育现象
作者简介:
五、样本足够大就是正态吗?
上面谈到正态分布是进行各种统计分析的前提,那么如何才能正态呢?不少人误以为只要数据越大,样本足够大,就会越接近正态。这显然是不对的。比如,全国小学五年级的学生够多了,他们的小腿长度,除了特殊情况外,都在半米左右,让我们想象有一个健身计划为他们增长小腿长度(譬如为美观缘故),现想看其成效,显然小腿长度并非正态分布,故不能用t-test,故此人多不代表就可以用t-test;再夸张点,若考虑他们的年龄,绝大部分都在9~12岁之间。故此,样本数量多肯定不代表正态。
而认为只要增加样本数目就能保证正态,通常的理据是中心极限定理(Central Limit Theorem)。事实上,任何数学统计推断,均要用到数学,用数学就是假定数据大体而言符合某个方程式(否则无法作数学推断),那就是要假定数据属于某种分布(如正态分布),否则就无从推断下去。至于中心极限定理,它是一个很强大的理论。它所涉及的取样是,不论原有数据的分布状况,不断取样,各样本的均值会趋于正态。而小学五年级学生的例子及一般教育研究中的前测、后测,都不会涉及不断抽样,故此中心极限定理根本用不上。另外,中心极限定理引申出另一问题,就是认为重复贝努利实验会接近正态。以问卷而言,第一道问题把填答者分成两堆,比如同意或不同意(这里我们暂不理会划分为5堆,即5点量表或更多堆的情况);下一道又分成两堆,这样前两道问题总共会出现4堆的可能:同意、同意,同意、不同意,不同意、同意,不同意、不同意;若以得分而言(不同意0分,同意1分)就是三组:0分、1分、2分,而如果问卷的问题数量越多(当然填答人数也不能太少),且问题间彼此独立(independent,在现实中其实不可能出现),最后分数的分布会接近正态。故此,重要的不是数据够多,而是问题够多。不过,这只是理论上如此,实际的问卷中,问题与问题之间很难独立。
也有人觉得,只要数据的分布似钟形(bell shape)不就是正态吗?当然,钟形是完美的正态分布,但统计人员判断数据是否正态是从概率的角度出发!在统计人员眼中,服从正态其实不难。近年,不少有关能力测验(包括教师学科知识等)的研究,借助黎氏量表(Likert scale)的分析法去处理数据。这也是有质疑的。因为许多能力测验是按标准参照测试(criterion referencing)而非常模参照测试(norm-reference)去设计,既然不是常模参照,就不应该符合正态分布,那么使用传统的统计方法分析可能就不恰当了。
如何证明某堆数据是正态的呢?首先,它可以是一种理论上的假设,比如通过将问卷题目进行细分,可以假定(还只是假定)它是正态。其次,在实际而言,一堆真实数据是难以完全吻合正态的。当某些发现不再正态或是某些关系不是线性,那就要更新理论了。因此,量化研究分析前,理论上是先要作曲线拟合(curve fitting),看数据大概遵从什么曲线,若接近正态或经过某种转换后接近正态,就可以用所有关于正态的分析。对于涉及有关教师(或学生)知识的测试,包括问题解决能力的测试调查,现时学者都不太在意分数上的分析,而是作质化分析,如他们的答题思路、常犯错误等。
六、结束语:选择研究方法为何?
教育研究中,无论采用量化研究还是质化研究,均是探求现象背后的真相。它们的分别不在于客观与主观。访谈者当然有可能将主观意见引导被访者,问卷设计者透过问卷不是更甚吗?这不局限于用字上的引导,例如,将某个概念(如数学情意)分成若干子问卷(态度、兴趣、动机和自信等)不是将一个未完全确定的主观框架放进问卷填答者的脑内吗?量化与质化的分别也不在于数字与否。我们遇到一种(学习)现象,初期可能任由各方面探索(包括被访者的叙述(narration))渐渐以分析思维把现实层层区分,分成若干部分、若干因素,数据(无论是数字、非数字)出来后,我们用不同方式诠释、解读,让不同的数据对话,数据和文献对话,甚至让不同学派的人对话,量化和质化的思维已经交替出现。我们若深入地看,要探讨真相,两种研究取向都无可避免地要同时用到。
研究方法中的这些问题可以说是写之不尽,学之不尽。我们不要期望有一个指引手册,熟读后才开始研究。(就算有,你也未必有兴趣读!)其实这些讨论都围绕着一个观点:就是学术严谨性。每一步均是在问自己,如何分析和理据何在。每引用一处文献都要问,它们的理论立场是什么?每用一个工具都要问,它假设了些什么,会得出什么?正如索菲亚·柯瓦列夫斯卡娅(Sofiya Vasilievna Kovalevskaya)所说:说您所知道的,做您所该做的,怎么了就怎么了。
参考文献:
[1]黄毅英,张侨平,丁锐.学术研究与论文写作应有的要素[J].教育科学研究,2012,(5).
[2]刘良华.教育叙事研究:是什么与怎么做[J].教育研究,2007,(7);傅敏,田慧敏.教育叙事研究:本质、特征与方法[J].教育研究,2008,(5);丁钢.教育叙事研究的方法论[J].全球教育展望,2008,(3).
[3]邓国俊,黄毅英,霍秉坤,等.香港近半世纪漫漫“小学数教路”[M].香港:香港数学教育学会,2006.
[4]黄毅英,丁锐,李琼,等.教授现在告诉你:如何开展教育研究[M].武汉:华中师范大学出版社,2010:56.
[5]张侨平,林智中,黄毅英.课程改革中的教师参与[J].全球教育展望,2012,(6).
(作者:香港中文大学讲师 张侨平 东北师范大学教育学部副教授 丁锐 香港中文大学教授 黄毅英)