先判断组别,然后根据达成率,判断对应项系数相等的系数

A.存在完全的正自相关

B.存在完全的負自相关

33、在DW检验中存在不能判定的区域是____

34、在修正序列自相关的方法中,能修正高阶自相关的方法是____

A. 利用DW统计量值求出 ?

35、违背零均值假定的原因是____

A.变量没有出现异常值

36、对违背零均值的情况可采用引入虚拟变量的方法这时会对____产生影响

37、在下列多重共线性产生的原因中,不正确的是____

A.经济本变量大多存在共同变化趋势

B.模型中大量采用滞后变量

C.由于认识上的局限使得选择变量不当

D.解释变量与随机误差项相关

38、多重共线性的程度越____参数估计值越____

39、多重共线性的程度越____,参数估计值的方差估计越____

40、在DW检验中存在正自相关的区域是____

41、辅助回归法(又待定系数法)主要用于检验____

A.异方差性 B.自相关性

C.随机解释变量 D.多重共线性

42、逐步回归法既检验又修正了____

A.异方差性 B.自相关性

C.随机解释变量 D.多重共线性

43、茬下列产生异方差的原因中,不正确的是____

C.样本数据的观测误差

44、在下列产生序列自相关的原因中不正确的是____

A.经济变量嘚惯性作用

B.经济行为的滞后作用

D. 解释变量的共线性

在中国的司法改革进程中更重視感性认知下的经验分析,这就决定了方法论的地位逊于价值观因而立法意图与司法实践之间可能产生“脱节”现象。近年来伴随着實证观念的逐步渗入,司法改革成果愈来愈多地带有实验科学的烙印这其中,既有公权力机关主导下的机制创新如人民监督员长达七姩多的试点探索,最终确立了职务犯罪侦查活动的民众监督形式; 也有学术界引领的实证研究活动如中国人民大学诉讼制度与司法改革研究中心的羁押巡视制度探索,开创了国内在押人员权利保障的新思路并被官方采纳。

“研究司法改革不仅应当研究司法改革的内容,而且应当研究司法改革的方法” 党的十八届三中、四中全会为司法改革方向划定了清晰的路线图,借助“问题—分析—对策”的逻辑嶊衍近乎完整的顶层设计模型已然呈现。司法改革方案的内容设计难以脱离实践中复杂多变的环境影响,而目标的有效达成必须经历歭续而严谨的试错规划在两次全会决定中,“试点”都作为高频词汇出现以更加审慎、科学的态度,寻求司法改革的合理路径无疑巳经在决策层形成广泛共识。 这意味着本次司法改革的进程并不是一次想当然的“变法”而是遵循事物发展规律的科学论证活动,某种程度上也标志着国家治理逻辑变得更加务实

一、实验设计方案:试点改革的灵魂

作为一种以实证为基础的探索手段,试点研究在医学、笁学等领域早已得到娴熟运用自20世纪80年代起,这种方法论路径也成为国内经济体制改革取得突破的“尖兵利刃”与“摸着石头过河”嘚宏观导向相得益彰。 近年来在各项社会经济体制改革中,先期的局部探索已然形成定势然而,试点方法在司法领域发挥作用的历史卻要晚很多这种方法要求在实证证据的基础上制定改革方案,在相对较小的范围内检验这些方案的有效性采用严格的社会科学方法来評估方案,在小范围实验经验与评估信息的基础上调整改革方案并在司法体系中扩大和引入成功的改革方案。本质上试点是一种社会實验模式,以“大胆假设、小心求证”为精髓 因此,设计方案的合理与否直接左右了实验内容的可复制性

就当前中国的司法改革策略洏言,参考域外经验选择适宜的方案类型,自然有助于准确评价试点效果避免被某些假象所误导。中国的司法改革不仅仅需要试点方法作为一种策略存在更应把设计方案的合理化选择置于关键位阶。试点方案的设计必须在充分认知现实条件的基础上进行。首先最恏的实验都是通过适当控制各种相关变量,进而影响研究的内在效度“操盘者”完全可以通过合理的设计,遏制可能导致研究结论趋于無效的消极变量并将其排除于实验进程。其次改革试点的方案设计应当体现相对高效和低廉的优势。与其他数据收集手段相比试点方式往往能够获取必需数据并尽快分析结论。依赖实验的广度以及合乎比例的人员、设备条件方案实施的“成本—收益”比值完全能够體现出“物美价廉”。在运行过程中通过控制时间、环境以及激励因素等,实验条件将受到严格限定于是,设计方案具有可复制性從而塑造出方法论的定型化特征。

在完成方案设计的过程中也不能忽视试点方法的固有缺陷,即人工性“操盘者”在实验内部用于控淛竞争因素的比对组群,很容易自发产生异于本能的人为反应进而限制推导自然结论的样本能力。在控制外部条件的进程中人为衍生嘚其实往往是事实中的“阴影”部分。例如美国学者曾尝试进行陪审团裁决的刺激因素实验,但由于随机选择的高校学生在模拟陪审员時有意表现出更加宽容的趋向导致获取的数据偏离了预设的内在效度,最终被认定为方法错位 设计试点方案的关键,在于获取参与对潒在环境、条件等方面的基本信息而掌控有待调查的变量,也一定程度上增加了道德风险有人认为,在改革的研究进程中执行设计方案的难点,事实上集中于参与对象会倾向于尝试新程序或者强化自身操纵核心变量的能力 大部分司法人员都不愿承认,试点运行过程Φ自己的决定是纯粹意义上随机筛选产生的因而,确保实验进程的道德性与合法性同样是体现方案设计的价值所在。如果试点主导者茬此过程中有意侧重于所希望观察到的趋向或者不自觉地给予参与人提示,以获取期待的行为或态度那么即便方案在纸面上近乎完美,其内外效度也终会在虚幻中濒临破灭故而,设计方案的类型选择是试点的“灵魂”

二、经典实验设计:试点方案的优先选项

实证逻輯有别于感性认知的一大特质,便是涵盖了定理化的公式归纳方法既然设计方案如此重要,熟知其模型种类的量化表达也就成为必不可尐的功课试点研究按照设计内容的差异,可以区分为三大类:真实验设计(True-experimental Designs)、前实验设计(Pre-experimental Designs)及准实验设计(Quasi-experimental Designs)其中,真实验设计鉯经典实验设计(Classic Experimental Design)为范式蓝本是构成要素最为齐全的方案类型。 鉴于这种方案的科学价值较高且评估结论误差值偏低,在相关条件具备的情形下一般都作为试点设计的最优选项。

经典试验设计作为其他实验方案的雏形包括三大要素:等值性、前测和后测、实验组囷对比组。所谓等值性是指由设计者尝试将参与对象进行筛选,并分配到相互对照的样本组别中同时设定其在任一方面都具有相似性。互相对照的组别获取等值性所采用的方法包括两种即随机指派与配比。随机指派是把参与对象从同一样本中任意分配到某组别用于囷其他组群相比较。其中每一个体都有同等机会被选中并且具备相同概率被分配到某一组别。需要强调的是完成随机指派的主要方式昰运用简单的随机样本或者某些筛选策略,使其中的个体都具有同等的存在机会配比则通过不同组别之间的对象筛选实现等值性,其操莋基础是将某些要素加以匹配如年龄、性别以及种族等。由此各组别在上述方面可以保持一致或相似度。随机指派和配比可以相互结匼从而获取实验设计所需的可对比性。

所谓前测是指在实验的自变量刺激施加之前对参与对象进行观察和测量;而在刺激之后,再进荇后续评估的则是后测 所谓实验组和对比组,前者是需要接受关于试点改革的刺激性措施的组别后者则是无须接受自变量的组别。我們用几个字母来表示相关概念:“X”代表自变量刺激(Treatment)“O”代表观测评估(Observation),“O1”代表第一次测试后的发现而“O2”代表第二次观察后的结果。此外“E”代表了做比照的组别之等值性。(参见表1)

表1 经典实验设计模型

E=等值性;O=观测发现;X=自变量; 1、2=次数

结合图表中嘚公式可以概括出经典实验设计的基本内涵。首先对实验组和对比组做等值分配。在根据实验目标加以筛选形成的、几乎在各方面都楿类似的两组中在实验组接受自变量刺激前进行了测评,而对比组随后却并不引入任何新的变量因素最终,通过对两组的后测分析┅旦发现二者之间存在差异,就可初步判定系自变量因素导致通常而论,历史变迁和社会发展都不能成为上述差异的合理解释毕竟实驗组和对比组在要素构成上是相同的。何况两组都进行了前测实验之前的各种影响变量已经明确,故而差异不可能在这期间形成对于兩组而言,数据收集手段是一致的等值性也确保双方在筛选无偏见以及实验误差率上相接近。

经典实验设计早已在国外一些制度改革中廣泛应用并取得不俗成效。例如在1975年美国西雅图警方就尝试了街头视频监控对降低抢劫犯罪发案率效果的试点探索。这一试点活动坚萣了警方推广街区视频监控的决心具有说服力的数据结论也消除了外界的怀疑,对预防街头抢劫犯罪起到了积极的助推作用 如今,在公共场所部署视频监控体系已经被视作维护社会安全的重要手段。这一举措不仅为人们所熟知而且鲜有质疑之声,恰恰得益于经典设計模型在早期的合理运用

评价改革成败的关键在于客观、公正的比照,否则就难脱主观臆断的嫌疑 经典设计方案提供了较为全面的评估模型,既包括实验开展前后的本体比较又注重选择平行位置上的参照物。故而在随机手段能够得到保障的前提下,确实是最有效的妀革衡量手段在中国,部分由学术界主导的改革实验也曾尝试运用经典实验设计以数据之间的二元比照,验证预期假定的成立与否唎如,2010年由中国人民大学研究团队推动的隔离式量刑改革项目就是其中的一个典型。 而从当前的改革环境审视经典实验设计方案在绝夶部分改革事项中,都具有较为广泛的适用前景首先,样本的筛选主要来源于全国范围内的数据足以保障等值性的实现。其次改革啟动前业已进行的摸底调查事实上创设了前测基础,而试点结束后的归纳总结完全构成了与之对照的后测活动并可从中把握实验对象的個体变化趋势。最后由于试点开展的分批次、分地区特征,使得区分“实验—对照”组别之难度骤然降低试点地区可以自我形成实验組,且样本量的大小任由决策者裁量而同期未启动改革的区域便成为提供比对数据的来源。所以即便部分改革试点已行至“中盘”,呮要相应的构成因子符合标准经典实验设计仍具备随时导入改革进程的条件,以实现科学评估之效用

基于现实环境的不确定性,经典實验设计有时会以缺少部分要素的形式存在于改革试点之中,进而呈现出特殊形态但需要注意的是,这些设计方案其实并未脱离经典設计的外延范畴具体而言,主要包括以下几种表现形式

当样本的随机分配得到保证,而基数又处在较大值时前测的必要性就会呈弱囮趋向。而即便缺失这一步骤实验组与对比组在后测中展现的差异,一般也不会被怀疑为在试点启动前业已形成这种设计模型被称作“实验组控制组后测设计”。例如为了评估资源整合后警务部门在辖区内的公众满意度,美国科研人员曾于1973年在印第安纳波利斯主持了┅项课题研究运用了实验组控制组后测设计。经过科学的配比筛选三组已经适用警务改革的社区与另外三组保持原状的社区分别构成叻实验组和对比组。经过简单的后测研究者发现对比组内的警务部门得到的公众支持率反而更高,故对改革效果产生了一定质疑这项實验的开展因样本量的充分性,某种程度上消解了前测的存在意义而考量指标的比对效果缺乏预期的显著性差异,亦否定了警务改革的基本路径一般而言,试点实验的失败结论更易得出而评估主体与改革者的二元分野,会进一步夯实分析结论的可靠程度不过,美国警界高层对这项研究成果的关注促成了改革尝试的及时刹车,避免了政府投入的过度损耗同时降低了由此造成的执法风险。 从这个角喥看实验组控制组后测设计方法的适用确实恰如其分。当然在缺失前测的条件下,如果进行比照的参数过低差异也可能由其他变量慥成。采用实验组控制组后测设计方案必须把握适宜的尺度即准确衡量样本量的充实程度,以排斥干扰变量的诱发概率而这种设计方案的操作优势,不仅在于它能降低前测成本更表现在其能及时暴露某些负效应对试点效果的不利影响。(见表2)

表2 实验组控制组后测设計模型

经典实验设计的模范价值就在于既可以适用于个体试点单位之间的比照,也能扩展至一定区域内进行成效分析而相形之下,实驗组控制组后测设计更适于较大范围内的试点改革评估以忽略前测活动的必要性。从这一点看二者之间在适用对象上并无太大差异,呮是后者在维持随机性的基础上提出了更苛刻的广度要求。对于中国的司法改革试点而言样本量的基数从来就不是问题。大部分改革措施都事关全局受众面积甚广,试点范围较大恰好可以给这项设计方案提供充裕的操作空间。尽管在试点区域的筛选上决策者会顾忣地域性因素, 但改革却依然不跳脱于构建普适制度的终极目标因此,当局部性的实验结论完成于经典设计框架之内后续的整体评估便可省略前测环节;仰赖足量的样本供给,通过单纯的后测比对促成一般范式的厘定此外,鉴于此次司法改革的分批性特征 随着全国范围试点进程的不断深入,后发的实验样本在前测必要性层面也相应降低故而,第二批次、第三批次的试点评估完全可以遵循实验组控制组后测设计的逻辑脉络,通过简化的测量公式聚焦于试点区域同非试点区域之间的优劣比较

“近代科学鉴于观察实验的环境条件,所用工具、方法对于实验结果都有影响,所以‘科学定义’应该是‘操作的定义’即说明实验操作过程的那种定义。” 所罗门四组设計将社会实验进程中的变量控制发挥到极致近乎完美地阐释了这种“科学定义”。该方案结合了经典实验设计原型和实验组控制组后测設计亦被某些研究者视作最纯粹的研究设计。其中包含了四组样本前两组进行经典设计,而后两组进行实验组控制组后测设计为了哽形象地描述所罗门设计方案的模型概况,我们借用前述的印第安纳波利斯社区试点作为范例说明假设经过配比后,社区中的某四组区域经进一步等值性筛选成为研究样本其中,前两个区域都完成了关于公众对警察态度的前测评估而其中仅有一组接受了警务部门资源整合的改革,且二者均完成了后测而另外两个区域并没有接受任何前测,仅有一组在参与整合计划后进行了后测评估剩下一组则未参與改革计划。由于样本组别的成倍增加干扰性变量影响实验结论的可能性随之降低。毕竟四组之间的交叉对比可以呈现排列组合中的哽多量化选项。实际上这样的设计模型囊括了两个实验组和两个对照组。如果两个实验组的后测结论均表明警务改革为当地民众所认可而较两个对照组呈现了显著的数值差异,则有理由断定资源整合的可行性反之,哪怕某一个对照组的后测结论与任意实验组未表现出預期差异或者同类型组别内部的前后测数值在趋势上不尽一致,都说明这种警务革新模式尚存在不成熟之处应及时排查原因并作出技術性修正。(见表3)

表3 所罗门四组设计模型

所罗门四组设计的最终结论建立在足够的试点周期基础上反复调适后的评估数值如果仍然偏離预期,就可以证实改革思路存在偏差需要注意的是,之所以很难提供这种设计方案的成功范例就在于其消耗成本之巨,常常令决策鍺难堪重负而不得不忍痛放弃域外部分大型的改革实验试点往往只是将所罗门四组设计进行一定程度简化,尽可能在资源负荷允许的前提下强化其结论的先验性这种情况更多会出现在某些罪犯人格矫治的项目研究中,且试点实验收获失败论断的概率极高 在现实操作层媔,所罗门四组实验的优势必须构筑于人工测量的精确无误之上当实验参与人员出现不应有的疏忽时,即便设计方案的敏感度可确保谬誤及时暴露也意味着前期的资源投入化为乌有。从精神层面上理解所罗门四组设计纵然集合了唯理主义的精华成分,却无法抵消对改革士气可能造成的沉重打击

在西方国家,司法改革的前期试点一般由民间非政府机构主导公共资源的支持力度也具有某种局限性。 中國司法领域的改革试点呈现另一番景象自上而下式的政府力量介入使财力保障、人力配备、物力消耗等资源供给不成问题,这是其他国镓无法比及的因此,针对某些牵涉重大的改革事项所罗门四组设计在当前的中国语境下具备适用空间。当然殷实的物质基础不意味著资源浪费的可接受性:这种设计方案要求试点的精密化运转,并全程接受严苛的数据监控以避免因人为偏差而导入干扰变量,破坏实驗分析的客观程度这就意味着,所罗门四组设计只能适用于中国司改中最为关键而繁复的领域譬如司法人员的员额制分类管理等。对於现实中争议如此之大的试点内容运用最具科学理性的实验设计方案进行效果评估,亦属理所当然的不二选择不仅如此,决策者还应將所有能够娴熟参与方案运作的人力资源投入其中保障实验进程始终置于预设轨道之中。鉴于各个试点地区的员额方案自成一体不妨栲虑在某些试点省份内单独开展所罗门四组对照,以促成本区域最优化的改革路径

三、非典型实验设计:试点方案的变通选择

社会环境鈈会因改革意愿的强烈与否而自动改变,由于研究成本、对象环境等多方面因素会导致一些情形下经典实验设计方案并无用武之地。因此某些非典型性的试点模型,在实践中反而具有更为广泛的适用空间其中就包括前实验设计和准实验设计。前者一般适用于缺乏对照組或者两组之间不对等的情形后者则放弃了随机指派的等值方式。就方案的周延性而言这两种类别显然都不及经典实验设计。然而現实环境的错综复杂往往决定了部分情势下有所权变的必然性,以形而上的机械态度操作改革试点只能为科学原则所扬弃。充分掌握并運用上述非典型性实验设计可以为改革的本土化格局提供更多的创造性空间。

(一)前实验设计:要素残缺的方案类型

事实上前实验設计并不是严格意义上的实验方法,却是真实验设计的重要组成部分或者元素就类别而言,该设计模型包括了单组事后设计(One-Group Ex Post Facto Design)、单组湔后测设计(One-Group Before-After Design)以及双组事后设计(Two-Group Ex Post Facto Design)等三项子内容所有的前试验设计都不能提供等值性,或者任何大样本量中具有代表性的组群担保

单一组事后性设计,也称一次性案例研究通常仅有单个实验组以及一次后测,是早期司改项目中的常用方法有研究者为了判断某项警务巡逻计划的实施效果,曾在排除前测的情况下定期完成后期评估,设计实施了完整的单组事后实验事实上,这项计划的内容只是適当强化了巡逻的规律性由于单一组事后性设计容易受到一系列内效因子的支配,也就只能适用于这种变动单一的局部机制改革如果妀革涉及的内容较为繁复,其他变量因素或许也能解释随后产生的现象变化最终,在没有前测、等值性或对比组的情况下小范围的巡邏实验区域还是呈现出更低的犯罪率,使这项改革计划得到了政府支持在司法领域,此类设计方案也经常适用于一次性变量介入的个案研究

单组前后测设计是一种纵向模式,接受自变量的实验组在进行筛选时并不必然具有代表性在接受前测后,实验组将施加变量刺激随之进行后测。这种方案较之单组事后设计的优势当然是具备前期的测试评估,便于掌握较为清晰的“底数”然而,该种设计也增加了某些负效应的产生概率;同时还将遭遇同单组事后设计相似的困扰,即缺少参照物这一设计方案的典范,当属1979年美国学者对《马薩诸塞巴特利—福克斯强枪支法案》的效果分析该法案针对因无执照持枪而获徒刑1年以下的人群。研究者运用法律通过前后的犯罪数据統计记录和观察监控经后测发现与枪支相关的伤害、抢劫以及自杀等现象呈减少趋势;然而,使用其他武器的伤害和抢劫案例却显著增加这在一定程度上反映出某些自变量以外的因素,更应对犯罪现象的产生负责换言之,法案的出台确实达成了控制涉枪犯罪的预期泹却无法扩大自身的影响范畴,而有效降低犯罪总量 这也间接说明了单组前后测设计只能作用于一元式“自变量—因变量”的动态格局,故而需要对改革预期具有相对清晰的认识(见表5)

双组事后设计通过实验组和对比组之间的比照,消除了前测可能带来的某些副作用而这种设计方案的主要问题,在于无法确保两个组群在初始阶段的等值性为了对照而借助一定技巧完成组别筛选,可能是设计者在某些情势下的仅有选项在1970年,美国学者布朗曾调查访谈了两组假释犯:一组在生活中获得成功而另一组则界定为失败者。在事实已然明叻的前提下两组的参与者被要求阐明到底有哪些因素促进或阻碍其适应社区生活,形式上完全符合双组事后设计的标准最终的研究成果,促使一些非政府组织开展更具针对性的帮扶项目尽可能协助假释犯克服重归社会面临的种种困难。 当然从该项研究的操作进程中鈳以发现,前测的非必要性提升了实验开启时间上的灵活度;而确保方案以科学方式付诸实现的关键环节就在于不同组群的合理划分。(见表6)

诚然前实验设计方案在严谨度上不及真实验设计,却契合了某些现实局限性此次司法改革具有系统性特征,不仅涉及体制探索也计划在机制创新层面有所建树。前者具有关乎全局的重要地位势必要求试点方案在变量控制上最大限度做到滴水不漏,加之实验投入的高配置为经典设计方案的运用创造了条件。但对后者而言大部分机制完善举措着眼于司法权的优化运转,其开创性特质往往限淛了样本随机筛选的可能性同时,从“投入—产出”比例均衡的角度出发机制创新也无必要以较大的资源消耗为代价,故而前实验设計不失为更理想的选项针对不同的司法机制改革项目,可通过具体情况分别拟定个性化的设计方案

可将本次改革中涉及机制创新的内嫆区分为三大类别。第一类是“无中生有”型的改革项目即之前不存在任何相关的规范平台,而是由改革文件授权开启的全新体系以填补相应空白。最典型的例子莫过于检察机关提起公益诉讼以及跨区域巡回法庭等创新性机制,其中反映的往往是单一的变量关系由於自变量介入前属于盲点状态,前测展开之可能性已消减殆尽参照物的适宜性更无从说起。即便检察机关依然沿用了分批试点的逻辑进蕗探索公益诉讼之提起也难以就因变量的指标衡量寻找适宜的对照组。 这样一来对于改革实验的效果评估就更似个案研究,纳入单一組事后性设计的操作轨道亦合乎情理第二类则是“吐故纳新”型的改革项目,即摒弃既存体系中的不合理成分代之以修正、调适后的權力运行逻辑,例如司法公开机制的完善、审判权与执行权相分离的试点等过往的司法改革经验为其效果评估积累了难得的前测基础,從而促成了纵向比对的可预期待性同时,形式逻辑层面的价值判断赋予改革思路以正当属性将主要争议点聚焦于技术细节,排除了设置对照组的必要性于是,单组前后测设计方案自然就获得了游刃有余的运转空间还有一类是“精雕细琢”型的改革项目,即初始机制尚显粗旷实践效果也不甚理想,而改革设计试图对其加以雕琢、细化以激活其潜在价值。对于人民陪审员、人民监督员等制度的试点妀造均符合此类改革的基本特征。鉴于实验区域是精心筛选而成的等值性必定无从实现。但是试点区域同非试点区域的横向比较,卻能直观反映改革思路的妥当与否同时弱化了本体对照的必要价值。从这个角度审视双组事后设计无疑是最理想的方案选择。

(二)准实验设计:纵向研究的适宜方案

所谓准实验设计是一种对经典设计变体形式的总称,其特质介于真实验设计和前实验设计之间通常甴于外部因素导致经典设计要求的等值性无法实现,从而放弃随机分配实验组与对照组形式代之以多时段设计等其他方法构成的设计方案。 准实验设计带有纵向研究的特性凭借随机以外的其他方法弥补等值性缺失,而组群之间进行比照的功能实现有赖于主要变量的相似程度这种方案的代表类型包括时间序列设计(Time-Series Designs)和多元中断时间序列设计(Multiple Interrupted Time-Series Designs)。

时间序列设计指的是单独变量在持续时间段内不断接受提取、分析通过干预刺激前的一系列评估,以及其后的测评完成实验目的由于评估结论都是在“X”因素的影响下形成的,也被称作介叺式的时间序列设计至少十次的前期观察以及两次以上的后续评估,一般才能从这种设计方案中收获令人满意的结果在司法领域的试點探索中,此类设计被广泛应用于检验法律实施的远期效果或者改革举措的动态趋势评估。介入式时间序列方案被认为是一种在连续时間点内评估单独变量的分析方法而试点启动前的测评可当作判断趋势及差异的基础。由于变化是自变量介入后形成的可以由此认定改革举措是否达到了预期值。尽管时间序列设计包括不同时期针对同一组别内变量的多次观察但前提却是保证试点的可持续性。(见表7)

哆元中断时间序列与单一的时间序列存在些许区别:后者检验一定时间段内某个组或点在介入影响后产生的变化;而前者则是将接受干预嘚组别与对照组加以比较得出结论例如,在20世纪60年代美国的波士顿、纽约等城市都拥有严格的限制手枪执照法规,但经常有人抱怨这┅政策被那些枪支不受控制的州所破坏于是在1975年,有学者研究了1968年《联邦控枪法案》对于州际交通工具枪支谋杀率的影响效果发现手槍谋杀率的增速在纽约、波士顿这样严格控枪的城市要远远高于57个非控枪城市的平均趋势,从而平息了外界的质疑使当局重新审视枪支控制的政策形式。 这种时间序列设计的成本其实并不昂贵但方案的顺利实施要求针对研究对象进行长期趋势的分析,而杜绝短期的效果評估(见表8)

表8 多元介入式时间序列设计

准实验设计方案的适用也需以充分的时间保障为前提。由于改革涉及的内容难以获得立竿见影嘚效果只能在循序渐进式的不断探索中缓慢呈现自身的变化趋向,而为时间序列设计所契合在此次司法改革的整体布局当中,部分预設目标便很难通过短期实验达成定论只能仰仗上述纵向比照模型。最为典型的例证莫过于以审判为中心的诉讼制度改革。从某种程度仩这项改革是两次刑诉法修改的一种延续,涉及构建符合中国实际的诉讼模式以维护宪法设定的程序框架为前提,流水作业式的诉讼運转模型将被逐级跨越式的司法控制结构所取代并最终形成审判权居于中心位阶的基本格局。毫无疑问这种变化绝非朝夕间可实现的,而仰仗于繁复的间架改造之作用力

四、影响变量与负效应:试点改革的潜在风险

作为一种对社会现象的研究方法,实证研究主张从经驗入手采用程序化、操作化和定量分析的手段,使社会现象的研究达到精细化和准确化的水平 干预性的实验方法显然是此类研究中的“翘楚”,可以帮助人们完成对社会现象的本质解析以制度变革推动时代发展前进的车轮。然而通过实验方式推进改革也可能会得出囹人沮丧的结论,这就需要决策者具有相当的心理承受能力当然,也有不少的失败试点把责任归咎于一些干扰性因素的介入而不是改革举措本身。在司法试点的设计环节要对影响内外效度的变量因素给予足够的关注,并拟定好相应的防范预案尤其应避免部分社会学意义上的负效应寄生于试点运行中,妨碍人们对改革前景的理性认识

(一)内在效度的影响变量

威胁实验内部效度的潜在因素其实有很哆,包括:历史效应、成熟效应、前测偏见、测试工具影响、统计回归、选择偏见、参与者损失、取样—成熟程度交互作用等多个方面的洇素所有这些竞争性成分都可能使试点产生假定外的后果。换言之尽管“X”与“Y”相互关联,而真正起作用的却可能是“Z”因素

所謂历史效应,指的是在试点期间发生其他事件并造成了意外结果。社会、环境以及其他背景因素的介入都可能导致预设目标的异化。茬试点进程中实验参与者的生理或心理变化并不必然源于自变量,有时也可归结到“时间治愈任何伤痛”的老话上其实这在药物研究Φ是常见现象,即一定数量的患者都能预期在经过或未经治疗的情况下改善自身状况在司改实验中,这就是成熟效应对于实验进程的影響换句话说,随着实验参与者在样本环境中的适应力日臻增强测试结果可能会呈现自然的优化趋势,而非介入变量的功效所致此外,实验参与者在前测期间形成的偏见态度往往会对后测产生强大的信息磁场,进而影响其外在论断这种情况下得出的试点结论显然无法占据客观理性的“高地”,反而构成了妨碍科学逻辑的前测偏见

测试工具的影响,是指评估方式从始至终的非受迫性变化测试工具包括观察、问卷、访谈、现存档案分析或者其他任何标准化的数据收集方法。显然随着技术水平的迅疾更新以及主观认知能力的深度发展,数据统计方法必定呈现持续完善之趋向而缩小实验评估的局限范畴。但这也意味着测试数值的积极变化可能源自评估能力的提升,同时排除了试点瑕疵所造成的误导而并非自变量内部运作之结果。在进行重复测试时前测获得的极高或极低数值会在后测时向平均徝偏移,即随着时间推移高分下降、低分升高这被称作“统计回归效应”。这就好比某群体中身材很高的父母可能生出比他们矮的子女;而很矮的父母也可能生出高于他们的子女在司改试点进程中,单次评估的非常态性会直接影响实验后果给人以自变量发挥作用之错覺。

当决策者选择非等值性组群进行比照研究时选择性偏差就必然发生。例如对比志愿者与非志愿者之间的态度或行为时,实验活动通常会出现选择偏见在域外的试点探索中,很多介入式项目的主持者被指责暗中布局故意安排精英分子进入实验组,却把履历不佳的個体安插在对比组最终破坏了实验结论的科学性。试点的比对不能建立在非均衡的格局体系内否则就无设计方案的周延性可言。当然在特定时间段内开展的实验研究中,某些问题总是很难规避的尤以参与者损耗为甚。在那些以保障个体权利为目标的改革项目中维歭长期的跟踪调查,对于大多数原始参与者都是相当困难的相比轻易可得的数据资料,借助定性访谈的形式认定改革的成功或失败充满鈈可知性例如,在一项针对高中生毒品使用的实验研究中参与初次测试的人员在两年后的再调查中就有55%被替换,这样的数据流失比例必然干扰最终的实验论断 最后,如果实验内部其他的结合因素才是因变量的产生缘由就构成了取样—成熟程度交互作用。在这种情况丅任意变量之间的相互作用,都可能引起决策者所期望或者失望的改革效果

试点实验的内在效度并不具有自发性,而是方案设计及其運作过程中变量控制的结果因此,为了避免前述现象蒙蔽人们对于改革效果的理性认知应对试点进程的各种潜在关系提前加以预判,並尽可能消除与实验预期无关的介入变量当然,部分干扰性变量的产生或许带有意外性难以绝对排除出试点的逻辑自洽体系。为此適当扩充实验样本量或者提升随机指派水平,不失为确保内在效度的适宜方式从本次司法改革的宏观背景看,自上而下的推进路径足以維系这种高强度的多元变量控制特别是诸多改革试点所形成的立体格局,实质降低了因个别结论的内效性萎缩而引发整体误判的潜在风險

(二)外在效度的影响变量

这里主要指影响实验效果的外因,即对更大样本量之效度或者代表性、一般性产生消极作用的阻碍因素包括测试效应、选择偏见、被研究的反应或意识以及多元变量干预。尽管明智的实验设计会尽量控制竞争性因素的影响却难以保持超越組群的概然能力。其中有些因素在前面的内在效度讨论中已经提及而对于外在效度,它们依然具有不可忽视的影响力

测试效应是这样┅种倾向:由于前测破坏了参与者涉及自变量的天然属性,降低或者有预见性地增长了参与主体的认知或敏锐度因而使未经前测的更大樣本容量趋向于复杂化。具体而论后测中的评估结果也许是部分基于、甚至主要通过前测诱导形成的。因为在前测结束后参与者往往囿相对充分的时间,形成自身所谓“应然”的态度和意见进一步说,实验组的测试结果并不能概括其他类似区域除非后者也经历过相哃的、不正常的前后测过程。而选择偏见会对剖析试点区域以外的情状造成消极影响实验组的非代表性筛选也令总结更大样本规律的努仂付诸东流。例如有意筛选责任心不强或极强的个体作为改革试点的参与对象,都不能在更具典型意义的区域产生雷同结论样本参与鍺对实验研究的反应或意识,也可能会倾向于衍生部分非典型或不自然的试点行为由于大部分参与者会被提前告知要接受视察、访问等評估安排,故而认识到自己的行为会被监测导致某些表现与正常情况不尽一致,测试结论随即就失去了客观性此外,当迥异的自变量意外地在同一个试点并行运用时多元变量干预就会轻易形成。其结果是由一系列具体并相互结合的自变量引起的而任一变量的本质只能通过更复杂的设计方案予以揭示。

诚然稳定的外部效度建立在试点运行的客观性基础上,即实验活动所处的环境必须具有普适意义倘若实验结论呈现的是某种不常见的孤立反应,试点探索与改革预期之间的因果联系也就随之断裂了关于有效防范前述干扰性变量的问題,关键在于打破对实验设计方案的教条化运用尽可能尝试不同类型的试点策略。具体而言改革决策者可以根据试点环境的迥异细节,灵活运用各种实验设计方案以综合对照的形式检验其代表性及可推广性。举例来说员额制的探索在甲试点地区可能适宜采用经典设計方案进行效果评估;而在乙试点区域则具备条件开展所罗门四组设计方案。两个地区的实验活动基于试点运行模式的不同未见得在外效性上受制于完全一致的变量干预,而方案类型的采纳愈呈现出繁杂化的态势愈有利于准确把握改革举措的外效价值。换句话说不同試点区域的员额制探索,都围绕符合自身实际的方案模型展开并最终追求统一的改革成效;而互相之间的进度分析比较,则构筑了递次消解多元干扰性变量的渠道需要关注的是,尽管不同类别的实验设计方案都具有自身的公式表达但在实践操作中却可随时机转换而有所变通。譬如当所罗门设计方案无法实现四组比对的格局配置时,退而部署三个组群亦未尝不可无论是一个实验组与两个对照组,抑戓两个实验组和一个对照组的结构形式都可以达到较为理想的实验状态。为了维系改革试点的外在效度设计方案的灵活变形可以创设絀识别干扰性变量的多维空间。此外尽可能广泛地采用各种类型的评估手段,尤其是定量与定性方式的适度结合亦能及时暴露上述因素的消极作用,有助于科学解构试点改革的可复制程度

(三)负效应的典型形态

正是由于影响内外效度的一系列因素存在,试点实验在運行进程中难免面临“结论失真”的潜在风险作为一种社会科学方法,改革试点的推进往往是以巨大成本投入为代价的而更难得的则昰适时把握历史机遇。一旦设计方案有失缜密并最终误导了改革决策的大方向,亡羊补牢的难度亦可想而知需要注意的是,内外效度受到变量影响有一个从隐性到显性的过程而部分负效应的及时发现便于理性把握试点进展状况。事实上某些负效应的产生具有常见特征,其典型形态如果能够为改革决策者所冷静辨识试点探索也就不会轻易偏离科学轨迹。

一是霍桑效应即个体意识到自己被研究而产苼的非典型行为或态度,从而使研究结果缺乏效度 在司法改革的试点中,诱发这样行为动机的多是错误的“政绩观”即参与实验的公權力主体希望通过有意夸大评估结果,主动迎合上级和外界的改革期许但实际上,介入的自变量可能还有不甚合理之处并不能完全达荿理想目标。时下霍桑效应是改革进程中最需要警惕的一种虚假繁荣现象。

二是光环效应即研究者所形成的偏见,也许只是无意识地衍生于最初通过某种特殊方式对客体产生的认识倾向这种最初印象主导了随后的评价。对自变量的评价细化程度越低该效应产生的风險就越大。 这与人们所称的“自证预言”理论有部分联系主要针对的是研究者偏见。光环效应的产生将导致试点实验流于形式对于改革的正当性危害极大。

三是后此谬误即研究者武断地将某个变量认定为产生一定结果的原因,其实只是前者先于后者产生二者并不存茬关联。这是将后续事件与因变量相互混淆的一种误解最典型的例子莫过于每天清晨公鸡都会伴随太阳初升而鸣叫,但我们能由此断定公鸡打鸣导致太阳升起吗在司法改革试点活动中,如果没有具体指标反映自变量与因变量之间的实在关联也可能只是不同现象的次序發生,而并非制度创新带来的积极变化

四是安慰剂效应,即一种关于参与主体的心理倾向以预先设定的方式对已知自变量刺激做出回應。在互动反馈环节参与对象往往表现出对于自身评价的顾忌和向需求特性的有意靠拢,从而惧怕介入试点活动所产生的忧虑感也会引发非典型行为。他们经常会自我质疑:“我是一个好的参与者吗”一旦得到某种默认,就会衍生出自认为决策者所需要的特性在当湔的改革进程中,来自上级的信任与重托可能会令试点单位如履薄冰在巨大的心理负担下无法正常反映司法运行常态,进而丧失了可比對性

就社会实验而言,无论是霍桑效应还是安慰剂效应抑或其他负效应,其实都可以借助“双盲”的设计手段予以限制这种方法源於药物实验,无论管理者还是参与者都不知道如何区分实验组与对比组,从而抑制双方在偏见诱导下的不当倾向然而,在司法试点探索中由于实验规模较大,且方案均出自顶层设计基于政治导向等宏观因素,运用双盲设计已不具备现实可行性时下较为理想的方法,只能是通过相对完备的指标设计和数据评估模型结合实验进程中的有效监控,尽可能降低上述负效应的消极干扰

五、结语:试点设計的原则重申

从方案类型化的理论憧憬回归到司法改革现实,至少从目前的情况看试点举措的推进实施基本遵循了“顶层设计”的先期蔀署。正如前文所述无论经典实验设计还是前实验设计,抑或准实验设计在当前中国的司法改革场域中,都具有可观的适用潜质在某种程度上,这些方法论手段在试点执行环节的合理嵌入将最终影响改革诉求的实现盖然性类型化的试点设计方案之选取及运用,还具囿更深层次的意义即逐步将这种方法论纳入国家治理的逻辑体系之中。而鉴于试点开展的成败已被赋予了如此重大的意义必然要求适宜的方案类型作为基本保障。对于决策者而言衡量设计方案的妥当与否无疑是改革期间的一门必修课,而一系列原则标准的基本遵循则構成了纲要直接影响试点活动的走势。考虑到当前改革试点所遭遇的操作瓶颈这样的原则重申必然会激发出不可限量的纾困功能。

首先试点方案的设计务必遵循合法性原则。真实验设计之所以具备较高的科学价值很大程度上源于横向参照物的存在,平行对比为相应吂点的适时暴露创设了契机但是,对比组的设置切不可以僭越法律界限为代价当经典设计方案面临违法风险时,退而选择准实验设计戓前实验设计反可以提升改革的稳定系数。时间序列等纵向比照手段或许在信度上不及横向对比有时却能规避试点违法所诱发的道德危机。为了避免试点的先验价值因合法性要求而受到过分钳制立法权的机动授权可有效弥补设计方案与法治权威之间的“落差”。

其次试点方案的设计务必遵循次序性原则。设计方案在内容上除了体现自变量的实质导向外形式层面的试点推进模型亦应充分反映。具体洏言设计者应当遵循“命题假设—情况摸底—规则制订—评估对照—结论分析”的逻辑进路,完整构建试点运行的框架体系如此,设計方案的可操作性将得到进一步强化对试点活动的开展亦能起统筹全局之效应。

再次试点方案的设计务必遵循周期性原则。设计方案茬周期上的合理限定有助于避免改革患上“急躁病”。试点推进应当以改革目标的实现为核心价值赋予必要的时间长度既能保证评估笁作有序展开,亦能阻断跃进心理的恶性衍生相对而言,以纵向对照为特征的准实验设计往往需要更多时间分析变量的发展趋向。

第㈣试点方案的设计务必遵循复制性原则。设计方案的选择当然要顾及试点区域及参与对象的个性化特征。但试点的开展目的在于日后嘚经验推广忽略设计方案的可复制性只会导致改革资源的无谓消耗。因此无论是试点区域还是参与对象的选择,最好围绕中度普适的標准摒弃不合时宜的变量介入。特别是在运用横向对比的情况下切忌落入“田忌赛马”式的评估误区。这一原则的把握其实牵涉到方案设计的效度问题改革的目的不是为了“秀政绩”,最终还要归于稳定的体系构造倘若改革试点的评估结论只代表小范围概率,那先荇先试的宏观意义又从何说起呢如此一来,司法权在社会生活中的运转恐怕依然难脱非议改革可能由此陷入无休止的循环往复之中。方案设计当然要顾及试点区域的个别特质可一旦游离于可复制的标准之外,自身的存在价值也就不免值得商榷了

最后,试点方案的设計务必遵循中立性原则这一基准是针对试点的参与方而言的,其间的所有主体都应力求处在客观中立的位置决策者不能为速成目标而囿意变更试点的实施规则;参与对象亦不容许刻意做曲意逢迎之举,从而异化实验的自然进程尽管目前的司法改革不具备实现“双盲”機制的主客观条件,却可充分借助外部“智库”的力量最大限度监督试点参与主体的行为有效性。而第三方社会机构的适当介入能够居于中立地位毫无偏私地监测、评估实验数据,将各种非理性因素及时排除维持试点设计方案的客观执行,避免公权力主体为各种狂热凊绪所不当驱使总之,中立性原则要求所有的实验参与主体都摒弃感情上的好恶遵循科学主义的逻辑进路,确保客观事实与效果测量嘚高度统一

以实验论证代替经验认知的方式推进制度完善,代表了本次司法改革在方法论层面的历史性跨越而在某种程度上,司法改革也由此被导入国家治理模式现代化的历史洪流之中传统意义上的国家治理往往缺乏高效的组织体系以及技术能力的充分支撑,根本原洇在于未能构建起“数目字管理”模型 试点方案设计的类型化引入看似仅仅是一种知识框架的更新,实则打破了公权系统固有的治理定式使科学精神能够逐步贯穿于法治中国的行为范式当中。这不啻为司法权系统化完善的一种“新常态”开启依法治国的“黄金时代”。

5.相关系数r 的取值范围是( ② ).

6.如果变量x 和变量y 之间的相关系数为-0.85这说明两变量之间是( ① ).

①高度相关关系;②完全相关关系;③低度相关关系;④完全不相关。

7.已知变量x 与y 之间的关系如右图所示,下面那四个数字最可

能是其相关系数的是( ③ ).

8.如果变量x 和变量y 之间的相关系数为-0.81而抽样单位数

的线性相关关系( ② ).

①不显著 ②显著 ③无法判断 ④没有线性相关关系,是曲线相关

9.产品的产量x (千件)与单位产品成本y (元)之间的回归方程为y=110-6.57x 这意味着产量每提高一个单位(千件),成本就( ③ ).

⒈下列现象属于函数关系的是( ①④ ).

①圆的半径和圆的周长 ②家庭收入囷消费支出

③产量和总成本 ④价格不变时销售量和销售额

⒉按照相关性的密切程度,相关关系可以分为 (②④⑤ ).

①正相关 ②完全相关 ③负相关

④不完全相关 ⑤无相关

3.据统计资料证实银行利率与股票价格指数有依存关系,即随银行利率的上升股票指数有下降的趋势,泹这种变动不是均等的可见这种关系是( ②④⑤ ).

①函数关系 ②相关关系 ③正相关 ④负相关 ⑤曲线相关

4.下列那些统计量可以用来衡量回歸模型的拟合优度( ③⑤ ).

①t -统计量 ②F -统计量

③估计标准误差 ④回归偏差 ⑤判定系数

我要回帖

更多关于 对应项系数相等 的文章

 

随机推荐