【清华路径】庞珣:全球治理中“指标权力”的

  原标题:【清华路径】庞珣:全球治理中“指标权力”的选择性失效-基于援助评级指标的因果推论

  自20世纪90年代以来,国际上各种复合型评估指标体系急速涌现。它们涉及全球治理的各个方面,对政府及其他行为体在全球治理中的政策效果和行为表现进行评估和评级。全球治理指标在数量上快速增长、在重要性上日益凸显,形成了国际关系中区别于传统权力的新型“指标权力”,受到学界和政策界的广泛重视,甚至被誉为开启了“循证型全球治理”的新范式。现有研究将指标权力理解为由信息、技术和知识带来的客观影响力,致力于追踪它在全球治理各个领域留下的权力印记,但却忽视了谨慎区分指标本身的新型权力和指标背后的传统权力,有可能夸大和理想化指标权力在全球治理中的作用。作者以世界银行独立评估小组多年来持续发布的援助效果评级为案例,研究其对世界银行援助分配的因果效应。传统统计检验和计量模型分析的结果显示,评级与决策具有密切而稳定的关系。然而,如果运用倾向性得分匹配法对独立评估小组评级的偏向性进行纠正,则会发现这种关系并不等同于指标权力的影响,而是指标背后的权力与政策考虑以前者为载体影响了世行的援助决策。作者运用因果推论方法在实证上严格区分了指标权力和指标背后的权力,旨在以世行独立评估小组的外援评估和世行的外援决策之间的因果效应推论来管窥指标权力的选择性失效现象和特定主体成功逃脱指标权力的选择机制,推动和深化对全球治理中的指标权力的理解。

  自20世纪90年代以来,国际上各种复合型评估指标体系急速涌现,涉及全球治理的各个方面。它们对各国政府和其他行为体在全球治理中的政策效果和行为表现进行评估和评级,形成了国际关系中区别于传统权力的新型“指标权力”,受到学界和政策界的广泛重视,甚至被誉为开启了“循证型全球治理(evidence-based global governance)”的新范式。指标权力令人瞩目,甚至会产生轰动性新闻,例如标准普尔对美国主权信用评级的历史性降级就曾引起轩然大波、触发了美国政治与政策的连锁反应。不过,指标权力在更多时候却是一种静悄悄的权力,它通过改变观念、影响判断和积累社会压力而最终影响人们的决策和行为。

  从私人评级机构到国际组织和主权国家政府,全球治理中的各类主体都深切感受到指标的作用和威力,因此也纷纷开发和传播自身的评估和评级指标体系,以期对全球治理的议程设置、规范演进、决策过程和发展方向施加影响。值得注意的是,随着近年来中国以更积极、更自信的姿态参与全球治理并力争更大的话语权,中国的政府机构和各类智库也在踊跃研发和发布指标体系,积极参与围绕指标权力的国际竞争。

  伴随指标权力的产生和发展,国际关系学界掀起了对各类全球治理指标的研究热潮,从理论和实证上推动了对指标权力的理解和分析。指标权力被普遍认为是建立在结构化信息与专业化知识之上的权力,在权力基础和行使方式等各方面显著区别于国际关系中的传统权力。学者们致力于识别指标权力的生效机制,并在实证上寻找指标权力发挥影响的印记。

  然而,一个明显却遭到忽视的事实是:指标虽然表面上具有客观性、在权力的行使过程中似乎并无特定的指向,但事实上却是一种精心设计的权力,而生成指标的评分分配过程也无疑是政治和社会过程。这一过程或许无法精确算定谁将受制于指标权力,但却可以通过设计分配机制实现特定主体的“权力逃脱”,即通过设计使指标权力出现选择性失效。

  相对于研究全球治理中指标权力如何有效,对其失效的研究其实更具深刻的国际政治意义。正如米歇尔·福柯(Michel Foucault)所言,要理解权力关系就更应考察“解散这些关系的诸多努力”对“逃脱的手段”进行考察。我们考察全球治理中指标权力失效的情形,有助于区分“指标权力”和指标“背后的权力”在全球治理中所具有的截然不同的政治与政策含义。指标权力可以看作是信息、知识与技术带来的新型权力,而指标背后的权力则可能让指标沦为传统权力的新型工具。难以否认,指标充满了上述两种权力的斗争与妥协,但更重要也更有趣的问题是:指标在何时、对于何人是权力,又在何时、对于何人是工具?

  从研究方法的角度来看,回答这一问题的关键是要分离决策和行为中“指标权力”和指标“背后的权力”产生的影响。这就要求深入挖掘和严肃思考指标的“选择机制”——在指标的生成过程中,具有评判意义的数字如何进行分配,在多大程度上受到外部权力的左右与政治考虑的掣肘?在剔除这些由指标背后的权力带来的选择偏向性之后,那些看似指标权力的所及范围之内是否还呈现出了指标权力的清晰印记?经验观察、相关性分析以及传统的计量模型分析均无法胜任这一艰难任务。这要求运用严格的因果推论方法来纠正指标选择机制的倾向性。

  本文以世界银行独立评估小组(Independent Evaluation Group)多年来公开发布的外援项目执行情况评级指标(以下简称IEG评级)为切入点,对指标权力的表象及其背后的分配机制所导致的权力失效进行理论和实证分析。发展援助是全球治理中重要而活跃的领域,而IEG评级则是该领域中最富声誉的指标体系。关于权力印记的搜索范围,本文着眼于IEG评级对世界银行援助分配决策的影响,原因在于世行决策是这一指标权力看似最直接的所及范围,但由于IEG与世行的隶属关系,又存在通过选择机制而成功逃脱指标权力的可能。

  本文首先运用传统定量分析方法,发现世行援助决策与IEG评级之间具有高度的相关性,多元回归分析所揭示的“因果联系”也十分稳健。进而,本文之后运用因果推论方法,在纠正IEG评级背后的分配机制偏向性之后,却发现世行援助决策与IEG评级的因果联系随即消失,在实证上未发现IEG评级对世行援助决策有任何因果效应。本文的研究区分了全球治理研究中热议的指标权力和遭到忽视的指标背后的权力所带来的决策影响,发现指标权力在全球治理中的影响可能远不如直观所见,当今的全球治理离真正的循证型全球治理模式仍有很大差距。

  “指标既是一种知识形态又是一种治理技术,它们提炼全球治理中的现象和问题,将其概念化并引导人们去想象相应的应对之术。”信息、知识和技术对于全球治理的重要性不言而喻但专门知识、实地信息和专业评判的分享往往局限在特定领域中的特定人群之间。指标将有关高维世界和复杂行为的信息进行结构化、简化、分类、量化和排序等技术处理,向全球治理中的机构、群体和个人传递低成本、简明扼要、易于比照的信息,极大提高了信息的易得性和易懂性,空前扩展了指标化的专门信息和专业判断在全球治理中的影响范围和能力。

  随着全球治理的深入发展,各种评估指标体系应运而生,覆盖全球治理的各个议题领域。根据联合国研究报告最近一次的统计数据,截至2011年,全世界共有290个与全球治理相关的评估指标体系,包括86个经济指标体系、32个教育指标体系、28个环境指标体系、42个治理指标体系、14个健康卫生指标体系、63个生活质量指标体系和25个其他指标体系。与2005年有确切统计数字的135个指标体系相比,短短6年中就增长了1倍多。

  全球治理的评估指标频频出现在媒体报道、和国际组织报告中,不但进入了公共和私人部门的决策过程,也成为大众关注的话题。学界将评估指标在全球治理中的可见度和影响力称为指标权力,并称赞这种非传统的权力开启了循证型全球治理的崭新模式。不同于国际关系中的传统权力,指标权力的目的是治理,是被理性化和精心制定的权力,其内在逻辑是知识与权力之间微妙而紧密的联系。

  围绕指标权力的哲学、法学和政治学探讨认为,指标权力具备标准化、说服性和政治化(或去政治化)的特征,建立在知识的客观化、身份的主观化和权威的合法化之上,其本质上具有裁量性、标杆化和可比较的特点,在一定程度上具备“法”的形态和性质,具有类似“法”的权威和权力。

  在现有庞大的评估指标网络中,不同的指标体系在可见度和影响力上差距显著。指标权力的大小受到指标的技术质量、发布者的权威性和声望、指标的传播方式和覆盖范围以及指标是否易于进行横向和纵向比较等因素影响。通过案例研究和定量分析,研究者们发现指标在促进政府治理、制定打击国际人口贩卖政策、改进国际投资环境、增强国际安全等全球治理领域中发挥了重要作用,为指标权力的效力提供了实证依据。

  然而,现有研究把指标权力视为无主权力,其没有特定的所有者,即使是指标的制定者也无从操控指标权力。因为操控行为一旦为人所知,就会动摇指标权力赖以产生的根基,指标在其可信度和声誉遭到损害后将失去权力。

  因此,指标权力的悖论、同时也是它的迷人之处就在于,只有当它是无主的时候,它才是有效的,它诱人但却无人能够拥有。当然,人们并非天真地认为指标的生成是一个纯技术的客观过程。相反,绝大多数人承认这个过程充满了政治色彩和政策考虑,不可避免地带有偏向性。

  但现有研究在考察关于指标权力如何生效、不同指标权力为何差异悬殊的时候,则令人费解地完全忽视了指标生成过程中的选择机制及其影响因素,将指标权力与指标背后的权力混为一谈。全球治理中政策或行为的改变究竟是源自指标权力还是指标背后的传统权力?这一区分之所以重要,是因为它揭示和比较了全球治理中传统权力和知识技术的影响和作用,能够避免夸大指标在全球治理中的客观性。

  指标权力是精心设计的权力。指标既是权力的来源又是权力的载体。指标制定者和影响这一过程的其他行为体能够通过对客观现实进行“合情合理”的选择(如指标构成要素的选择)与简化加总(指标权重和加总规则的设定)来选择和设计指标权力的实施范畴和作用对象。指标生成过程的选择机制代表了优劣判断的相对数值在不同评估对象之间的分配及其原因。通常情况下,指标的制定者会不同程度地公布赋值规则和复合型指标的构成成分,有的甚至会公布计算公式。

  然而,指标的成分选择、权重选取和加总规则的制定体现的是指标制定者所持的价值取向与对现实的感知和考虑。这些主观因素渗透和贯穿了指标生成的降维、简化和复合过程中,有时可以被细致的观察者洞察,但更多的时候它们无处不在却不着痕迹,可以被怀疑却难以被证实。制定者固然可以直接控制指标选择机制,那些将受指标权力影响、制定者又需要顾及的群体也可以直接或间接影响这一过程。

  指标制定者需要事先考虑指标的可能作用对象,包括是否能够推进某种全球治理方向和政策,由公式计算出的指标赋值是否会伤害那些本应扶持的对象,或者指标权力是否对有权势的行为体带来尴尬最终会给指标制定者带来麻烦。尽管对指标权力背后的选择机制的直接研究还较为匮乏,但在文献中已经存在关于主权评级影响因素的大量实证研究。这些研究的出发点不仅是要复原评级机构以商业秘密为由而未完整公布的评级公式,更是意欲挖掘出评级机构在公式背后所隐藏的价值倾向、权力作用和政策考虑。

  探究指标背后的选择机制可以窥见全球治理中传统权力与指标权力的相互关系与冲突。本文研究选择机制的着眼点在于强调现有研究对指标权力存在夸大的可能,并对循证型全球治理时代是否到来提出谨慎怀疑。区分指标权力和指标背后的权力的影响是评价前者的必须与关键。现有研究大多积极寻找指标权力留下的实证印记,但是忽略了这些印记很可能也来自指标背后的力量。本文与现有研究的重大区别在于并非着意探寻指标权力有效的实证证据,而是要捕捉选择机制让指标权力看似有效、实则失效的情形。正如福柯所言:“没有反抗点就不能存在权力关系,而反抗,其定义,即是逃脱的手段。”

  发展援助是全球治理的重要领域。各援助方在援助的有效性、透明化、责任制和可预见性等基本理念、原则和规则方面达成了一定共识。其中有效性在所有治理标准中处于首要位置,提高透明度则是通过公开和共享援助决策、行为和绩效信息,增强内外监督和社会压力,来实现和提高援助的有效性。然而,对外援助不但带有强烈的人道主义色彩,而且也是高度政治化的议题领域,这使得透明度和责任制等规范原则在实践中难以贯彻。人道主义考虑和政治因素决定了对外援助的透明化进展缓慢,对其有效性的评判也难以遵循简单的“投入—产出”原则。

  虽然援助方会在不同程度上公开援助金额,但在更具争议的援助效果方面,透明原则近乎形同虚设。援助方担心一旦公开评估援助效果,将很难控制指标权力,从而对援助决策带来压力。这可能导致资金来源的减少,使得援助政策与决策偏离政治初衷和人道主义原则。因此,援助的透明化反而可能带来与其目标背道而驰的结果。相关经验也在一定程度上证实了这种担忧。例如美国政府下属的千年挑战公司(The Millennium Challenge Corpora-tion)在公开发布对援助的评估结果后,持怀疑态度的公众和政治家就利用其指标对美国政府施压,要求大幅削减援助资金。

  有趣的是,在发布援助效果评估方面,世界银行似乎是一个例外,毫无此类顾虑和不快经历。世界银行长期致力于提高对外援助的透明度和有效性,其中一个广获赞誉的大胆举措就是在1973年成立了针对对外援助执行效果的独立评估小组,并向全球公开评估结果。世界银行也因此成为目前全球仅有的两个公开发布援助效果标准化评级的援助机构之一。事实上,IEG评级并未如普遍顾虑的那样让指标发布者受困于指标权力。这是因为世界银行的对外援助政策和决策完全遵循了IEG评级的指标权力,还是世界银行通过IEG评级的选择机制成功从中逃脱?

  世界银行的援助项目几乎遍及全球所有的发展中国家。其援助项目协议一经签署并由董事会批准后,即由受援国政府负责实施。当援助项目完成或者中止两年后,世界银行下属的IEG就会评估项目的执行并给予评级。IEG成立于1973年,是世界银行中由专业人士组成的独立机构。为保持独立和中立,IEG只对董事会负责,其人员不得在世界银行其他机构任职。IEG的宗旨即为评估世界银行援助项目的有效性、受援国对项目的执行情况以及援助对受援国发展的长期影响等。IEG定期向世界银行提交评级报告,用于援助决策和执行。此外,还通过公开数据库向全球公众发布,并按季度更新。评估等级共有六档,属于正面评价的为“非常满意”“较为满意”和“满意”三档,属于负面评价的为“不满意”“较为不满意”和“非常不满意”三档。

  IEG评级几乎拥有构成强大指标体系所必需的所有条件,理论上看应当拥有强大的指标权力。第一,发展援助是一个敏感性高、政治色彩强且富有争议的全球治理领域。在这样的领域中,指标在政策角力中可以发挥更大的作用。第二,IEG是一个在独立性和专业性上都具有较高信誉的指标制定机构,更何况世界银行本身在全球治理中就具有高可见度和突出声望。第三,IEG评级可以依靠世界银行强大的数据库平台在全世界传播。世界银行的数据库在学术界、政策界和媒体均有较大影响力,其庞大的指标系统通过世界银行的指标发布平台广泛传播。在世行具有规模效应的传播网络中,IEG评级也具有相当高的可见度,已经成为研究援助效果的权威数据库。第四,从指标的质量上看,IEG评级也有其独立标准。它可以独立评估世界银行援助项目的《执行完成报告》(Implementation CompletionReports)并选择性地进行实地调查,形成评估结果。第五,从可比度来看,IEG评级体系对20世纪80年代以来世界银行发放的超过11260个援助项目进行过评级,涉及177个国家和地区,具有良好的横向与纵向可比较性。第六,IEG指标作为全球少数几个援助效果评估体系,几乎没有竞争者,不会有同领域的竞争性指标来削弱其指标权力。因此,在理论上可以预期IEG评级应当具有较强大的指标权力,理应在援助决策和执行上拥有显著影响力。

  然而,IEG评级并没有在政策界激起太大波澜。世界银行通过发布IEG评级提升了自身的透明度和声誉,但并未因此受到公众的批评、利益相关方的责难以及其成员国据此对世行援助政策施加的压力。理论上,IEG评级作为全球治理领域中的重要指标应当极具争议性,但实际上它不仅是“静悄悄”的权力,甚至可以说是不动声色。

  诚然,对指标权力的直观感受与它是否具有实质影响之间可能存在相当大的差距,并非只有引起喧嚣和震荡才能体现权力,不着痕迹反而可能更为强大。更何况,指标权力的作用途径可以多样、间接,要把结果的改变追根溯源到某一指标上是相当困难的尤其是那些宏观的、覆盖多个治理领域的指标(例如治理指数等)。但是仅就援助评估指标而言,其权力印记却理应相对清晰。

  这一指标的权力指向明确,作用对象较为容易识别。无论指标通过何种因果机制发挥作用,其最终还是要体现在是否能够影响到相关各方的决策和行为上。其中,最为容易识别的因果效应应当是对直接关联机构的决策影响。因此,本文选择分析IEG评级在世界银行援助决策上的权力表现,并区分其权力印记是源于指标权力本身还是指标的选择机制偏向性所反映出的传统权力考虑。

  IEG评级是目前为止对外援助领域中历史最长的效果评估指标体系。至2015年,其总共评估了11260多个世行援助项目,以此构建形成了一个大型的评估数据库,拥有6500多个支撑来源文件和分析报告。IEG声称其评估标准是将援助成果与项目目标进行对照,此外还要考虑援助的目标和执行设计是否合理、援助的使用效率等因素。

  图1显示了IEG评级的大致分布情况。“较为满意”和“满意”出现频率最高,分别占被评项目总数的25.608%和40.675%,两个等级的加总比例高于65%。“非常满意”的出现频率很低,仅占3.962%,而“非常不满意”的比例更低,只有1.715%。同时,“较为不满意”占10.215%,“不满意”占16.055%。总体而言,IEG在给予不满意类型的评级时较为保守,三个“不满意”指标的使用量占27.985%,远低于满意类型所占的70.245%。两者在使用频率上差距悬殊,其原因可能在于IEG考虑到指标权力的影响,对给予负评价更为谨慎。

  国际开发协会(International Development Association)和国际复兴开发银行(The International Bank forReconstruction and Development)是世界银行下属的主要援助决策和执行机构。AidData数据库报告了截至2012年这两个机构对各受援国每年的承诺金额。简单的数据分析显示,IEG评级与世界银行的援助决策具有高度相关性。如图2所示,从1991年到2012年,在前一年的援助项目评级中获得正面评价的受援国在当年获得的世界银行援助承诺的平均金额为5276万美元(以2011年美元计),而获得负面评价的国家的平均金额为2481万美元,前者是后者的2.12倍。双样本t检验的结果显示,t值为5.547,p值为4.458e-08。在统计上,这说明前一年获得正面评价还是负面评价评级所对应的当年获得的世行援助承诺金额具有显著差异。

  当然,相关关系不等于因果关系。IEG评级与世行对外援助承诺金额的高度相关性并不等于IEG评级指标的权力表现。多元回归分析常常被认为是“排除他因”的分析方法,可以更清晰地观察到IEG评级与世行决策之间的关系。因此,本文进而采用多元回归模型加以分析。为了克服援助承诺金额分布的长尾和正值问题,因变量将取对数尺度。自变量将IEG评级分为正面评价和负面评价两大类,为两分变量。根据避免内生性问题的要求,控制变量将挑选那些有可能与自变量和因变量同时相关的变量:受评援助项目的自身特征,包括援助项目的金额和时长;受援国的总体状况,包括人口数量、宏观经济条件(根据受援国的金融动荡和外商直接投资流入量测算)、政府治理水平(根据婴儿死亡率和资源租金占国民生产总值比例这两个变量来测算)、可能导致世界银行援助出现分配倾斜的政治因素考虑(根据受援国的政治制度、受援国与世行主要捐赠国的政治和历史关系等来测算)。表1报告了回归分析的结果,四个包含不同控制变量的模型均显示IEG评级与世行决策存在统计上的显著关系,且负面评价会带来更低的世行援助承诺金额。这一结果具有相当高的稳健性,控制变量的不同并没有影响IEG评级的参数估计值的统计显著性。

  然而,回归分析在本质上仍然是相关性分析而非因果分析,所谓“排除他因”实际也不过是“排除其他相关关系”。因此,IEG评级和世行决策在模型中呈现的依然是“其他相关关系”之外的相关性。回归模型自产生之日起即是研究相关性的工具,对回归模型赋予因果解读不仅武断而且牵强。以多元回归为代表的计量模型常常被视为能够创造出“其他条件不变(ceteris paribus)”的环境,以用于因果研究。

  然而这种所谓的“其他条件不变、只有自变量变化”的环境是人为赋予的,多数时候统计方法并不能实现实验室中的严格环境控制。更为重要的是,即使可以在回归模型中加入控制变量,其对于选择机制造成的偏差依然无能为力。这意味着回归分析无法剥离和区分IEG评级及其暗含的选择性因素对世行决策的影响,无法确定两者间的因果效应。为了解决这一问题,需要借助以反事实理论为基础的严格因果推论法。

  历史上最早用反事实理论来明确定义因果关系的是大卫·休谟(David Hume),而对因果关系进行反事实详尽分析的代表人物则是大卫·刘易斯(David Lewis)。由于反事实在本质上是未发生、不可观察的,因此用反事实理论来进行因果思考和分析虽然受到推崇,但却一度被认为是一种理论思考方式而非实证分析方法。其实早在20世纪初期,实证研究中就开始利用反事实理论进行因果分析。当时的统计学家耶日·奈曼(Jerzy Ney-man)和罗纳德·费希尔(Ronald Fisher)等就在反事实理论基础上建立了因果推论方法。他们强调的对照实验方法和随机分配原则被广泛运用于自然科学的因果分析之中,但是由于可行性问题其对社会科学影响甚微。

  直到20世纪60年代,统计学家唐纳德·鲁宾(Donald B.Rubin)及其追随者保罗·罗森鲍姆(PaulRosenbaum)等人才从理论上证明,通过对原因分配机制的分析和纠偏,非实验性研究也能够进行严格的反事实因果推论。不仅如此,他们还发明了分配机制的纠偏方法,为后来者的不断创新及其在实际研究中的广泛应用奠定了基础。鲁宾等人的工作在社会科学的因果研究领域引发了革命性影响,带来了之后的“信度革命”使得相关研究转向寻找和设计反事实,带来了社会科学中因果关系的定义更为严格、识别也更为谨慎的新局面。

  根据因果推论理论,IEG评级对世行援助决策的因果效应可以用简单的数学公式来表达:

  其中δit是IEG评级对世界银行对i国在t年援助承诺金额的因果效应,定义为当i国在t-1年被IEG评级为负(Ti,t-1=1)的情况下在t年得到世行援助承诺金额Yit(Ti,t-1=1),减去当i国在t-1年被IEG评级为正(Ti,t-1=0)的情况下在t年所得到的世行援助承诺金额Yit(Ti,t-1=0)。

  因果效应的这一定义之所以比日常理解更为严格,是由于其要求对比同一国家在同一时间处于不同评级状态下的不同结果。如此,任一国家i在同一时间点t-1上要么被负评价(Ti,t-1=1),要么被正评价(Ti,t-1=0),只可能处于其中的一种状态,而不可能同时得到两种截然相反的评价。因此,在Yit(Ti,t-1=1)和Yit(Ti,t-1=0)之中,只能有一个是“事实”,而另一个则是“反事实”。在实证上,研究任务就是用观察到的结果来估计δit的均值δ=E(δit),这一估计值可以是样本均值:

  从公式(2)可见,在实证上得到因果效应的估计值δ︿存在一个根本性困难:那就是需要同时观察到yit(Ti,t-1=1)和yit(Ti,t-1=0)。在同一国家和同一时间上,这两个量中必有一个是无法观察到的“反事实”,这即是因果推论中的“根本难题(the fundamenta lproblem incausal inference)”。

  解决这一根本难题的途径就是寻找或建构出反事实。方法之一是进行随机对照实验,这也是因果推论的黄金标准。设想我们如果能够在各国的各时间点上将IEG的正负评级进行随机分配,就可以阻断其他因素与IEG评级之间的联系,保证世行援助决策与IEG评估之间的因果联系(如果存在的话)不受任何因素干扰。这一方法奏效的原理是,如果我们将国家随机分配到“负评价组”和“正评价组”,那么随机性能保证两组在其他各方面的平均特征相似,因而从整体上看两组的唯一差异就在于IEG评级不同。

  于是,这两组国家就可以被视为互为反事实,从而解决因果推论中的根本难题。然而,在各国的各年份随机分配IEG评级,不但缺少操作可能,而且也从根本上破坏了指标权力的根本基础。随机分配评级将严肃的评级变为了随意的标签,很难想象能够进行这样一场实验而不改变IEG指标权力的产生机制和作用前提。这种因果推论的困境在社会科学研究中非常常见。随机实验不仅在技术上不可行,而且在理论上也不可取。

  解决因果推论根本性难题的第二种方法就是运用观察到的数据进行“事实—反事实”匹配。鲁宾对现代因果推论的卓越贡献就是在理论上证明了完全可能从非实验性数据中得到因果推论,并提出了分析和纠偏原因的“分配机制(assignment mecha-nism)”的方法。通过这一方法,可以使用匹配技术获得合理的近似反事实。尽管IEG的正评价和负评价绝非随机分配,但如果我们仔细研究那些影响IEG评级分配的因素,就可以将分配因素考虑相似但在事实上得到相反评级的一对或者两组观察量匹配为“事实—反事实”,从而排除那些由指标背后的权力因素和政策考虑对世行援助决策的影响,把指标权力的因果效应从其他影响中分离出来。

  IEG评级在理论和实践上都不可能在受援国之间随机分配,但是评级指标数值的分配机制却可能模糊IEG评级的指标权力与世行对外援助决策之间的因果关系。除了援助项目的实际执行状况和效果之外,IEG在评估过程中还可能掺杂着其他政治与政策考虑。这些考虑将以评估指标为载体,作用于世行的援助决策。

  如果不进行严格的因果分析,实证观察很有可能将指标背后的权力与指标权力本身的影响混为一谈,夸大(或低估)IEG指标的权力。本文根据IEG评级的“倾向性得分”来匹配“事实”与“反事实”。倾向性得分匹配法是一种常用的因果推论方法,即先估计出多种因素影响下获得负评价的倾向性得分,继而根据倾向性得分进行匹配,以纠正由选择机制带来的偏向,为无偏的因果效应统计估计创造前提。

  第一步,对IEG评级的选择机制进行考察,分析目标是得到如下概率的估计值:

  其中pit是i国在t年被IEG负评价(Tit=1)的概率,称为“倾向性得分”。这一概率与多因素X相关,因此表达为条件概率P(Tit=1X),作为条件的X又称为“预处理变量(pre-treatment variables)”。预处理变量在逻辑上应发生在“处理”(IEG评级)之前。可以运用常规的logit或probit统计模型进行估计,得到倾向性得分的估计值^pit。

  第二步,根据实际观察到的指标分配情况,将样本分为“负评价组”和“正评价组”。再根据第一步得到的倾向性得分,将两组中的单元进行跨组匹配。这种匹配可以是“一对一”匹配,即为负评价组中的每一单元匹配一个正评价组单元作为反事实;也可以是“一对多”匹配,即在正评价组中挑出多个单元,将其加权平均后匹配给负评价组中某一单元作为反事实;匹配还可以是“小分类匹配(subclassification)”,即根据倾向性得分区间将两组中的观察单元划分为不同小类,在小类之间匹配。

  第三步,检查匹配后样本的平衡性(balance-checking)。根据倾向性得分理论,匹配后的负评价组和正评价组中的单元应当在倾向性得分和所有预处理变量X的分布上彼此相似,即平衡性。平衡性是指两组观察单元互为反事实的合理程度。两组的平衡性越高,说明匹配对IEG评级分配机制的偏向性纠正得越好,对因果推论中选择偏差的影响的修正越好。如果匹配后的平衡性不佳,则说明没有达到匹配纠偏的目的,需要重新估计倾向性得分或者选择其他匹配方法。

  第四步,在获得满意的平衡性后,根据匹配后的样本估算出IEG评级对世行援助决策的因果效应,可表达如下:

  其中M是匹配后的“事实—反事实”对的数量。我们可以使用匹配后样本重新估算参数模型,并在此基础上模拟反事实,也可以通过非参数方法直接计算。使用参数模型模拟法可以在匹配后进一步纠正偏差,是非精确匹配下的更好选择,也是本文采用的方法。

  本文运用倾向性得分匹配法得到了IEG评级对世界银行援助承诺金额的因果效应。其中关键在于纠正了IEG评级中的选择偏向性,将指标权力与指标背后的因素对世行援助决策的影响加以区分。因果推论的结果发现,IEG评级对世行援助的承诺金额分配并无可见的因果效应。这一发现显著区别于相关性分析和多元回归模型的发现,说明IEG评级指标与世行援助决策之间的紧密联系只是表面现象,实际上背后的权力和政策考虑才是影响世行决策的真正因素,IEG评级并非决定援助决策的真因。

  在考察分配机制时,本文假定该机制既是一个技术评估过程,又是一个政治和政策过程,指标权力的设计者和潜在作用对象有可能通过直接或间接的互动甚至是无声的谅解和期望将政治压力、政策原则和其他考虑纳入机制之中,从而对指标权力进行修剪,使其具有选择性有效或失效的偏向。那些能够影响选择机制的主体在将自身的权力与政策考虑注入分配机制后,就能在一定程度上逃脱指标权力。

  本文对影响IEG评级分配机制因素的选择着眼于它们可能带来的偏向性,以期在纠正偏向性后能够准确识别IEG评级的指标权力是否对世界银行的援助决策具有因果效应。援助项目的金额和时长不但可能影响项目的客观效果,也可能影响IEG在评级时的主观倾向。比如,金额大、耗时长的项目可能更加重要,世行也或许对其抱有更高期待,因此IEG在评估这些项目时可能存在系统性的差别对待。受援国的社会状况、治理水平、经济条件以及是否遭受金融动荡冲击等都很可能是影响项目执行的客观因素,但是它们也反映了这些国家对援助的需要程度,可能同时影响到IEG评级时的主观判断。

  援助应当按照需求还是绩效分配一直是发展援助中争论不休的原则性问题,而在实际操作中往往要考虑两者的平衡。IEG评级虽然在表面上着眼于“有效性”原则,但其指标分配的实际体系却同时受到两者的影响。禀赋较差的国家在援助执行上可能更加不令人满意,但从人道主义的角度出发这些国家却更需要援助。为了不让这些国家过多受到指标权力的负面影响,IEG有可能相应调整了评级的指标分配。

  另外,IEG在分配评级指标时,除了考虑世行的政策需要,还可能对世行背后的政治力量有所顾忌,例如需要照顾世界银行的主要捐助国的利益。对于和主要捐助国有特殊关系的受援国,如果IEG发布的评级导致了它们难以获得援助,捐助国也许会通过调整捐助金额来施力,影响世行的援助政策。在这方面,本文加入了两个预处理变量,即是否为世行五个最大捐助国的前殖民地或者盟国。

  本文运用预处理变量、采用logit模型对IEG评级的选择机制进行统计模型估算,得到负评价组和正评价组的“国家—年份”倾向性得分。图4第一列的两个柱状图呈现了原始样本中两组的倾向性得分分布。两个分布均向左偏移,都具有长尾。获得正评价的观察量远远多于获得负评价的观察量,前者共有658个,而后者只有127个。正评价组的倾向性得分大部分集中在0.1到0.3之间,而负评价组在0.05到0.4之间。两组的倾向性得分在分布上具有显著差异,这表明IEG评级具有偏向性选择。如果不矫正这些倾向,就会模糊IEG评估和世行援助决策之间的因果关系。

  在得到倾向性得分之后,下一步即要调整和纠正选择机制的偏向性。本文运用了最近似匹配法(nearest matching)和小分类匹配法(subclass matching)两种方法,分别进行“事实—反事实”匹配。图4中第二列柱状图是最近似匹配后得到的负评价组和正评价组的倾向性得分分布,可见匹配后两组的分布非常相似。第三列是小分类匹配的结果,图中的灰色竖线是倾向性得分的区间划分,共分为六个区间,相同区间里的观察量构成一个小分类,不同小组中处于同一区间的小分类则互为反事实。图5是两种匹配的散点图,图中的每一个点都是一个观察量的倾向性得分。左图为最近似匹配:其中第二行是负评价组的倾向性得分分布,每一个得分对应着第三行匹配的负评价组观察量的倾向性得分;第四行为没有入选匹配的负评价组观察量;而第一行的空白则表明负评价组的所有观察量均找到了与其匹配的反事实。右图是小分类匹配的结果:竖线以倾向性分值划分了六个小分类,第二行和第三行属于同一倾向性得分区间、同一小分类的观察量,上下互为反事实。在该匹配下,“事实—反事实”不是单一观察量间的配对,而是不同组别的群体匹配。从图5可以看出,在小分类匹配中所有的观察量均得到匹配。

  反事实的定义并非仅仅要求倾向性得分相似,而是要求在各方面相似,不过依据倾向性得分仍然是进行高维度匹配的便捷方法。其重要性在于,好的倾向性得分匹配可以保证处理组和控制组在预处理变量的分布上相似,从而纠正分配机制偏向性带来的伪因果效应,使得两组能够更贴切地互为反事实。因此,在因果推论中,需要对匹配后的处理组和控制组在每一个预处理变量的分布上是否相似进行平衡性检查。只有当平衡性较为满意时,才能够进一步分析匹配数据。

  图6显示了每个预处理变量在匹配前和最近似匹配后的QQ图(quantile-quantile plot)对比。QQ图的横轴为正评价组单元在每一个预处理变量上的取值,而纵轴是负评价单元的取值。图中每一个点就是一个匹配,位置由其正负评价单元在同一预处理变量上的取值决定。图中的45度线是参照线,点越接近这条线就表明这一对由正负评价组中的观察单元组成的匹配在变量取值上越相似,也就是平衡性越高。从图6可以看出,绝大多数预处理变量匹配后的平衡性都有了较大提高,但也有一些偏离45度线较多。小分类匹配中共有六个小分类,由于篇幅原因本文不再报告其QQ图,而是将整体平衡性状况报告在表3中。

  表2报告了倾向性得分、各预处理变量在匹配前、最近似匹配和小分类匹配后的均值以及两种匹配对平衡性的改善幅度。总体来看,负评价组和正评价组的平衡性在匹配后提升较大,其中小分类匹配的平衡状况尤其令人满意。在最近似匹配中,只有受援国政治制度这一因素在匹配后差异扩大,其他因素的平衡性均有较大提升。其中,项目时长和受援国人口这两者的提升幅度相对较小,均低于40%。在小分类匹配后,两组在各个因素维度上的差异性均大幅度减小,均值高度接近,平衡性提升较大,均超过50%。总体上看,匹配后的平衡性较为令人满意。

  对样本进行匹配处理后,我们即可以估算IEG评级对世行援助分配的因果效应。由于匹配并非精确匹配,而且匹配后的平衡性也尚不完美,因此为了进一步控制选择偏差的影响,本文将运用匹配好的数据进行多元回归,并在此基础上,通过模拟计算得到IEG评级对世界银行援助决策的因果效应δ=E(YT=1)-E(YT=0)。

  表3显示了在最近似匹配和小分类匹配后得到的因果效应估计值、标准差和置信区间。根据最近似匹配后的样本,在IEG评级中得到负评价对世行援助承诺金额的影响为-0.197,即负评价带来更少的援助承诺,但是这一影响的标准差为0.120,其95%置信区间为(-0.436,0.036),说明这一因果效应的估计值不具有统计显著性。根据小分类匹配,在IEG评级中得到负评价对世行援助承诺金额的影响为-0.222,标准差为0.333,其95%置信区间为(-0.987,0.338),这一因果效应在统计上也不显著。表4报告了小分类匹配中六个不同分类内部的因果效应状况。

  从表中可以看到,虽然因果效应的估计值在六个小组中均为负且数值差异较大,但无一具有统计显著性。在本文的第二部分中,多元回归发现IEG评级对世行援助决策的影响为负、统计显著且具有跨模型的稳健性。但是在纠正IEG评级机制的选择倾向性后,结果却显示IEG评级对世行的援助承诺金额并无因果效应。这一发现也具有较高的稳健性,不同的匹配方法和同一匹配方法下的各小分类均未显现因果效应。

  为何因果分析和回归分析考虑了同样的“干扰因素”X,但是得出的结论却不同?主要原因有两个。首先,在因果推论中匹配是对“事实”和“反事实”的组合,因果效应就是事实与反事实之间差距的期望值,而不是整个样本“在其他不变而T从0变到1的平均效应”。因果推论将因果效应定义在反事实的基础上,而多元回归则并非如此理解,因此两者的分析结果存在巨大差异。

  其次,更为重要的是,既然X是影响指标分配机制的因素,即p(T=1)=f(X)+ε,那么从理论和逻辑上看,回归模型中“其他条件不变(ceterisparibus)”的设定是不合理的。在X不变的情况下,T改变的可能性并不大。因此,回归模型对于结果显著性的因果解读不能成立。传统以多元回归为代表的统计模型常常被视为创造了“其他条件不变”的环境,因而被广泛用于因果研究。但是,“其他条件不变”在时间和对象上均模糊不清,即使在实验条件下也往往无法实现将所有其他因素控制不变。

  同时,那些影响分配机制的因素无法满足“其他条件不变”的回归模型要求。事实上,如果让这些影响IEG评级分配的因素保持不变,则从逻辑上规定了IEG评级分配也不可能有大幅度变化,因而诸如“其他条件不变,IEG评估从负评价变为正评价,带来世界银行的援助承诺金额的变化是……”一类的因果解读存在逻辑缺陷。之所以两种方法使用的变量相同而结果不同,正是因为一个是因果效应而另一个只是在排除其他相关关系基础上的更精确的相关关系。由此可见,反事实理论对因果的定义比我们熟知的“其他条件不变”的理解要更为严格。

  IEG评级的指标权力为何会在世行决策上失效?相关性分析和多元回归模型均显示出IEG评估与世行决策之间的紧密关系。表面上世行决策将IEG评级纳入决策,被负面评价的国家比被正面评价的国家获得的世行援助承诺金额少,但这两者之间并非因果联系。在因果效应分析中,必须注意那些同时影响IEG评级的选择机制和世行援助决策的因素,即预处理变量X。

  关于项目是否为重要援助项目、受援国是否与世行主要捐助国有利益关系、受援国是否执行不佳但却急需援助,这些考虑先于IEG评级的形成和发布,影响了IEG评级的选择机制,使得指标带有倾向性。而指标形成之后发生的因素在逻辑上则不可能再影响评级结果,因此不会带来选择偏差。在评级发布后会产生一系列影响,如图7显示评级T会影响因素Z(如舆论的压力、政治精英的观念、受援国向世界银行申诉与抗议等)或因素K(如学者对援助的纯学术研究等),其中Z又进而影响世行援助决策,而K则对世行决策没有影响。在评级发布后、世行决策前的时间段中(t1与t2)所发生的一系列中间反应都是指标权力的作用机制,不需要在因果推论中进行控制和考虑(包括K和Z)。

  同样,如果因素W能够影响世行援助决策(如世行援助资金的变化等),但是与IEG评级无关,则它们无论发生在评级之前或之后,都不需要在因果推论中加以考虑,因为W是分析系统之外的因素。此外,还可能有一类因素U在IEG评级的选择过程中发挥作用,如评级公式的技术调整、项目有效性的测量标准、项目执行信息的可得性和可信性等,但它们并不直接影响世行援助决策,而是通过IEG评级作用于结果,因此也不会产生因果推论中的选择偏差。

  要对IEG评级和世行援助决策进行因果关系推论(即T对Y的因果效应),最重要的就是要剔除IEG评级选择机制中的影响因素X对世行决策的影响,后者体现的正是指标背后(评级前)的传统权力而非指标权力的影响。如果不将X和T对Y的影响分离开来,就会扭曲T与Y的关系。本文使用因果推论法,通过纠正和控制选择机制发现IEG评级对世行决策并没有因果效应。如图7右图所示,IEG评估(T)与世行决策(Y)之间没有直接或间接的因果联系(没有箭头将两者联系起来)。两者之间呈现出的高度相关性来自指标背后的权力和政策因素X。因素X同时作用于T和Y,势必导致IEG评级和世行决策间的高度相关,掩盖了IEG评级的指标权力在世行决策上失效的事实。表面上的指标权力实际上是由指标背后的权力和政策因素所支撑。

  从IEG评级对世行援助决策的因果效应分析可以看出,传统的实证分析方法可能夸大了指标权力的影响。指标的生成并非纯技术过程,而是政治和社会过程,其选择机制很可能因为传统权力的影响而带有偏向性。偏向性让指标背后的权力通过指标作用于全球治理的各方面,而表现出的却是指标与这些政策行为间的高度相关性。因此,在对指标权力的实证分析中,区分相关性和因果关系既困难却又极为必要,只有严格的因果推论才能还原指标权力的真正影响。

  复合型指标和指标权力是全球治理中的新现象,对其性质和影响的分析是当今国际竞争和全球治理研究的重要课题。指标数量的增多及其在全球治理中地位的上升意味着全球治理存在向理性化、法治化方向演进和发展的可能,预示着循证型全球治理的新型范式或将到来。然而,尽管指标权力在全球治理各个领域都显示出了显著效力,但现有分析却没有区分权力印记究竟来自指标本身还是指标背后的传统权力。这意味着可能夸大了指标权力在全球治理中的作用,使得人们满足于指标权力的表面成功,而忽视了特定主体通过影响指标生成过程而逃脱指标权力的可能性,对循证型全球治理的公正与无偏抱有过于乐观的态度。

  本文通过分析IEG援助效果评级对世界银行援助承诺金额分配的因果效应,发现IEG在评估过程中可能掺杂着政治与政策考虑,使得指标的分配机制具有偏向性。这一偏向性制造了IEG评级对世行决策具有强大指标权力的表象,但实际上两者并无因果关系,世行的决策成功逃脱了IEG的指标权力。通过将指标信息与技术考虑之外的因素纳入指标生成过程,这些背后的权力以评估指标为载体成为影响世行援助决策的真正力量。

  如果不进行严格的因果分析,实证观察很有可能将这些指标背后的权力所带来的影响与指标权力本身的作用混为一谈,夸大或者低估IEG指标的权力。严格的因果推论方法建立在反事实理论的基础之上,需要在非实验环境下通过匹配法等设计和方法来纠正选择机制的偏向性,将指标权力与指标背后的权力的影响区分开,这能有助于发现传统定量分析所无法识别的指标权力失效的现象。本文旨在以IEG外援评估和世行的外援决策作为案例,管窥逃脱指标权力的现象及其可能机制,通过对指标权力的严格因果效应分析,提出全球治理指标的分配机制偏向性带来的指标权力的选择性失效现象,从而推动和深化对全球治理中新兴的指标权力的理解。(注释略;截稿:2017年9月;责任编辑:主父笑飞)

  文章来源:《世界经济与政治》2017年11期;国关国政外交学人微信公众号平台首发返回搜狐,查看更多