绩效评估模式泛滥与绩效不彰困境

杂志在线

最新目录本刊特稿热点聚焦公共管理学术论坛往期目录

订阅投稿登陆

正在加载中...

理事会

更多>>

最新目录

绩效评估模式泛滥与绩效不彰困境 公共管理
尚虎平赵盼盼

发布时间：2012-11-6 发布人：本站源自：本站

　　*本文系教育部人文社科基金“数据挖掘视域下我国县(市)政府绩效评估指标筛选研究”(编号：09YJC630126)、国家社科基金重大项目“幸福指数导向下我国政府绩效评估体系研究”(编号:11&ZD057)、江苏高校社科基金“县级政府绩效的公民满意度测评:面向江苏的探索性研究”(编号: 2010SJB630040)的阶段性成果。

　　［摘要］我国地方政府绩效评估出现了模式泛滥的局面，但政府绩效却依然不够理想。通过对42种模式指标体系的“直感强度”、“直感强度离中度”、“真实强度”、“真实强度离中度”的聚中、离中分析，我们发现这些模式的指标体系差别不大，只是在政治领域指标的设置上“模式”特色稍显鲜明，也有部分模式以个别指标的跳跃性赋权来彰显“模式”特色。基于这些发现，我们建议可以从国家制定共通性指标、各地依地方管理特色构造本地绩效评估指标、推行客观绩效数据挖掘以淡化“人为塑造”的痕迹、推进审议绩效评估等方面着手来破解模式“多样”但绩效依然低下的难题。
　　［关键词］绩效评估；地方政府；离中度
　　［中图分类号］D035［文献标识码］A［文章编号］1006-0863(2012)11-0018-07

　　一、引言
　　目睹西方国家政府绩效评估取得的巨大成功，我国逐渐加大了引进力度。据《中国人事报》调查，早在2007年，全国已经有三分之一的省（区、市）开展了与政府绩效评估相关的工作。2008年2月23日中央政治局第四次集体学习会上，胡锦涛总书记指出，要“推进以公共服务为主要内容的政府绩效评估和行政问责制度”，强调了要将政府绩效评价作为一项基础制度来予以推进。2010年7月20日，经中央纪委书记办公会批准，中央纪委监察部绩效管理监察室正式组建。2011年3月10日，国务院批复建立政府绩效管理工作部际联席会议制度，这标志着我国政府绩效评估的实践又跃升到了新的层面。随着这一系列改革的推开，我国政府绩效评估实践逐渐走向全国，在全国范围内初步形成了各种政府绩效评估“模式”。
　　以历史眼光来看，我国地方政府绩效评估的模式探索早在改革之初就已开始，在探索中形成了岗位责任制、社会服务承诺、效能监察、效能建设等各种形式。［1］当前，随着从国家层面开始推进政府绩效评估，全国出现了更多的“模式”，甚至可以说是“模式纷呈”，如“连云港模式”、“思明模式”、“兰州模式”、“北京模式”、“岳阳模式”，等等。应该看到，虽然 “模式”颇多，但地方政府绩效状况仍然不能令人满意。2010年，某公司曾调查了亚洲12个国家与地区的政府绩效状况，发现中国大陆地方政府仅以793的效率值排名第八，效率最高的新加坡效率值是我国的313倍。［2］唐任伍、唐天伟课题组通过对2000—2009年间不同区域政府效率的测度也发现，在我国东、中、西部的地方政府中，过去十年间中部、西部的行政效率相对都有所降低，东部地区的政府效率提升也不大。［3］与我国地方政府绩效低下相映成趣的却是各地绩效评估模式名目日益繁多，似乎每个地方都在通过绩效评估来改进绩效。这实际上是一种“模式割据”现象，每个地方只要推行绩效评估，总会冠以与其它地方不同的名号，尽管各地的治理情况并无太大区别，但每个地方却要重复再搞一套，这可说是政府管理改革中的“重复建设”问题，它造成了人力、物力、财力的浪费，阻碍了各地在政府绩效评估中的协同共进。
　　我国地方政府的绩效评估实践中的模式割据源自于改革初期，刚开始时主要是一些政府绩效评估的萌芽模式，如岗位责任制、效能监察、效能建设、社会服务承诺等，这一时期大约从改革开放始到1999年左右；中间割据时期是绩效评估规范化时期，主要有公民满意评价、第三方评价、电子政府绩效评价等形式，该时期大约从1999年到2007年；之后的时期可以界定为“模式多元割据”时期，这一时期涌现出了大量五花八门的模式，我们认为，目前已经到了需要进行一定的梳理和反思的时候了。
　　二、判断指标模式的标准
　　地方政府绩效评估模式割据的形成有其必然性。我国幅员辽阔，各地方政府在行政区划规模、地理位置、环境气候、经济发展水平、交通通讯、民族和文化背景等方面都存在较大差异，这种异质性自然会影响到各个地方政府在绩效评估改革中的探索。同时，这种绩效评估的模式割据又与主观因素密不可分。随着地方竞争的加剧，每个政府都希望突出自己的特色，彰显自己在管理创新中的政绩，哪怕两种并无二致的政府绩效评估，也要取不同的名称。本文的意图是探究这种模式割据的本质到底是什么，它是受客观条件的约束形成了确实不同的模式，还是人为地将本身并无多大区别的内容冠之以不同的模式称谓。如果属于前一种情况，则我们认为割据自有道理，而如果属于后一种情况，则是一种政府管理改革领域的“重复建设”。
　　判断异同，首先需要评判标准。从评估学角度来说，政府绩效评估是一个完整的过程，包括评估价值厘清、指标体系设计、依据指标体系获得证据数据、计算证据数据获得结果等环节。其中，绩效评估指标体系设计是最为重要的环节，它是绩效评价与绩效管理的“指挥棒”、“评判表”。［4］政府绩效评估能否有效地发挥其作用往往依取决于指标的科学性、合用性。正是从这个意义上来说，绩效指标代表了绩效评估的不同价值取向，有什么样的指标导向，就产生什么样的绩效评估，绩效指标就是判断绩效评估模式的标准。尼古拉斯·亨利曾指出: “由于评估者的偏见，评估标准模糊不清……公共部门绩效评估的可靠性和权威性受到影响。”［5］他所强调的标准问题，实际就是绩效评估指标问题。
　　地方政府绩效评估指标不仅是政绩评估的内容和标准，而且是地方政府的职责，是地方政府存在的依据。上级政府的绩效导向并决定着下一级政府的工作方向，是下级政府开展工作时必须遵循的行为准则，各级地方政府均需按照上级政府制定的绩效考核指标来安排本地的工作重点和发展重心。［6］由此可见，指标是地方政府绩效评估的灵魂，通过指标可以看出地方政府绩效评估的本质。正是基于这种判断，本研究计划从解构指标的视角来判断我国各类模式的本质，寻找它们的异同，为避免重复建设、切实提升地方政府绩效找到合适的路径。由于无法获得模式割据中的所有模式，我们只能采取“管中窥豹”的方式选择其中一部分来做典型研究，这也符合抽样统计的原则。
　　三、模式泛滥的实质
　　地方政府绩效评估模式繁多，无法在一篇论文中穷尽所有，在选取研究对象的过程中，我们主要撷取了获得过“中国地方政府创新奖”、参评过“中国地方政府创新奖”，或者被《中国政府绩效评估报告》推荐学习的42种模式，它们来自于东北、华北、华东、华中、华南、西南、西北7大区域。需要说明的是，每个地方政府并非只有一种绩效评估模式，它们为了凸显市、县、区与各类职能部门、开发区政府等的区别，开发了不同的模式。按照统计学原理来说，超过30个样本的抽样数据一般都会呈正态分布，对其进行研究能够发现一般性规律，［7］这些数据也能够使我们发现地方政府绩效评估模式割据的一般性规律。
　　从收集到的样本而言，多数“模式”都将指标体系层层分解，形成了从一级指标（指标维度）、二级指标（基本指标）到三级指标（具体指标）的三层逻辑指标体系。就评估学原理来说，在三级指标体系中，具有实质意义的只是三级指标，它们是真正有证据数据（Evidence Data）支持的评估工具，而一级指标与二级指标只具有类别的意义，更多地用来为评估之后的报告撰写做分类汇报之用。要分析指标的本质取向，只需要分析三级指标即可。本文正是基于这种判断，选取了42个模式的三级指标作为研究对象来探究不同模式的本质。
　　在审读、初步统计了所有指标的基础上，我们发现政府绩效评估指标主要聚焦在政治、经济、社会、文化、人民满意、资源环境、一票否决、加减分项目8个领域，为了考察这些指标的本质，我们决定从共性最大的这8个领域对抽选的42种模式的三级指标进行分析，这遵循了科学研究中“可比性”原则与“最大相似性”原则。［8］就收集到的模式而言，它们的指标都是这8个领域的真子集，单个模式的指标领域都没有超越这8个类别。表1是我们梳理的42种指标的具体解构情况。
　　为了探究这些指标所蕴含的不同模式的本质与区别，我们将表1中的资料作了变量化处理，形成了4个可计量不同模式异同的变量，即指标的“直感强度（ZG）”、“直感强度离中度（ZD）”、“真实强度（ZS）”、“真实强度离中度（ZL）”。
　　“直感强度（ZG）”是指特定模式下特定指标领域指标的设计数量，也就是人们看到指标之后直接感觉到该领域中指标的强度（数量强度），比如在辽宁模式中的“政治指标”领域内共有“政府能力建设”、“依法行政”、“政府效能建设”等6个指标，则该模式的“政治指标”的“直感强度（ZG）”就等于6。“直感强度离中度（ZD）”是指特定模式下的某个指标领域内指标的直感强度与我们考察的所有模式中有数据支撑的所有本领域中指标的“直感强度”均值的差，其计算公式为：ZDi=ZGi-1nni=1ZGi(n∈R+,n≤42)，它表示特定模式中该指标域指标的直感强度与所有有数据支撑的模式的相同域的平均直感强度的差距之所以此处提出“有数据支撑的模式”是因为有一些模式中没有明确区分指标域内的具体指标，或者有的只区分了部分，另外的只有笼统、模糊的说法，比如贵州模式除了明确“政治指标”域有40个指标，其他都一句话笼统带过。，其度量了单个模式中该领域与所有模式中该领域平均趋势的偏离程度。偏离均值越多，说明该模式的该指标域特色越鲜明，“模式”特性就越强。“真实强度（ZS）”是指特定模式下特定指标领域的权重，比如在辽宁模式中，“政治指标”的指标域的权重为“95分”，它就是该指标域的“真实强度”。本研究在计算过程中对百分比制的权重直接采用了原始值，对非百分比制的权重做了百分比化的处理，比如辽宁模式中“政治指标”的真实强度值=95/(95+425+285+50+70+45)*100%=98%。 “真实强度离中度（ZL）”是指特定模式下的某个指标领域内指标的真实强度与我们考察的所有模式中有数据支撑的所有本领域中指标的“真实强度”均值的差，其计算公式为：ZLi=ZSi-1nni=1ZSi(n∈R+,n≤42)，它表示特定模式中该指标域中指标的真实强度与所有有数据支撑的模式的相同域的平均真实强度的差距，其度量了单个模式中该领域与所有模式中该领域平均趋势的偏离程度。偏离均值越多，说明该模式的该指标域特色越鲜明。
　　

表1 42种模式的指标解构[1]
编号	模式	政治指标	经济指标		社会指标	文化指标	人民满意	资源环境指标		一票否决	加减分项目
1	辽宁模式	政府能力建设、依法行政等6个	沿海经济带建设等23个		办学条件改善、住房保障等17个	文化体改和产业发展等2个	农村扶贫开发、农民人均纯收入等6个	人工造林、海洋环境治理等8个		0	加分共4个；减分：共10个
		95分	425分		285分	50分	70分	45分		0	0
2	福建模式	抽象行政行为合法率等15个	人均GDP 增长率等24个		出生人口政策符合率等31个	城镇居民人均文化娱乐费支出等4个	城镇居民人居可支配收入增长率等2个	单位GDP能耗比上年下降等10个		0	0
		150	380		310	30	40	110		0	0
3	百色模式	反腐倡廉宣传教育、效管理工作等30个	地区生产总值、税收收入、等32个		水利基础设施建设、教育专项工作等29个	0	0	耕地保护与利用、城乡清洁工程等10个		人口与计划生育工作责任制等3个	获得国家级表彰一次加2分等4个
		权重虽有但数据不详
……	……	……		……	……	……	……	……		……	……
		……		……	……	……	……	……		……	……
40	广东模式	政府网站绩效得分等3个		GDP增长率等11个	教育经费占GDP比重等13个	人均文体与传媒支出增长率等2个	城镇居民人均可支配收入等18个	工业固体废物利用率等10个		0	0
		5.9%		23.5%	24.2%	3.2%	28.2%	15%		0	0
41	厦门模式	国防动员综合考评、应急管理等28个		GDP增长率、GDP对全市贡献率等20个	出生人口政策符合率、学前教育等23个	财政文化事业经费投入增长率	社会治安满意率	环境质量、污染控制等7个		0	0
		权重虽有但数据不详
42	贵州模式	规范行政执法自由裁量权等等40个		不详	不详	不详	不详		不详	不详	不详
		权重虽有但数据不详

[1]表1是我们收集并编制的42套政府绩效评估指标数据的精简内容，考虑到论文的篇幅限制，此处在分类指标呈现中省略了绝大部分指标，在表格中间也省略掉了35个模式的指标内容。如果需要完整指标解构表，可与作者本人联系，联系方式：zhouyafu8210@sina.com。后文的表2也是省略模式。

　　
　　在自变量的基础上，我们将指标的具体内容作为控制变量进行了处理，因为我们通过审读这些指标体系发现，每个指标领域内的具体指标的内容几乎没有太大区别，甚至用来描述指标具体内容的句子都是重合的。这种状况与控制变量设置的需求是一致的。我们利用MS EXCEL2007软件对案例数据库的数据进行了计算，并将这些结果整理成了表2。在表2中，“/”表示在该指标体系中本身就没有设置权重；“NS”代表在该模式的评估中指标有权重，或者特定指标领域中有具体指标，但公开的指标体系资料中并无详细描述；“0”代表在该指标体系中设置了权重，但该体系并无此指标领域，其潜台词就是未设置的权重为零，故我们用0表示。尽管表1、表2可以窥出不同模式之间的一些异同，但它还不够精细，还不能反应这些数据的深层规律。为了解决此问题，我们利用MS EXCEL2007的雷达数据聚中分析功能，对这些模式指标的直感强度与直感强度离中度，真实强度与真实强度离中度的聚中数据做了分析，生成了图1、2的结果，它们从深层次展现了这42种模式的本质。
　　

表2 不同模式指标强度、离中度统计
编号	模式	指标领域	ZG	ZD	ZS	ZL
1	辽宁模式	政治指标	6	-4.86	9.8%	-24.65%
		经济指标	23	17.25	43.8%	18.60%
		社会指标	17	11.18	29.4%	7.05%
		文化指标	2	1.40	5.2%	1.97%
		人民满意	6	4.20	7.2%	-2.61%
		资源环境指标	8	4.90	4.6%	-4.66%
		一票否决	0	-0.44	0	-13.33%
		加减分项目	0	0.00	0	0.00%
2	福建模式	政治指标	15	4.14	14.7%	-11.75%
		经济指标	24	18.25	37.3%	12.10%
		社会指标	31	25.18	30.4%	8.05%
		文化指标	4	3.40	2.9%	-0.33%
		人民满意	2	0.20	3.9%	-5.91%
		资源环境指标	10	6.90	10.8%	1.54%
		一票否决	0	-0.44	0	-13.33%
		加减分项目	0	0.00	0	0.00%
3	百色市模式	政治指标	30	19.14	NS	NS
		经济指标	32	26.25	NS	NS
		社会指标	29	23.18	NS	NS
		文化指标	0	-0.60	NS	NS
		人民满意	0	-1.80	NS	NS
		资源环境指标	10	6.90	NS	NS
		一票否决	0	-0.44	NS	NS
		加减分项目	0	0.00	NS	NS
… …	… …	……	……	……	……	……
40	广东模式	政治指标	3	-7.86	5.9%	-28.55%
		经济指标	11	5.25	23.5%	-1.70%
		社会指标	13	7.18	24.2%	1.85%
		文化指标	2	1.40	3.2%	-0.03%
		人民满意	18	16.20	28.2%	18.39%
		资源环境指标	10	6.90	15%	5.74%
		一票否决	0	-0.44	0	-13.33%
		加减分项目	0	0.00	0	0.00%
41	厦门模式	政治指标	28	17.14	NS	NS
		经济指标	20	14.25	NS	NS
		社会指标	23	17.18	NS	NS
		文化指标	1	0.40	NS	NS
		人民满意	1	-0.80	NS	NS
		资源环境指标	7	3.90	NS	NS
		一票否决	0	-0.44	NS	NS
		加减分项目	0	0.00	NS	NS
42	贵州模式	政治指标	40	29.14	NS	NS
		经济指标	NS	NS	NS	NS
		社会指标	NS	NS	NS	NS
		文化指标	NS	NS	NS	NS
		人民满意	NS	NS	NS	NS
		资源环境指标	NS	NS	NS	NS
		一票否决	NS	NS	NS	NS
		加减分项目	NS	NS	NS	NS

　　本质1：就直感强度聚中情况而言，模式基本上没有明显区别，存在着明显的“把猫叫咪咪”的现象。从图1可以看出，所有模式的绝大多数指标都围绕在原点周围，跳跃性并不大，特别是表征这些指标与均值差异情况的直感强度离中度的向心性更为明显（红色部分），大多数指标落在了圆心周围［-5，5］的区间之内，即使分布相对分散的直感强度大多数也落在了这个区间，剩余的大部分直感强度也都落在了［-10，-5］和［5，10］两个区间，到圆心的距离也不大。这说明以直感强度的聚中情况而言，这些模式确实没有太大差别。不同地方政府强调自己模式的区别远没有宣传的那么明显。
　　本质2：在不同模式的大多数指标聚中趋同的情况下，政治领域指标的设置“模式”特色稍显鲜明。按照数据挖掘理论和统计原理来说，图1中偏正上方的趋势线属于“奇异点”或者“奇异值”，该线上的值远远脱离了聚集在圆心的大多数值。尽管直观看到的只是一条线，但在软件中，这条线上具有确定的参数与参数值。我们发现该线上主要是上海金山区模式、贵州模式、兰州模式B、百色模式、厦门模式、兰州模式A、江阴模式的政治领域指标，它们的直感强度离中度分别为3215、2914、2013、1914、1717、1612、1614，与圆心的距离较为明显，属于圆心伸展出的一个“奇异”枝杈，它们代表了模式中特色较为鲜明的地方，它们与42个总模式的均值差距明显，有很强的“离中度”。从这些指标的设置来看，相关模式具有“模式”的一些特殊性。
　　本质3：就指标的真实强度聚中情况而言，各种模式离中度较小，模式的同一性较大，存在着人为夸大模式差别的现象。从图2可以看出，尽管从指标真实强度、真实强度离中度考量，模式的多样性比直感强度、直感强度离中度表现的要稍微明显一些，但其基本规律仍然是同一性远高于特异性。在图中，绝大多数真实强度离中度的值都聚在了圆心周围［-10%，0］，［0,10%］的区间内，呈现出了鲜明的同质性，这与图1非常类似。这种同质性也预示着这些模式相似度较高，模式之间差异不大。
　　本质4：在不同模式的大多数指标真实强度聚中趋同下，部分模式以个别指标的跳跃性赋权来彰显“模式”特色。在图2中，一共有9个奇异枝杈，软件显示，这实际上是广东模式、张家界模式A、张家界模式B、上海金山区模式、漳州模式A、长沙模式A、深圳模式A、辽宁模式、长沙模式E中个别指标的真实强度离中度跳跃性比较大，形成了“奇异值”和“特殊点”，它们分别是广东模式中的“政治指标”（-2855%），张家界模式A中的“政治指标”（-1925%）、“一票否决”（100%），张家界模式B中的“经济指标”（2520%）、“社会指标”（5835%）、“一票否决”（100%），上海金山区模式的“政治指标”（3225%），漳州模式的“政治指标”（3835%）、“社会指标”（-2235%），长沙模式A的“政治指标”（-2385%）、“经济指标”（5780%），辽宁模式的“政治指标”（-2465%）和长沙模式B的“经济指标”（-2520%）、“资源环境指标”（6244%）。这些指标从正、负两个方向表现出了与42种模式均值的较大差异，表现出了较为明显的个性，具备了一定的模式特性。从这个意义上来说，我国目前政府绩效评估模式的区别除了上文所说的政治指标之外，另一个载体便是指标的真实强度，也就是通过对相同内容的不同权重来表现自身与其他模式的区别。
　　本质5：在大多数指标雷同的同时，少量模式通过政治指标的数量、个别其他指标的权重来维系自身的特殊性，这是当前我国政府绩效评估“模式”尚能够成立的客观物质基础。这实际上是上文所描述问题的一种综合。从表1、2，图1、2可以看出，这些模式除了在指标内容上具有很大相似性之外，即使在指标的直感强度、真实强度上彼此相差也不大。图上的一些奇异点、奇异枝节显示的一些较有特色的模式一部分通过政治指标的直感强度来表现，另一部分则通过赋予与其他模式相同的指标以不同的权重来实现特色化、个性化。如果说目前我国各地政府绩效评估能够称之为“模式”的话，这些不同于其他模式的直感强度值、直感强度离中值、真实强度值、真实强度离中值就是其成立的物质基础。在这些基础之上，我们判断广东模式、张家界模式A、张家界模式B、上海金山区模式、漳州模式A、长沙模式A、深圳模式A、辽宁模式、长沙模式E、贵州模式、兰州模式B、百色模式、厦门模式、兰州模式A、江阴模式具有一些个性特色，勉强可以称之为“模式”，其他的则属于一种普遍性模式，彼此差距不大。
　　图142种模式指标直感强度的聚中情况
　　图242种模式指标真实强度的聚中情况
　　四、破解模式多样但政府绩效依然低下的路径
　　尽管我国地方政府绩效评估“模式”繁多，但地方政府绩效依然不够理想。抽选模式所反映的规律为解决这种悖论性问题提供了思路。
　　第一，由国家相关部门制定通用指标作为共通性行政任务的评判依据，鼓励地方政府编制特色指标作为区域性绩效指标的补充
　　从上文的分析来看，42种模式具有明显的趋同性，也就是说它们在指标设计内容上基本相同，在指标数量、指标权重上差距也很小。笔者认为，与其这样让各地方政府盲人摸象般地摸索，并在摸索中付出各种成本，还不如由国家层面的机构根据我国各级地方政府都需要完成的政治、行政、社会、经济、文化、环境、人民参与等各方面共同性任务编制我国地方政府绩效评估通用指标体系。尽管目前我国已经明确了由中央纪委监察部绩效管理监察室领导全国政府绩效评价与管理工作，同时国务院也批准建立政府绩效管理工作部际联席会议，但无论前者还是后者颁布的地方政府绩效评估通用指标的权威性、可执行性都不够高，笔者认为至少需要由国务院以行政法规的形式颁行，最好的方式是通过全国人大颁布“地方政府绩效评估通用指标指导法”等短期性法律，每过1— 5年修订一次。当然，强调国家颁布通用指标并非要限制地方的探索，不仅不限制而且要通过鼓励地方开发、编制地方特色性指标来评估各个地方不同于其他地方的政府工作任务，对地方政府绩效评估必须两类指标结合使用。
　　第二，各地应切实从地方管理特色出发构造本地绩效评估模式，不能将眼光局限在政治指标、指标权重上
　　从统计来看，目前我国地方政府绩效评估在绝大多数方面都是趋同的、一致的，差别仅仅在于政治领域指标的数量、个别指标的权重赋值，我们认为这类“模式”尚不能真正评估不同地域政府行政价值、行政使命、行政任务的差异，这仅仅是为了构建所谓“不同于”其他地方的“模式”所做的微小改良。真正意义上的模式，除了与其他地方政府共通的行政价值、行政使命、行政任务要采用相同、相通的指标之外，其他具有地域特色，此地有而它地无的行政价值、行政使命、行政任务、人民需求、地理特征、资源禀赋等则必须开发出本地特有指标，这类似于卓越教授所倡导的通用指标与专有指标、业绩指标的区别与联系。［9］我们认为，之所以目前各地绩效评估搞得红红火火，但绩效却依然不佳，这与指标脱离本地实际不无关系，当下需要各地认真研究本地实际，在通用指标之外开发出真正适合当地的“模式性”指标体系。
　　第三，推行客观绩效数据挖掘，淡化“人为塑造”痕迹
　　还有一种突破目前“模式割据”的一种完全不同的思路，就是要充分把握政府绩效生成的客观规律。实际上，政府在展开各类行政行为过程中，绩效的产生是个客观过程，可以说它是“不以物喜，不以己悲”的行为，一旦投入时间、人、财、物于行政行为中去，其管理绩效自然而然就产生了。可以说，政府绩效只是行政行为的客观物质产出，它与人民、政府公务员的期望本质上并无关系，它不会因为某个领导的期望而产生高效的结果，也不会因为某个公民的诅咒而产生低效的结果。借用一句文学话语来说，“无论你喜不喜欢，关不关心，它一直都在那里”，这就是政府绩效发展变化的客观规律。由于政府绩效是客观演化的结果，从理论上来说，最有效的评估措施，就是在纷繁复杂的客观管理数据、行为数据、民众民意数据中去找寻政府绩效的现状。然而，目前我国的各种绩效评估模式，还完全是一种人为塑造的做法，无论是采用德、能、勤、绩、廉指标，还是采用政治、经济、社会、文化等指标的绩效评估，本质上都属于上级政府、人大，甚至民众对政府绩效的一种期许，一种人为的塑造，他们都希望把政府塑造成在这些方面有所建树的组织，这种评估的深层逻辑在于实现各种人群对政府的良好愿望与要求。尽管出发点是好的，但评价获得的政府绩效却未必、而且也往往肯定不是客观演化的政府绩效。为了解决这个问题，我们认为应该淡化人为塑造的痕迹，充分利用各地行政管理中形成的各类客观数据、数据库、信息库如政府行政记录、政府台账、统计年鉴、人民上访记录、人民为政府人员所写的感谢材料、工作记录、物质投入与消耗，甚至地方政府所在地的气候条件、风俗习惯等，采用数据挖掘技术、云计算技术，通过构建地方政府绩效评估数据仓库并在每年的年中、年终进行绩效结果挖掘。这在技术上并不难实现，从笔者建立面向我国市级政府绩效评估指标数据、数据仓库的经验来看，只要做好不同来源数据清洗、ETL工作，并将它们开发为政府绩效集市，进而构建为绩效数据仓库，就可以挖掘地方政府的绩效现状了。通过这些工作，就可以实现利用客观数据挖掘各地政府绩效的任务。在各地政府绩效评估挖掘中，由于各地客观的绩效数据并不相同，其挖掘出来的绩效必然是与当地情况相符的，这种绩效评估方式是一种完全脱离了靠主观来确定绩效指标的全新模式，它的基本立足依据是新技术领域的数据挖掘技术，它也符合Berry & Linoff ［10］、Moynihan & Pandey［11］对利用客观数据挖掘政府绩效的判断：“数据挖掘给你洞察力”，“它（绩效数据）不失为一种最好的检验绩效行为是否成功的工具”。
　　第四，推进审议绩效评估
　　还有一种突破绩效低下却模式众多的方式是从行政相对人的立足点出发的评估方式，笔者将其命名为“审议绩效评估”，这是借鉴了Gutmann和Thompson的说法，“审议民主主要强调的是公民及其代表需要对其决策之正当性进行证明。无论是公民还是其代表，都希望对方对他们提出的原则和规定进行说明”。我们所界定的“审议绩效评估”是一种强调人民要参与到政府绩效评估中来的绩效评估模式。无论是按照西方的“主权在民”思想还是按照我国的“人民是国家主人”、“为人民服务”的行政思想，作为行政相对人的人民都是政府行政管理最终的主人、行政管理权力的最终委托者，政府绩效评估也必须为人民负责、为委托人负责。［12］要做到这一点，就需要引入“审议绩效评估”的做法，让作为行政相对人的人民参与到各地的政府绩效评估中来，通过参与确定评估价值、评估使命，特别是要参与到评估指标的确定过程，并适当地作为监督主体参与到评估实施中去，这样便可以将人民的诉求、人民所追求的价值、人民对政府的期望融入到绩效评价指标体系中去，并作为一种导向性工具融入到绩效评估中去，从而导引了政府绩效向人民需要的方向发展。前文提及通用指标体系最好应有全国人大颁布法律的初衷也与此一致，因为就最终权力来源而言，全国人大的最终委托者就是全国人民。一位地方官员在田野调查中透露，“地方的各项发展指标，都是地方发改委与统计局联合编制的，一般都有上、中、下三种不同版本的数据, 选择哪个版本主要取决于上级的需要。”［13］这种状况的出现就是人民没有参与绩效评估的结果，如果推行审议绩效评估，这些问题从某种程度上可迎刃而解。［14］

　　［参考文献］
　　［References］
　　［1］尚虎平.我国地方政府绩效评估悖论：高绩效下的政治安全隐患［J］.管理世界,2008(4).
　　Shang Huping. Local Government Performance Evaluation Paradox in China: Threats to Political Security. Management World, 2008(4).
　　［2］颜嘉南.亚洲政府效率排行［N］.工商时报,2010-6-30.
　　Yan Jianan.The Rank of Asian Governments. Commercial Times, 2010-6-30.
　　［3］唐任伍,唐天伟.区域间地方政府运行效率测度：2000-2009［J］.改革, 2011(7).
　　Tang Renwu, Tang Tianwei. The Measure of Efficiency of Inter-regional Local Government: 2000-2009Reform, 2011(7).
　　［4］尚虎平.美国与中国公共部门绩效评估研究比较：基于《公共管理评论》与《中国行政管理》2002-2007 年数据［J］.科研管理,2009(3).
　　Shang Huping. A Comparison between Public Sector Performance Evaluation Studies in China and USA: Based on the Data from 2002 to 2007 in Public Administration Review and Chinese Public Administration Journal. Science Research Management,2009(3).
　　［5］［美］尼古拉斯·亨利公共行政与公共事务［M］张昕等译北京：中国人民大学出版社，2002435
　　Nicholas HenryPublic Administration and Public AffairsTrans. by Zhang Xin et al..Beijing:China Renmin University Press,2002.p435.
　　［6］倪星地方政府绩效评估指标的设计与筛选［J］武汉大学学报，2007（2）
　　Ni XingLocal Government Performance Assessment Indicators:Design and SelectionWuhan University Journal(Philosophy & Social Sciences),2007(2).
　　［7］张雅文.概率论与数理统计［M］.北京:中国农业出版社,2009.88-91.
　　Zhang Yawen. Probability Theory and Mathematical Statistics. Beijing: China Agriculture Press, 2009. pp88-91.
　　［8］［美］达德利·夏佩尔.理由与求知［M］.褚平等译.上海:上海译文出版社,2006.126-275
　　Dudley Shapere. Reason and the Search for Knowledge. Trans. by Chu Ping et al.. Shanghai: Shanghai Translation Publishing House, 2006. pp126-275.
　　［9］卓越.政府绩效管理概论［M］.北京:清华大学出版社,2007.267.
　　Zhuo Yue. Government Performance Management. Beijing: Tsinghua University Press, 2007. pp.267.
　　［10］J. A. Michael, B. G. Berry, Linoff. Data Mining Techniques: For Marketing, Sales, and Customer Support. Indianapolis, Indiana :Wiley Publishing Inc,2011.613-655.
　　［11］D. Moynihan, S. Lavertu. The Effects of Performance Management Reforms: Evidence from the United States Federal Government. A Paper presented for The 2nd International Conference on Government Performance Management and Leadership in Portland, 2011.
　　［12］A. Gutmann, D. Thompson. Why Deliberative Democracy. Princeton: Princeton University Press, 2004.p1.
　　［13］李学.非理性绩效考评、组织依附与目标置换［J］.公共管理研究,2010(8).
　　Li Xue. Unreasonable Performance Review，Organizational Dependancy and Goal Displacement. Public Management Research, 2010(8).
　　［14］尚虎平,陈星宇.我国政府绩效评估指标设计研究中“失去的研究”的研究［J］.华东经济管理,2009(12).
　　Shang Huping and Chen Xingyu, A Study to “the Lost Study” in Government Performance Evaluation Index Designing. East China Economic Management,2009(12).
　　(作者: 尚虎平，兰州大学管理学院副教授；赵盼盼，兰州大学管理学院硕士研究生，兰州740000)

The Paradox of More Performance Evaluations but Less Performance Achievements in Local Government: A Probe into 42 Evaluation Models in China

Shang Huping Zhao Panpan

　　［Abstract］In China, local government performance evaluations have evolved into a “model colonization” situation, and there are a lot of local governments who claim that they have already developed many new “models” of performance evaluation though they still remain in low efficiency. We probe into 42 “models” of performance evaluation in varied local governments to find that judged by the statistic results of “straight sense strength”, “distance between straight sense strength and the mean”, “real strength”, and “distance between real strength and the mean”, the models have no obvious differences in spite of the propagandas on how different the models are. On the basis of the findings, we propose to develop common indicators by the state level authorities, prepare special management modes according to local structures, implement performance data mining to weaken “artificial shaping” influences.
　　［Keywords］performance evaluation, local government,distance between strength and the mean
　　［Authors］Shang Huping is Associate Professor at School of Management, Lanzhou University; Zhao Panpan is Master Candidate at School of Management，Lanzhou University. Lanzhou 730000

分享到

上一篇：发达国家促进文化产业跨行业经营的政策变革及特征　　下一篇：制定和实施负面清单制度必须理清的重大关系