大数据:中国统治工具?

James Palmer是一位与中国新闻工作者密切合作的英国作家、编辑。出版过《The Death of Mao》

2009年7月5日,新疆的居民发现他们忽然不能上网了。断网对于偏远地区倒也不算稀奇,但是很快人们就察觉,这次网络是一去不复返了。乌鲁木齐当地年轻维吾尔人针对汉人的抗议最终演化为暴动,并造成了至少197人死亡之后,政府干脆断掉了整个新疆的网络。

断网原是为了防止长期处于宗教和文化压迫下的维族人再次发生类似暴乱,也为了防止汉人报复。从这个角度看,断网可能奏效了。官方数据上看,此后新疆确实没有什么致命反击,但是断网这一举动如今被视为是政府下错了棋。

一位匿名的中国安全顾问把这场断网表述为“一个严重的错误”,“本来我们还能追踪恐怖分子的,可是现在已经被甩在千里之外了”。年轻的维族人把互联网看成敌对领域,这是由当时伊力哈木·土赫提的被捕激起的。伊力哈木是著名的经济学教授,由于运营一个维语网站而被指控为“极端主义者”。一位精通科技的维族朋友说,“我们聊政治之前都要先关掉手机”。

维族人仍然使用电子媒体,不过越来越多是以线下的形式:通过碟片看土耳其电视剧,通过记忆棒来传阅圣战的宣传。中国媒体曾报道,被捕的维族人都上过分裂主义的网站,但媒体如今看到更多的是满抽屉销毁的DVD和闪存盘。

2014初的一系列残暴恐怖袭击再次给中国政府上了一课。为了把维族人逼下线,他们同时也扔掉大量有价值的数据。去年夏天,中国人民公安大学开始向海外招募数据分析专家,据我所知,还包括以色列保安部队的前成员。

在新疆,严密的控制意味着信息减少。况且,中国政府在处理信息时历来关系紧张,无论是公开的还是私密的信息。如今,数据的激增,意味着许多以前被封锁的信息资源现在被开放了。对一些人来说,这可能是转向民主的信号。不过,政府内部的技术统治论者,也把它看作是一种更有效的独裁形式

在正常运作的民主社会里,信息是从大学、报纸、非政府组织和民意调查等各种不同的独立渠道收集起来的。但是对中共而言,独立且不受控制的媒体仍是他们的眼中钉。媒体被告诫要“引导民意”,而不是反映民意。

政府对数据的渴求

21世纪初,一个以数字为主导的市民社会慢慢地形成。社交媒体、公共论坛、泄密网站和新闻调查的出现,为曝光腐败现象、敦促国家遵循自己的法律,提供了相应的渠道。但是最近的三年来,所有这些努力都被残忍地击垮。曾经在网上领导舆论的律师、记者和活动家们,都被判刑、流亡、禁止使用社交媒体、因受到威胁而被噤声,或者以被迫在国家电视台上“忏悔”的方式当众被羞辱。不同于中共宣传意识形态,如家庭教会,受到了更强烈的迫害。新浪微博等社媒也受到严格管控,成千上万的账号被封,微博被删。

然而这给北京带来了和以往一样的问题。从一开始,中央政府就企图在收集信息的同时,防止信息落入公众之手。

从地震监测员到秘密警察,各路地方人马都为政府收集了数据,但是在党国内层层推进的过程中,由于政治和个人目的,这些数据都难免被扭曲。现在政府里的一些人把科技看作一个解决方法:可以直接从下往上收集数据,绕过层级制度的干预和被监督的危险。但对另一些人而言,在收集信息时哪怕放掉一点点控制,都会看作是对自身权力的威胁。

小任(化名),是个年近三十的北京小伙。在西方留学的那几年,一直热忱地在网上为中国辩护。不过他现在说,“我意识到原来我根本不了解情况,现在到处都是各种问题。”回国后在政府部门工作,他认为在一个“负责的”独裁环境下,监控社交媒体是政府跟进和回应舆论的最好方法。腐败官员会被指认出来,地方问题会得到高层关注,民众的呼声也会传到政府耳朵里。与此同时,人们还可以把数据分析技术应用在一些地区的危险群体上,从而有效预防“大型群体事件”(即暴乱和抗议活动)的发生。

小任说:“既然我们已经清除了‘大V’,那么就不用担心普通人说什么了。”大V是新浪微博及其它社交媒体认证的名人还有“公知”,一般都有很多的粉丝。他们在最近的三年里被系统的清除了。如今这些有号召力的舆论领导者和其他意识形态已经被剿灭,政府就不把公众的这些怨声载道看成直接威胁,而是潜在的消息源。

不可公开的数据

中央政府对自己国家的了解微乎其微,这点中央政府自己也心知肚明。地方政府各自为政,为了各自的利益,扭曲上报的数据。比如,上级对于官员的评估,原本很大程度上是以数据衡量的,尤其看重国民生产总值(GDP)的增长。但暗地里,评估结果也取决于家庭背景和直接贿赂。这就导致官员们不择手段的在数据上做手脚。维基解密透露过,现任总理李克强,在2007年还是辽宁省党委书记的时候,曾经跟一个美国官员提到,GDP的数字基本上是“人造的”, “仅供参考”。

和很多其他的分析师一样,李克强也说他会更多依赖代理数据,因为这个数据相对难以伪造。以他所在的辽宁省为例,若要测量它经济是否增长,则看电力、铁路运输和支付贷款的数据。不过他同时也需要通过“官方和非官方的渠道”来收集信息,甚至通过“来自省外的朋友来取得(我自己)无法获取的信息”。

李克强的困境和历朝的皇帝差不多。中国的统治者历来来都试图收集有用的数据,尤其是农村地区的。在记录多样且庞大的人口上,中国的皇帝们可算是尽心尽力。早在古代,中国就通过户籍制度,试图掌控人民从生到死的各类细节。政府官员长途跋涉,翻山越岭,深入到偏远村庄。而与此同时,地方领导者向京城编出各种好话来掩盖自己的不足。

共和国也继承了这些问题,但在此之上,共和国也执着于数据,这是借鉴苏联的经验。共产主义是“科学的”,所以得有证据来支持这个论断。五十年代的报纸上尽是关于生产增长、全民劳动的篇幅和图片。记者们仍会在故事里加上好多不必要(而且通常是虚假的)数据。(比如“新的工厂面积为2794平方米”)“数据显示”是大陆写作语言里被滥用次数最多的词汇之一。

所有这些现象,导致了中国的真实信息总是被嫉妒掩盖,哪怕政府内部也是这样。几十年来,哪怕是那些最无害的数据,也被当成国家机密一样看待。就连政府部门的联系电话,都只有寥寥几个特权人士才能得知。

基层的数据交到上级来的时候已经面目全非,这一点中央政府也是明白的。负责掌管工业数据的国家统计局经常会要求更直接的汇报。他们会直接致电给企业,让他们把数据直接发给统计局,如果有企业拒绝,或者发现地方政府修改数据,则会点名批评。比如2013年9月,统计局的网站上就挂出,云南省的某镇将工业增长值的数字擅自翻了四倍。不过,一个权力更大的机构的初级官员对我吐露,国家统计局整体上还是很无助的,因为他们缺乏内部的影响力来执行其指令。

上级政府的策略是,派官员突击检查。不过擅长面子工程的地方政府,早就料到这一招,并有所准备。还有一个方法是信访制度,这个早在公元七世纪就已经制度化了。该制度让个人得以越过地方政府而直接向高级政府请愿,甚至可以直接到中央去上访。这个制度依然存在,而且每年要处理数百万计的请求。但是这个制度从来都没起过作用。那些上访者更多地被看成是挑事者,还会被拷打,或者囚禁。这个问题的产生,某种程度上也是因为对于官员的评估标准之一:其管辖区上访者的人数越少,说明地方政府治理有方,腐败也因此有了诱因。

“数据是取之于民的,那也应该用之于民”

“中间人”的不断干扰,使得中央政府的某些人热衷于直接获取数据。就以争论不休的人口问题为例,歪曲信息有利也有弊:在计划生育政策之下,农村家庭常常试图隐瞒超生,而农村的政府却倾向于故意多报人口数量,因为他们按照人口规模从中央获得好处。相反,城市地区则倾向于少报人口数量,因为他们需要保证城市化的速度在可控制水平。北京的官方人口数据是两千一百五十万,但是公共交通数字显示,真正的人口数量应该在三千到三千五百万之间。

理论上来说,中国的国家监控已收集了大量个人数据,足以向政府提供有价值的信息了。身份证,这个中国居民无论是去银行还是去医院都必不可少的证件,已经有了射频识别功能。中央数据库可以让人们在网上核对他人的身份证号和姓名,以此确认身份。但是除非被公安局(尤其是地方派出所)盯上,个人用身份证办理的事务不会被记录。所以官方拥有的异议人士的资料厚厚一叠,而对于日常生活的记录却很少。即使中央机构去寻找信息,但是这些信息已经先后被市级和省级的公安局扭曲了。

尽管政府内部收集了大量数据,中国的科学家和官员们也常会寻找西方的消息源。他们会通过海外项目显示的手机使用率来分析可能的人口流动情况。另外,身价二千五百五十亿美元的阿里巴巴的网购服务,也提供了大量的消费数据。如今智能手机提供的信息更多是为政府所需,甚至超过了秘密警察收集的资料。

中国收集数据本身,不存在道德偏向。美国的政治学者吉姆斯·斯科特,在他的《国家的视角》(1988)一书中提到,人口数据既可以用于普遍接种疫苗,也可以用于种族屠杀。

如果中国中央政府用这些大数据来打击腐败,确定潜在传染病源的位置,或者改善交通情况,那当然值得赞赏。有价值的数据还有助于非政府组织帮助复杂庞大的人口,帮助企业更好的看清中国的投资机会、开发中国的潜力。数据的流动可以绕过特权阶级,直接展现一个国家的潜力。中国科学院虚拟经济与数据科学研究中心的主任,石勇教授认为,这是一个道德问题,而非单纯的政府管理问题。他强调说:“数据是取之于民的,那也应该用之于民”。

绝大多数的中国人并不愿意向政府抗议。他们宁愿关注哪里有好学校,空气纯净指数是多少,地区医院的死亡率多高。在美国的大学里呆了二十年后,石勇回到了中国,因为中国这个成长中的信息社会带来的无数可能,让他兴奋不已。

官员公示财产的阻力极大

 “假设我想搬到一座小城市”,他说,“我得知道这里的学校、房租和医疗条件。这些信息不是那么轻易就能得到的。相反,人们一般都跟熟人打听消息。”石勇指出,公开数据的阻力很大。阻力不仅来自政府内部,更多的还来自企业。“他们可能想保护自己企业的运营方式,很可能有些见不得人的事。”目前他正与和中国人民银行(央行)合作,建立一个全国性的个人信用评级系统。

石勇说,“事实上他们有两个数据库:一个用于个人信息,一个用于企业信息。他们想让我们两个都做,不过我拒绝了,我们只能先做第一个。这个数据很好看,比美国的还好看。因为其他的银行必须每天都直接把信息递交给央行。”相反,企业数据就非常难看,无从下手。“废料进,废品出,听说过吧?数据分析则是,小废料进,大废品出。”

石勇也强调,互联网已经将各省的情况开放给了中央政府。“比如反对PX(对甲二苯)的示威”,他提到了2011年8月大连及其他地区大规模的反对修建PX工厂的抗议事件。“二十年前,这种抗议根本不会起作用。但是这次,高层领导关注了此事。”

小量的信息注入,就已经在中国产生明显的影响。空气污染主要有两种形式:一种是相对大一些的可吸入颗粒物PM10,另一种小一些,叫PM2.5。多年来,中国的城市只公布PM10指数,而且数据也是从污染不太严重的地方挑出来的。但是自从美国驻北京大使馆等一些机构开始在网上实时发布独立检测的PM2.5指数以后,该指数在各大社交媒体被广泛传播,政府迫于公众压力,最后不得不调整政策。

关键的问题是,谁可以看见并使用这些数据。如果是仅限于官方使用,不管他们的目的有多单纯,所做的也无非是加强国家的控制能力。虽然中国有着强大的数据保护和隐私法,但并没有把保护国民的隐私不受国家侵犯放在首位,却反过来将政府官员和商人掩盖起来,让公众无法审视监督他们。官员财产公开的阻力极其强大。

围墙花园里的百度

不过,要是没有找到信息的工具,就算公开也毫无意义。在中国,大部分的搜索结果都被网络过滤掉了。百度拥有大陆四分之三的搜索收益。中国政府对外企的恐惧,建立了一座围墙花园,这有助于国产企业的繁荣。百度和许多中国网络企业都利用了这点。2010年谷歌宣布取消google.cn的内容审查之后,这位美国搜索引擎巨头就在大陆被无情的封锁了。其搜索份额从2009年的36%跌落至2013年的1.6%。不过百度消除了外忧,还有内患。包括国营的人民日报和新华社旗下搜索去年合并之后创办的“中国搜索”,都是百度的对手。

百度最近宣布,将推出一个大数据引擎,让公众搜索并分析有效数据。他们现在已经和交通部合作,通过从地图上获取的数据,预测交通趋势,进而协助管理交通。另外,百度还“借鉴”了谷歌流感趋势项目,和医疗机构合作,预测流行病的爆发。

百度因配合政府审查,以及在搜索结果中将付最高价广告费的公司置顶,被广为诟病。这就是为什么小任会说,“如果你想搜索‘民意’,你看到的前两页结果都是关于汽车的”— “民意”也是一款汽车的名字。

不过对于政府的干涉,百度还是默默地做了一些非正式的抵抗。比如百度搜集的用户个人信息就比谷歌少,一定程度上也是因为它的综合服务相对较少,但是它清除搜索历史的次数要比西方企业频繁很多。内部人士透露,在和政府的会议上,百度常会积极争取更多的网络言论自由。

这也导致了百度在政府并不受到广泛欢迎。“党宣部最近邀请了周小平(一个年轻的博客写手、极端民族主义者)演讲”,小任说,“大部分内容都是针对百度的,说他们是‘右派人士’(亲美、持民权、倡导自由市场)。你知道吗,他说,如果你去百度‘警察暴力’,搜到的结果是都是关于中国的。凭什么?怎么不显示美国啊?他问。他的演讲中掌声不断。”

不管企业用什么方法,国家的干预是无法抵制的。今年大概要新出一版更严格的国家安全法,里面会明文规定国家有权索取任何数据 – 事实上早就这样了 – 而且所有在中国工作的外国企业都必须将他们在中国的数据保留在中国。政府还打算扩展监控摄像头网络,并且大规模的使用人脸识别软件。

公众的隐私何日受保护

石勇介绍说,个人银行和信誉的信息已经 “被用来反腐,确定腐败官员的关系网”— 因为腐败官员通常会把财产存放在亲戚或朋友名下。石解释说,党内的调查人员现在可以依靠数据分析,牵出官员背后原本隐形的关系网。

然而,确定亲友,把他们作为目标,也是中国一直以来对待有异见人士和揭发者的手段。以前,意识形态的分歧会让某人全家都被牵连,甚至满门抄斩。即使是在今天,人们还会以子女停学和解雇配偶为威胁,来对付这些“挑事者”。与此同时,在新疆,政府运用网络分析技术不仅来识别恐怖分子,还用来针对温和的独立运动分子,或者类似伊力哈木这样在学术上持不同意见的人(他的学生被迫做不利于他的证明),和伊斯兰教的老师。

后来我问石勇对于西方甚嚣尘上的关于政府监控的讨论的看法,他说这在中国以后也会发生的。“我们现在还没到那个地步。现在我们只是在建立基础设施,以后,发达国家有的那些法律保护措施,我们也会有的。”

可能真的会有那天吧。不过,我在中国的这十多年来,就一直人告诉我中国马上就会实行法治的。但 “马上”到现在也没有成为现实,现在反倒是加了个央视摄像头在上面。

本文由泡泡翻译,原文发表于aeon

冒个泡吧!

Plain text

  • 不允许HTML标记。
  • 自动将网址与电子邮件地址转变为链接。
  • 自动断行和分段。
Type the characters you see in this picture. (使用语音验证)
填入上图所示的数字或者单词;如果你看不清,点击保存按钮,系统会为您重新生成您新的图片。不区分大小写。