2020年人口普查背后 到底做了什么样的技术革新

2020-12-14 09:23:35来源:虎嗅网  

要不是我妈突然在家庭群里失去了往日的活跃,我应该是不会关注到人口普查的。

10月底,一向热衷于短视频或者淘宝购物的母亲,没有像往年一样在群里给我们各种推荐,积极备战“双十一”,相反,她晚上时间都被一张张表格填满了。

几天之后,我才知道,身为多年党员的她,被征集去做了人口普查员。今年已经50岁的母亲现在已经有些眼花了,面对字如蚂蚁的人口普查表,她只能付出更多的时间和精力,甚至要搭上我爸。

由于长期关注云计算,我早就听闻有一些科技公司中标了这次人口普查项目。但既然技术助力,为何还需要这样如此原始的填报方式?

带着质疑,我们开始好奇2020年人口普查背后,到底做了什么样的技术革新。

每10年一次的中国人口普查

在谈这次人口普查之前,我们不妨先来了解下关于人口普查的历史。

公开资料显示,人口普查可以回溯至很久以前。事实上,它几乎与国家一样古老。

历史的经验告诉我们,人口普查证明了各国了解其居民的固有愿望,而其动机有时候主要出于军事目的,有时则出于税收,数千年前的古埃及和古中国就开展过人口普查。

而伴随着时间的推移,人口普查也变得越来越振奋人心。

每10年一次的人口普查,如果把一次次的数据汇总起来,其实可以看出社会的变化。

而这些数据不过是万千个体故事的集合,这些故事与年迈父母、前途未卜的婴儿的命运以及做出在新地方开始新生活的抉择有关。

所以不可否认,每一次普查都是一次横向分析,是对社会的一次必要解剖。而解剖的时间,是人为决定的。

一般地,近年来每次人口普查基本上都会问两次,第一次主要是调查每次都会问到的基本问题,比方问“有几口人,有没有在这里住,学历什么的”。

另外,每一次人口普查也都会增加一些新问题。各个部委,比方说像人社局、民政部、人社部,甚至工信部,都会跟统计局去申请,能不能在人口普查里面搭一些他们关心的问题。

但这部分问题是在正式登记的过程中发生,在进行普查之后,会抽查10%的人群再问一次。问的就是上面提到的特殊问题。

据公开资料记载,新中国成立后,我国先后共进行了六次人口普查,今年的人口普查是第七次。这七次人口普查具体情况及变化如下表所示:

其中,2000年进行的第五次中国人口普查,首次采用光电录入技术,为中国经济社会进一步发展提供重要的人口依据。这次人口普查在中国普查史上添加了厚重的一笔。

但是,人口普查如此全面系统,也具有一些局限性。

人口普查涉及范围广、调查单位多,因而人口普查相对较为耗时、耗力,而且成本也很高。同时,人口普查多是十年进行一次,因而数据的时效性不够强,不能有效并及时地反映人口动态变化。

与以往不同,此次的人口普查首次采用了移动端的电子化普查手段,一来是为了提高普查效率,二来也为了对手机进行更好的储存和分析。

今年年初,腾讯以4541.7万中标了第七次全国人口普查数据处理环境建设,主要承接的便是技术保障工作。

关于这个项目,统计局提出了两个要求,一方面,希望通过云计算、大数据等手段提高人口普查的效率和准确度,另一方面,希望数据收集上来后,数据在后台,系统的安全性、可靠性上能够支撑住。

当时腾讯给出的一套方案,是希望14亿老百姓用已有的微信、700万普查员用企业微信这个现成产品,同时把数据审核关系放在上面,并定制一套数据审核关系。

虽然户籍数据整理看起来很容易,但人口普查,是要求15天之内14亿人的信息全部到位。所以从交易量上来讲,腾讯的压力并不小。

再加上疫情的影响,双方在实施过程中遇到了意想不到的困难。

不过,横向来看,相比于国外人口普查基于PC的电子化采集模式,我国用智能终端做普查,在技术上相对比较先进。

简言之,即便技术应用到人口普查领域已经小有成就,但在技术帮助人口普查更快更好落地,就事实来看,困难仍然很大。

当中标遇上疫情:15天,14亿

“我们2月14日开标,3月5日集中。那时候疫情还没有结束,要把一个队伍集中起来做应用开发,做技术方案,很艰难。”腾讯云相关负责人王景田如此谈到。

据悉,当时全北京都找不到饭店,没有地方。

祸不单行。

项目刚开始不久,原定交付团队又全部撤出了。于是,在3月20日,架构师王飞所在的部门接到通知,被临时派遣过来承接统计局第七次人口普查的项目。

虽然标准的普查时间是11月1日,但很多工作需要在疫情期间完成,包括软件的功能设计、开发,整个云架构的设计,云产品的组装以及一些压测,功能仪式点的保障。

关于入驻之后的经历,给王飞留下肌肉记忆的可能就是接二连三地换办公酒店了。据王飞回忆,一开始接到任务的时候客户只说封闭20天,但实际上封闭时间一直从3月份持续到了9月初,长达200多天。

当然,办公地点只是众多困难中的一小项。更多更复杂的困难,则体现在业务上。

王飞认为,最一开始大家对这个项目的预计是不足的,主要是由于困难程度的评估多来自于听别人说,因此,在项目试点前期出了很多问题,包括很多功能没有上线,上线不符合预期,各种各样的前端去反馈等等。

另一个困难是,最初人手严重不足,直到后来,以黄谦代表的新的优化团队进来,情况才得以好转。

不过,对于黄谦来讲,当时的情况也非常艰难,他谈到,“比如我们最开始去盘一些性能问题的接口。最初有问题的接口只有30多个,可随着不断地深入,这个数字由30变为了60,又变为了100,知道最后一轮发现有超过150多个问题接口。”

他接着补充道:“当时就我一个人在,要负责三、四十款产品所有的配置,包括跟客户的沟通,架构的设计、运维保障等等。确实是完全超负荷的。”

屋漏偏逢连夜雨。

在客户侧,随着合作的深入,需求也在不断地更改和增多,这样一来,包括应用、架构、资源都要跟着变,十分耗时耗力。

好不容易,终于一路闯关捱到了试点上线,新的问题又出现了。

根据计划,这次人口普查主要分为五次试点,第一次是在福建,第二次是在江苏镇江,第三次、第四次、第五次都是十几个省在普查,这几次试点工作主要集中在五六月份进行。

其中,最为惊险的一次发生在第三次试点上线的时候。

“我印象中到第三次,这是小程序离线模式第一次正式上线,而且是十几个省第一次一起上线试点,当时暴露出非常多问题。”王飞现在提起这段,还有点心有余悸。

在统计局看来,有两个底线是不能突破的——第一个,小程序不能有大范围的登录不上;第二个,采集的数据不能丢,因为丢一条数据证明少一个人。

但是,这次试点测试时,一线普查员反馈出现了漏报问题。而这种情况使得统计局直接质疑了腾讯的设计:以小程序的模式去做采集是否OK,以至于想把整个方案推翻掉重做。

对此,黄谦谈到,这次是首次进行的尝试,所以没有太多前面可参考的东西,大家也是摸石头过河。

另外,统计局没有给一个线上架构优化的空间,上来就这么多量。它不是一个逐步迭代的过程,而是一步到位的过程,所以要考虑到太多突发并发的情况。

找一个14亿人的通解

在整个大体框架搭建进行的同时,腾讯的另一只队伍也在如何更好地交互和使用上进行探索着,因为这涉及到要包容14亿人口。知情人士透露,在第六次人口普查的时候,其实尝试过能够部分进行电子化采集,但当时好像效果不是很好,就没有继续进行。

作为统计局,则需要考虑一些很实际的问题,比方说一个普查员负责80到100户,那如何在一个普查小区里把这些户分配给不同的普查员,一栋楼是按一个楼梯间分80户还是一楼到十楼是80户。

腾讯团队人员Afina回忆称:“当时有一个很具体的问题,南方跟北方楼门的叫法是不一样的。我们讨论了好久,一直都发现那个表数没有对上,最后才明白说的不是同一个东西。”

像这样的问题,统计局也会比较担心,想找到一套标准能够全国通用的方法。但是,另一个困难的地方在于客户都不确定是不是要开放自主填报,因为从来没有试过。

从腾讯角度,希望给到更开放的自主填报模式,比如不需要通过普查员,在电梯上面或者其他渠道扫二维码就能够自己填。

但最终实行的自主填报模式,必须要普查员找到本人后,提供一个独立密码,甚至还要加一下微信,才开始自己去填。这其实是在一定限度里一个没有完全放开的自主填报。

而统计局的担心也不无道理,毕竟并不是每个人都能很好地完成自主填报。

关于这一点,一直跑在一线调研的Afina感受尤其明显。她谈到:“部分用户操作能力差一些,有一些上了年纪的用户,他们使用各方面都有问题。”

实际上确实是有很多大爷大妈,譬如有一个环节是教大家去打开iPad,真的是连开机都不会开。工程师们心里面是很凉的——按照老人对智能化工具的理解与操作水平,怎么用数字化的工具完成普查呢,他们非常害怕。

后面随着调研的深入,还有惊讶的情况出现。

有一些基层普查员表示,按照以往普查的经验,要求他们先填在纸上面,再填到机器上面。

实际上这次应该是由机器去录的,但他们还是依照了固有的经验,并没有使用机器。背后原因则在于,普查员觉得同一时间发表、收表能够节约时间,其次,他们并不熟悉机器录入的操作。

这样的情况,也就有了很多像开篇我老母亲一样的普查员的操作。

另一方面是面向普通大众的,Afina坦言“很多信息是存在缺失的。比如去棚户区的时候,我们进去需要打着手电,就像一座废弃的大楼,里面是一个已经拆掉的地方,普查员带着我们走过很黑很黑的房间,完全空旷的房间,突然发现这儿有一个灯,居然还有个床,有人住在这里。”

随之而来的,Afina当时还有一个念头,“就觉得可能普世化调查中很多人群,我们原先设定的那种上报条件在他们看来还是比较高端或者是不太好实现。”

所以,这就要求在设计高频操作,就是录常规信息的时候,要尽量把这个过程便捷性上做到极致,操作的容错做到极致。

这样,不管是上年纪的叔叔阿姨,还是其他被调查者,都能够在很大程度上接纳这样一种数字化的录入方式。

企业微信是除了腾讯云团队之外,另一个自始至终参与这个项目的团队。

一个有意思的事情是,虽然双方已经明确要用企业微信来管理普查员,但具体的普查人数,一直也没有明确的数量级,直到后来才预估出了这样的数目。

企业微信的压力主要就来自于这突然上来的700万人。

举一个最简单的例子,如何能让这700万人顺利地把企业微信应用安装在手机上?这个通知用什么手段发下去,让每一个普查员知道且会用?

全都是难题。

另外,因为企业微信是一个公开的平台类产品,对于统计的业务、普查的一些具体场景,一开始会有能力上的不足。

还有个细节是,每次的人口普查都会有一些不法分子冒充普查员。

为了避免这种情况发生,今年的普查员都会佩戴一个证件,而这个证件上面印有普查员的企业微信二维码。老百姓可以通过扫这个二维码看到普查员的真实身份信息。

同样,在如果有需要的情况下,他还可以去加普查员的好友,比如说去预约一个上门时间。

总之,在2020年人口普查中,普查员仍然是一个必不可少的岗位,甚至仍然耗费着人的大量精力。而技术在这其中,则偶尔扮演着一个吃力不讨好,但正在缓慢适应的角色。

结尾:

转眼之间,2020年人口普查已经进入抽查阶段,到12月几乎接近尾声。

当被问及,内部是如何定位这个项目时,谭旭表示,可以用他们一个群名来概括,那就是“TOP1重点保障”。

据悉,对于这次人口普查,马化腾也有话说。

他曾在朋友圈发文称:“企业微信+小程序:700万B端内部组织,连接14亿C端,这个规模罕见了。”

但是,技术的局限性,也在这场浩浩荡荡的社会大解剖中,暴露无遗。

标签:

相关阅读

相关词

推荐阅读