上一篇
放大+  缩小-   默认o

从数据到真相

肖 瀚

你听说过鹳鸟送子的故事吗?

这是统计学里一个著名的“段子”,而且貌似可以用数据“证明”。

先看每个国家鹳鸟的大概数量,再比对每年的婴儿出生数量,可以看到,在整个欧洲,这两个数字的关联性都很强。某年鹳鸟数量多,婴儿出生率也高;反之亦然。

用数据论证结论的合理性怎么看都很科学。不过,聪明的读者八成已经看出了问题。鹳鸟和孩子完全就是两个八竿子打不着的领域,或许更合理的解释是,经济条件好、房子大的家庭有能力养育更多孩子;同时,更大的房顶和更多的屋檐也给鹳鸟提供了栖息的地方。二者虽然在数据上大体呈正比,但都只是大房子的派生数据,只是相关关系,而非因果关系。这样的数据比对其实根本没有意义,不过它给人的感觉却是——数据骗人了。

这也是英国作家蒂姆·哈福德新作《拼凑真相——认清纷繁世界的十大数据法则》希望向读者阐明的观点:人们正在失去对数据的信任。个中原因很复杂,其中,无用信息太多,湮没了有效数据,是最重要的一个。其他还包括,数据造假或失真、对数据间的逻辑关系理解错误、数据与自身感受偏离过大,甚至单纯地只是对数据发布方不信任等。

蒂姆·哈福德不无悲伤地说,对统计学的不屑一顾不仅仅是统计的耻辱,而且是一种悲剧。如果我们对任何统计数据都不屑一顾,习惯性排斥,那么这个工具就无用武之地。我们不能轻信,但不轻信不意味着全不信,而是要用探究心和合理的怀疑态度去评估信息。真正的统计学就像天文学家的望远镜、细菌学家的显微镜、放射科医生的X射线。只要我们愿意,真正的统计数据可以帮助我们“见天地、见自我”。

为此,作者在书中列出了帮助读者理解统计数据的“十大法则”,并运用大量生动的故事带大家深入充满虚假信息、不良研究和糟糕动机的世界,从中窥探收集数据容易踩的坑、理解数据必须避的雷,学会分辨好的数据与无用的数据,以帮助个人、组织做出更好的决策。

以个人感受与统计数据偏差为例,本书提出了一个“灵魂拷问”,如果二者不相符,究竟是谁错了?其实,如果你真的懂数据,就会发现,这并不是谁对谁错的问题,至少没有这么简单。

作者是从自己早高峰的惨痛经历出发,开始研究这个问题的。

每个工作日的早上,作者都要多次换乘交通工具,用他的话讲,“沙丁鱼罐头都比地铁松快”。更糟糕的是,能在地铁上挤着已经是一种“幸福”了,等了好几趟车还没挤上去才是常态。

然而,伦敦公共交通统计数据却显示,伦敦公交车的平均乘客数仅为12人,“以我每天早上乘坐的双层巴士的62个座位为例,车上应该是很空的”。地铁的乘客量就更离谱了,据称平均乘客量不到130人。“开玩笑呢吧?中心线路地铁随便一个站台上就有130人挤不上车,随便一列地铁的一个车厢里就能挤下130人,这才是平均乘客量好吗?”

作者坦言,即便自己自称“数据侦探”,也难免对统计数据有所怀疑。那么,当统计数据和个人感受不一致,我们该怎么办?

答案是逐层分析。

先来看统计数据来源。作者说,伦敦城市公共交通的相关数字是由伦敦交通局提供的。这个数据准确吗?答案是,他们也不确定。因为伦敦交通局仅仅做了一个“差不多的估计”,而且这一估计还是好几年前通过纸样调查做的。当时,调查员站在公交车站或地铁站,或是拿着夹纸板,数人头,记下来,或向乘客分发问卷调查。也就是说,从数据来源看,这些数据“原材料”偏差很大且严重滞后。

这个问题在当今这个信息时代很好解决。毕竟移动支付已经在很多国家和地区普及了,大多数人坐车都会刷公交卡或智能手机,交通局的数据专家只需要在后台敲几下键盘,就可以获取更准确的、实时更新的数据。

再来看统计数据的结构。“我的出行时间与高峰时段重叠,此外,我搭乘的也是人流量最大的一条地铁线路,所以我乘坐的地铁不挤才怪。”而在非高峰时段,这些地铁其实并没有这么拥挤。尤其是一些人气不旺的线路,一天中的大多数时候,车厢里都空空荡荡。于是,不同时段、不同线路的数据加总、平均,就得到了12人、130人这样感觉很离谱的数据。

这个数据有意义吗?直观看,好像是没有。但仔细想想,其实是有的。它可以帮助伦敦交通局调整运营策略,比如,在高峰时段提高发车频次、调整全伦敦的交通线路图等。换句话说,这些统计数据说的是事实,但不是真相。解决的办法是细化数据,将整体数据调整为分时段或分线路数据。换句话说,这些数据依然是有用的,关键在于学会怎么去“读”它。

最后来看统计数据的视角。站在通勤人员的角度上看,既然高峰时段那么挤,多发几辆车不就行了?但站在交通局的立场上,公共交通必须兼顾经济效益和社会效益。平均客流量已经这么低了,再增发车辆很不划算。毕竟,买公交车要花钱,雇佣专门的司机、维护人员也要花钱;重新规划线路不仅花钱还要走麻烦的手续;更别说公交系统还会占用道路空间、排放污染物,造成隐形损失。简而言之,作为个体的“我”感受到的一面是真实的,但官方统计数据揭示了“我”无从感受的另一面,这一面也同样重要、真实。二者完全相反,却是一体两面的、正确的数据。

对于这个问题,作者引用了经济学家、小额信贷先驱、诺贝尔和平奖获得者穆罕默德·尤努斯的观点。穆罕默德·尤努斯用“蠕虫视角”来形容个人感受,用“鸟瞰视角”来代指统计数据。虽然蠕虫视角更能够触动我们,但必定会挂一漏万,毕竟每个人都有自己的认知边界,仅仅以自己的视角看待世界极易陷入偏颇。相反,鸟瞰数据虽然枯燥乏味,但却更接近群体总效益的公约数,虽然身处其中的人不一定满意,但总体效益却是最高的。

如果用一句话来概括这一切,统计学大师级人物汉斯·罗斯林的话或许最为贴切:“数字永远无法将地球上的生活百态全部展现出来。”

汉斯说得没错:数据永远无法展现全部,但数据依旧有其存在的重大意义。没有蠕虫视角,数据就是冰冷的;但如果没有鸟瞰视角,人们恐怕连窥探真相的机会都没有,只会盲人摸象。

这也是本书想传递给读者的核心信息。迷信数据的确要不得,但盲目排斥数据更糟糕。对待它最好的态度是敬畏——在认真看待数据之余,抬起头,带着好奇心去看、去听、去感受真实的世界,然后问问自己,这是为什么呢?

2023-07-16 肖 瀚

1 1 经济日报 content_277512.html 1 <p> 从数据到真相 </p> /enpproperty-->