戳穿科学的谎言:小心图表中的“恶意”坐标轴|赠书

过去,学术噪声以华丽的辞藻和耸人听闻的话语作为伪装;今天,科学噪声则把自己包装成大数据和神奇算法的模样。媒体上出现的数据、最新发明的算法、学术期刊中的图表,你能分辨其中哪些是信号,哪些是噪声吗?
本文节选自《拆穿数据胡扯》,作者是美国华盛顿大学生物学系教授卡尔·伯格斯特龙、华盛顿大学信息学院副教授杰文·韦斯特。
图书信息
图片
《拆穿数据胡扯》
Calling Bullshit: The Art of Skepticism in a Data-Driven World
作者:(美) 卡尔·伯格斯特龙
(美) 杰文·韦斯特
译者:胡小锐
出版时间:2022 年 3 月
出版社:中信出版·鹦鹉螺
在当今社会,科学知识成为广受青睐和信赖的主要信息,但这也为信息噪声大开方便之门。过去,学术噪声以华丽的辞藻和耸人听闻的话语作为伪装;今天,科学噪声则把自己包装成大数据和神奇算法的模样。你能分辨其中哪些是信号,哪些是噪声吗?这些量化的、统计学的和计算机语言形式的噪声,就是这本书主要关注的对象。这些信息噪声几乎随处可见且不易辨别,但本书可以教给你判断的方法。两位作者花了多年时间研究打着数学和统计学幌子的各种信息噪声,本书将会一一进行剖析,帮助读者在信息世界中有效地分析海量数据和观点,分辨科学的信号与噪声,并培养摒弃信息噪声的本能。
作者简介:
卡尔·伯格斯特龙(Carl Bergstrom)是美国华盛顿大学生物学系教授。他研究流行病如何在人群中传播,以及信息如何大规模地在生物和社会系统中流动。
杰文·韦斯特(Jevin D.West)是美国华盛顿大学信息学院副教授、公众知情中心主任。
内容节选
数据可视化也可能有意或无意地造成误导。幸运的是,如果你知道自己在寻找什么,那么大部分的欺骗还是很容易辨别的。
许多数据图形(包括条形图和散点图)在轴上显示信息。这些轴就是我们将数值绘制成图时使用的水平和纵向标尺。只要看到包含轴的数据图形,就一定要看一看这些轴。
设计者有很多技巧来处理图形的轴。2016 年,专栏作家安德鲁·波特教授在加拿大新闻杂志《麦克林》上发表的一篇评论引起了轩然大波。他在文中指出,魁北克的很多问题可以追溯到一个事实:“与加拿大其他地区相比,魁北克是一个与世隔绝到近乎病态的低信任度社会,缺乏很多基本的在其他加拿大人看来是理所当然的社会资本。”为了支持波特的观点,该杂志随后发表了下面这张数据图表。
图片
乍一看,这幅图表似乎为波特的观点提供了有力的支持。魁北克的信任度条形远低于加拿大其他地区的条形。但是别急,我们先看看纵轴(y 轴)。所有这些条形都不是从 0 开始的,它们的最低点分别是 35、45 和 50。通过将魁北克条形截短,只留顶部一小截,设计者在视觉上夸大了魁北克和加拿大其他地区之间的差异。如果让这些条形从 0 开始,图形就会给人一种不同的印象:
图片
在这个新的视觉化图形中,我们看到魁北克的信任度确实有些低,但我们对信任度的差距有了更好的认识。在读者发现原始图形有对轴进行操纵的行为并写信投诉后,作为修正,《麦克林》发表了第二幅图。他们本应该在一开始就发表这幅图。
条形图即使没有明确的轴也可以误导人。下面这个例子是希拉里·克林顿竞选团队在 Instagram 上发布的条形图。
图片
图中的条形是从左到右,而不是从下往上。这没有问题,因为每个条形代表的是一个没有自然排序的类别,而不是一个数值(例如年份,年龄,收入范围)。不恰当的是,尽管这些条形的长度看上去与它们所代表的数字成比例,但实际上并非如此。前 4 个条形的长度大致正确,在从最左端到最右端的完整长度中所占的百分比接近于条形上标注的值。从代表的值来看,最后两个条形远远长于它们应有的长度。代表女性白人的条形标注为 75%,但实际长度是全长的78%。代表亚裔女性的条形更具有误导性:它被标注为 84%,但实际长度足足达到了 90%。其结果是我们感知到的支付给非亚裔有色人种美国女性的工资与支付给女性白人和亚裔美国女性的工资之间的差异变大了。我们可以读出条形上的数字,但我们是通过感觉来理解条形长度差的。
虽然条形图中的条形应该从零开始,但线形图不要求表示因变量的轴必须包含零。下面这张线形图表示的是美国加利福尼亚州自 1970 年以来父母都工作的家庭比例的增长情况。就像表示魁北克省信任度的第一幅图一样,本图中的纵轴并非从零开始。
图片
有什么不同吗?为什么条形图的纵轴必须包含零,而线形图不需要呢?这是因为这两种图传递的信息不同。条形图强调不同类别相关值之间差别的绝对量,而线形图着重表示因变量(通常是y 轴的值)随自变量(通常是x 轴的值)变化而发生的变化。
事实上,如果线形图纵轴真的从零开始,有时反而会引起误解。
“从现在开始你唯一需要的全球变暖图”就是一个著名的反面例子。这幅图是史蒂文·海沃德为Powerline 博客创建的,在 2015 年年底被《国家评论》发布到推特上后被人们进一步分享。海沃德对他的图 7–27 做出了如下解释:
这不太容易让你激动起来,不是吗?事实上,你几乎察觉不到气候正在变暖。
图片
这个设计很愚蠢。绝对温度无关紧要,没有必要把图形缩得那么小,以至于所有的模式都看不清了。如果我们想要在气候是否发生变化这个问题上得出结论,就需要一个类似于图 7–28 的比例尺。
图片
海沃德为 Powerline 创建这幅线形图时,在图形显示方面做出的选择与他传递的信息不相符,这是这幅图阴险的一面。海沃德声称, 他要讨论的是地球温度变化(或缺乏变化)的情况,但他没有选择用于揭示变化情况的数据图,而是选择了一幅模糊了变化情况、有利于呈现绝对量相关信息的数据图。
当一幅图中使用两个不同的纵轴标尺时,我们必须更加小心。通过有选择地改变坐标轴的相对比例,设计者可以让数据传递他们希望传递的任何信息。例如,2015 年一篇发表在低级期刊上的研究论文试图重新提出早就被人们揭穿的关于孤独症与麻疹—流行性腮腺炎—风疹(MMR)疫苗有关的阴谋论,并给出了一张类似于下图的图表作为证据。
图片
即使我们暂时不考虑数据选择和分析中的重大问题,也该考虑如何理解这幅图暗示的对应关系。乍一看,孤独症发病率似乎与 MMR 疫苗接种覆盖率密切相关。但是看看坐标轴。表示孤独症发病率的标尺从零开始到 0.6% 结束,而表示 MMR 疫苗接种覆盖率的标尺从 86% 开始到 95% 结束。可以看出,在这段时间里孤独症患者的比例发生了很大的变化,2000—2007 年大约增加了 10 倍,但MMR 疫苗接种覆盖率发生了一个很小比例的变化。如果我们重新对图进行缩放,就能清楚地看到这一点。我们不需要用相同的比例显示这两种趋势,但必须保证两条轴都包含零。
图片
从图 7–30 中可以清楚地看出,MMR 疫苗接种覆盖率的较小变化不太可能是导致孤独症发病率发生较大变化的原因。
下面是另一个例子,摘自一份鲜为人知的科学期刊上的一篇研究论文。这幅图旨在说明甲状腺癌与除草剂草甘膦(农达)的使用之间存在时间相关性。的确,接触农达可能会造成严重的健康后果,但无论有何后果, 这幅图都不具有说服力。首先,相关性不是因果关系。例如,人们可以在手机使用和甲状腺癌之间找出类似的相关性,甚至手机使用和草甘膦的使用之间也存在类似的相关性。下面,我们将手机拥有量添加到图表中。
图片
图片
如果我们相信原论点的逻辑,那么我们或许应该担心手机会导致甲状腺癌,甚至是草甘膦会导致我们使用手机。
现在,我们看看那幅图中的坐标轴:左边与条形图相对应的纵轴不是从零开始的,我们已经指出这有可能会导致问题。但还有更严重的问题,该图作者对右边纵轴的刻度及截取部位都进行了调整,目的是让代表草甘膦的曲线沿着癌症发病率条形的峰值延伸。最引人注目的是,为了让曲线做到这一点,纵轴必须包括草甘膦用量为 –10 000 吨的点。这没有任何意义。我们说过线形图的纵轴不必从零开始,但如果只能为正的量出现了负值,就应该引起重视。
虽然我们在纵轴上看到的骗人伎俩可能更多一些,但横轴也有可能被用来误导人,最简单的方法或许就是通过选择数据范围掩盖部分信息。2018 年 7 月,脸书发布了令人失望的季度收益报告后,股价大幅下跌。《商业内幕》的头条是“脸书的收益灾难抹去了 1 200 亿美元的市值——这是美国股市历史上损失最大的一次灾难”。标题旁边是脸书4 天内的股价图。
图片
一方面,市值损失确实很大,但另一方面也是因为脸书的初始估值太高。总的来说,脸书的业绩一直很好,我们可能应该结合这个背景,用一个跨度为 5 年而不是 4 天的图表来分析2018 年7 月的损失。
图片
用图 7–34 表示后,人们对脸书股价暴跌的看法就大不相同了。可以看到,股价在前几次暴跌后又迅速反弹。我们对《商业内幕》中的图表是否具有误导性不太感兴趣,更希望指出图表的倾向性在多大程度上依赖于所表现的时间范围。在查看线形图和相关可视化形式时, 请记住这一点:一定要保证所描述的时间跨度适合图形要说明的观点。
再看看横轴误导我们的另一种方式。图7–35 暗示二氧化碳排放量已经达到了一个稳定的水平。文章中的描述是:“在过去几年里,全球二氧化碳排放量相对于前几十年已经稳定下来。”
图片
但是看看横轴上发生了什么。在 1991 年之前,每一格表示 30 年 的时间间隔,接下来的一格是10 年间隔,再下一个是 9 年。此后,每格仅表示一年。我们重新绘制该图,使 x 轴有一个恒定的比例,就会得到一个不一样的图形:
图片
二氧化碳排放量的增长速度可能正在变慢,但看来还没有接近平稳期。
一般来说,我们需要注意 x 轴上的刻度是否不均匀、是否发生变化。对于条形图来说,在把数据分组以形成条形时,也可能发生类似的情况。下面的条形图选自《华尔街日报》上一篇关于奥巴马总统税收计划的文章。
图片
这幅图是要表示美国税收主要基础所在的位置。每个条形代表一定收入范围内的纳税人;这就是我们所说的把数据分组。这些收入范围沿横轴显示,纵轴则表示给定范围内所有申报人的总收入。根据该图,大部分应税收入来自“中产阶级”,即 5 万~20 万美元这个区域,这里的条形最高。(还有一大块应税收入在 20 万~50 万美元这个收入范围,但即使按照《华尔街日报》的标准,也很难想象这些人是中产阶级。)
作者认为,奥巴马税收计划的大部分负担将不可避免地落在中产阶级而不是富人身上。
即使在奥巴马的医疗保健计划生效之前,富人的财富也远不足以为他的福利国家的雄心提供资金。那么,还有谁可以征税呢?2008 年,所有纳税人的应税收入总额约为 5.65 万亿美元, 其中大部分来自中等收入者。上图显示了分布情况,中间的那个大驼峰是民主党人不可避免地要去的地方,原因和威利·萨顿抢银行是一样的。
但仔细看看这幅图。图中构成每个条形的“组”的宽度差异很大。前几个组表示的增幅是 5 000 或1 万美元,难怪这些条形都不高:这些组都很窄!然后,一提到中产阶级——正是作者声称税基最大的地方,各个组表示的增幅就急剧增大。有两个组的增幅是 2.5 万美 元,还有一个达10 万美元。从那之后,组的宽度继续增大。以这种方式选择分组宽度,导致了大部分应税收入看起来都在分布范围的中间位置。
政治学家肯·舒尔茨认为,如果允许选择变量分组宽度,设计者可以传递出截然不同的信息。为了突出这个问题,他利用相同的税收数据,通过选择不同的分组宽度,传递出三种不同的信息。
通过改变分组宽度,舒尔茨成功地传递了我们必须向穷人、中产阶级(现在的定义是应税收入低于 10 万美元)和富人征税的三条信息。
《华尔街日报》可能无意误导读者,因为他们描述的组和美国国税局报告中的组一模一样。不过,不管作者的动机是什么,我们都需要注意数据的排列对传递信息的影响。
图片
再看一个分组数据可能具有欺骗性的例子。图 7–39 中的数据旨在说明遗传对教育成就的预示性。横轴是表示遗传组成的指标,纵轴是中学班级的平均成绩。这一趋势看起来非常明显——粗看之下,你可能会认为遗传有很强的决定教育结果的作用。
图片
但如果用这种方式绘制图形,数据就会误导我们,原因是它们被“分组”了。所有的点都以数轴上的 10 个间隔为单位归总在一起, 然后以它们的平均值绘制成图。这种计算平均值的做法掩盖了个体得分的巨大差异。在图 7–40 中,可以看到原始数据传递了一个不同的信息。这些数据与前面那幅图使用的数据完全相同。然而,它们看起来更像是猎枪射击留下的痕迹,而不是一个明显的线性趋势!后来,人们发现遗传得分只能解释教育成就上 9% 的差异。如果一定要将数据分组,那么所谓的箱形图可以更好地表示每个组中值的范围。
幸运的是,这篇论文的作者同时提供了数据传递的两种观点, 因此我们可以看到,用分组数据的平均值绘制图形可能具有很强的误导性。但并非所有作者都会如此公开透明。有时科学论文或关于研究结果的新闻报道只提供分组数据的平均值。因此,一定要小心,以免受到误导,错误地以为存在非常明显的趋势。
图片
READING
读者福利
图表数据操纵行为在学术论文、大众媒体中屡见不鲜,你是否曾深受其害?欢迎在本文评论区分享你被操纵后的数据“愚弄”的经历、或是在研究学习中对于统计分析和数据可视化的疑问,我们将从精选留言中抽 5 位读者,赠送《拆穿数据胡扯》1 本。
1. 留言收集将于 3 月 30 日(星期三)下午 17:00 截止。
2. 目前赠书邮寄仅限中国内地,如果您身在港澳台地区或国外,获得赠书后可以请国内亲友代收。
3. 中奖读者请在收到评论回复通知后 72 小时内,通过科研圈微信后台留言或本文评论区,提供详细联系方式(收件人姓名、地址、联系电话),以便邮寄赠书,未能及时提供联系方式的将视为弃权。 赠书将由出版社发出。
图片
点击在看,分享给更多的小伙伴

资讯网制作app网站郑州seo网站推广微信h5网站建设起个的英文翻译名男生设计河南网站平台网站制作方法成语起名字周易算命八字算命大师vue seo享受人生小说宝宝起名姓吕梦见拉屎周公解梦基于web的网站设计会计服务公司起名推荐seo甚么职业网页seo技术以姓氏起店名半夏可以在同一块地里种植吗周易占卜培训班周易姓名网下载关键字排名seo优化梦幻花园游戏破解版长宁区美食排行榜周易大盘预测码迷SEO周易适合公司起名侯姓女孩起名大全根据出生日起名大全陪你逐风飞翔电视剧免费观看设计师室内招聘网站少年生前被连续抽血16次?多部门介入两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”淀粉肠小王子日销售额涨超10倍高中生被打伤下体休学 邯郸通报单亲妈妈陷入热恋 14岁儿子报警何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言张家界的山上“长”满了韩国人?男孩8年未见母亲被告知被遗忘中国拥有亿元资产的家庭达13.3万户19岁小伙救下5人后溺亡 多方发声315晚会后胖东来又人满为患了张立群任西安交通大学校长“重生之我在北大当嫡校长”男子被猫抓伤后确诊“猫抓病”测试车高速逃费 小米:已补缴周杰伦一审败诉网易网友洛杉矶偶遇贾玲今日春分倪萍分享减重40斤方法七年后宇文玥被薅头发捞上岸许家印被限制高消费萧美琴窜访捷克 外交部回应联合利华开始重组专访95后高颜值猪保姆胖东来员工每周单休无小长假男子被流浪猫绊倒 投喂者赔24万小米汽车超级工厂正式揭幕黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发当地回应沈阳致3死车祸车主疑毒驾恒大被罚41.75亿到底怎么缴妈妈回应孩子在校撞护栏坠楼外国人感慨凌晨的中国很安全杨倩无缘巴黎奥运校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变王树国卸任西安交大校长 师生送别手机成瘾是影响睡眠质量重要因素国产伟哥去年销售近13亿阿根廷将发行1万与2万面值的纸币兔狲“狲大娘”因病死亡遭遇山火的松茸之乡“开封王婆”爆火:促成四五十对奥巴马现身唐宁街 黑色着装引猜测考生莫言也上北大硕士复试名单了德国打算提及普京时仅用姓名天水麻辣烫把捣辣椒大爷累坏了

资讯网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化