跳到主要内容

弗林特的惨败需要强有力的数据分析

在密歇根州弗林特,水危机凸显了一些严重的问题:公共卫生爆发;不足的城市基础设施建设;环境不公;和政治失败。但是,当涉及到复苏,面临的主要挑战 - 和一个已收到相对较少的关注 - 是我们缺乏有用的信息和了解。

谁是最危险的?哪里是铅的有害来源是什么?应该在哪里的资源分配?用现代的大数据工具,我们可以回答这些问题,并帮助告知对这场危机的反应。

在我们的支持下密歇根大学的学生团队,我们已经聚集一批可用的数据在弗林特的水问题,包括水测试结果,为家庭服务的记录行,送水,土地和水资源使用的包裹信息。

利用新的算法和统计工具,我们能够生产的弗林特的风险和挑战显著更完整的画面。

这些方法强烈类似于那些被Facebook,亚马逊等大型科技公司谁收集大量来自用户的数据的使用。But whereas Facebook's algorithms crunch through uploaded photographs to detect faces and Amazon’s models predict which products you’ll like, we are using these analytics tools to detect homes with high risk of lead contamination and to predict the locations of lead pipes buried underground or hidden in the homes of residents.

我们学到了什么?以下是我们从研究中得出的一些结论。

不同家庭的铅污染差异很大,在弗林特附近高度分散,但它是惊人的可预测的

在弗林特的头条新闻很容易会导致人们相信在全市所有家庭都有危险的高浓度的铅。但事实上,使用从国家的数据哨兵程序我们发现,在2月份的一段时间里,只有8%到15%的家庭的铅含量高于联邦标准的15亿分之15。

事实上,事情已经一月至八月改善,根据来自定点程序的测试数据。基于多次监测约750家,少的家庭已经超过行动水平随着时间的测试。几乎一半的样品几乎没有可检测水平(低于十亿分之1层的部分)。

这些低号提供了些许安慰,当我们不知道这家是处于危险之中。弗林特家中只有约30%有他们的水进行测试,根据政府公布的数据,而这些水试验并不能保证安全;他们只能识别危险。而且,从数据中明确表示,家庭是慢品尝他们的水往往是那些在风险要大得多。

我们能找到这些房子吗?在一定程度上,答案是肯定的。我们已经建立了基于几个属性(建造年份、位置、价值、大小)来描述房屋的统计模型,并提供了风险级别的估计。

这些模型的质量是由居民在应对危机,并提交政府官员测试水样的数据的巨大的大片驱动。这为我们提供了测量数据库,其中包括覆盖在弗林特大约一万家园从十一月到现在超过20,000的水样。

我们已经取得了我们的风险评估提供给政府官员,以及正在被纳入一个移动应用程序,由谷歌并通过学生UM燧石建造,允许弗林特居民了解他们的家庭的风险水平。

雅戈尔性能有降低铅含量,平均基于90个百分点(蓝线)。有上述联邦行动水平15 PPB(虚线红色)试验8%,仍有些远高于150ppb的和甚至1000 ppb的。采样的最高0.5%,未示出。

这些统计模型不仅提供预测;它们还能更好地理解问题。这有更广泛的影响,因为这些预测铅的因素可能超出弗林特的范围。

数据表明,铅污染与许多因素有关;例如,老房子往往风险更大,那些房屋价值较低的房子也是如此。价值较低的房屋往往是那些水样采样率最低的房屋。此外,虽然最高的读数在地理上是分散的,但预计处于高风险的家庭往往集中在特定的社区。

Flint的铅管记录是不稳定的和嘈杂的,但统计方法可以显著地填补空白

媒体报道和政治努力,继续把重点放在使每座房子连接到分发系统在大街上所谓的“水服务线”。的假设是,与铅服务线的家庭大多处于铅暴露和中毒的危险。其结果是,大部分的注意力一直在寻找和更换这些线路。

密歇根州立法机构已拨出超过2500万$朝着取代有害的线条,与开始试点阶段约250户。这项工作是由下一个球队当家了国民警卫队准将迈克尔·麦克丹尼尔

然而,问题不仅存在于铅材料制成的管线上:铅颗粒可能会积聚在腐蚀的镀锌钢管的内壁上。另一方面,铜或塑料制成的管子通常被认为是安全的。

但线路替换计划面临着迫在眉睫的挑战。最明显的是:这些危险的管道在哪里?

城市,不幸的是,没有维护服务管线安装和材料一致的记录。但是,市政官员最终发现,经过一番搜索,一组具有手写批注(在1984年最后更新)地图,这些记录是由一个数字化嗯弗林特马蒂·考夫曼教授研究团队领导。这些似乎可以确定弗林特大多数家庭包裹的服务线的材料。

这些记录有多完整和准确?不幸的是,不是很。对于超过30%的家庭来说,要么是标签缺失,要么是记录与部分服务线路的家庭检查不符。

在算法和数据的帮助下,我们可以再次填补空白。在现有记录中寻找模式,统计工具可以提供一个合理的“有根据的猜测”的材料类型在一个家庭的服务线。我们一直在与麦克丹尼尔的生产线更换团队直接合作,提供铅管最有可能被发现的统计估计,这指导了他们的更换资源的目标。

我们的建议是适应传入的数据,使用在线广告的实验或临床试验应用技术,快速有效地识别风险的家园。

我们的机器学习技术,它使用所有可用的城市数据,包裹记录和3000检验报告数据库,能够估计线材料具有更好的超过80%的准确率。我们发现,例如,是建于上世纪20年代到20世纪40年代的房子很多倍更有可能比那些1960年以后建造的有铅在他们的服务线。我们的猜测是没有任何手段完善,但这种程度的估计可以节省数百万美元的恢复工作。

家居服线未必是铅的最大贡献者

尽管媒体的大量关注集中在服务线路上,但我们的分析得出的一个主要结论是,这些服务线路可能不是弗林特饮用水中铅的主要驱动因素。是的,这是事实,那些使用铜服务线路的家庭,平均来说,比那些在他们的服务线路中使用铅的家庭有更低的铅含量。但当你仔细观察水测试数据时,你会发现差异比你想象的要小得多。

虽然由于记录上的斑点,很难确定,但我们发现,在有和没有铅维修线路的家庭中,都会出现较大的铅峰值。这表明,很大一部分危险的高铅含量读数可能不是由管线材料驱动的,而是由其他因素驱动的。研究这些问题的环境工程师报告,可以浸出从几个来源,包括家庭内部的管道、水龙头装置和老化管道焊接。

根据记录和家庭检查,我们可以观察那些似乎只有铜的服务线路和那些含有铅的服务线路的家庭。我们绘制了这两类家庭水样的铅读数分布。

我们可以得出的结论是,公民和决策者可能需要将他们的关注范围扩大到服务线材料之外,并考虑采取替代措施来解决其他铅来源的问题。更换维修线当然是解决方案的一个必要部分,但还不够。

为了解决更广泛的问题,数据和统计工具可以帮助大大降低风险,以更低的成本,并以数据为导向的理解问题在弗林特可以指导努力解决在其他地区领先的担忧为好。

这个故事首次出现在:

对话

关于这个话题的更多信息