弗林特惨败呼吁重量级的数据分析
密歇根州弗林特市的水危机突出了一系列严重的问题:公共卫生的爆发;城市基础设施不足;环境不公;和政治上的失败。但在恢复方面,我们面临的主要挑战是缺乏有用的信息和理解,而这一挑战受到的关注相对较少。
谁的风险最大?铅的有害来源在哪里?资源应该分配到哪里?利用现代的大数据工具,我们可以回答这些问题,并帮助为应对这场危机提供信息。
随着支持我们学生团队在密歇根大学,我们已经汇总的Flint的水问题的数据,包括水质测试结果,即对土地和水的使用包裹家庭提供水,信息服务线记录的宝库。
借助新的算法和统计工具,我们能够对Flint的风险和挑战产生一个更完整的画面。
这些方法与Facebook、亚马逊(Amazon)和其他大型科技公司收集大量用户数据的方法非常相似。但是Facebook的面孔识别算法危机通过上传照片和亚马逊的模型预测哪些产品你会喜欢,我们使用这些分析工具来检测房屋高铅污染的风险和预测的位置导致管道埋在地下或隐藏在居民的住所。
我们学到了什么?以下是我们研究了几个外卖。
不同家庭的铅污染差异很大,在弗林特附近高度分散,但它是惊人的可预测的
关于弗林特的新闻标题很容易让人相信这个城市的所有家庭都有危险的高铅含量。但事实上,用州的数据哨兵程序我们在二月份期间只发现以上每十亿分之一(ppb)的15份联邦行动水平已经导致8之间15%的家庭。
事实上,根据sentinel项目的测试数据,从1月到8月,情况一直在改善。根据对大约750个家庭的反复监测,越来越少的家庭的测试超过了行动水平。几乎一半的样本几乎没有可检测的水平(低于十亿分之一)。
当我们不知道哪些房屋面临风险时,这些低数字并不能给我们带来多少安慰。根据政府数据,弗林特只有大约30%的家庭进行过水测试,而这些测试并不能保证安全;它们只识别危险。此外,从数据中可以清楚地看出,那些对水采样速度较慢的家庭往往面临更大的风险。
因此,我们可以找到这些家庭?答案是肯定的,只是一个温和的准确度。我们已经建立统计模型简介家庭为基础的几个属性(建筑,位置值的年份,体积),并提供风险水平的估计。
这些模型的质量取决于居民提交的大量水样数据,以及政府官员为应对危机而进行的检测。这为我们提供了一个测量数据数据库,其中包括从去年11月到现在覆盖弗林特大约1万个家庭的超过20,000个水样。
我们已经向政府官员提供了我们的风险评估,并且正在被整合到一个移动应用程序中,由谷歌资助它是由UM Flint的学生建造的,让Flint的居民了解他们家的风险水平。
这些统计模型不仅提供预测;他们也给一个更好的理解问题。这有更广泛的影响,因为这些因素导致预测可以概括超越火石。
数据表明,铅污染与许多因素相关联;老房子往往是更大的风险,例如,象那些较低的房屋价值。价值较低的家庭也往往是那些与水的采样率最低。另外,虽然最高读数在地理上分散,家预测为高风险往往在特定的街区集群。
弗林特的铅管记录参差不齐和喧嚣,但统计方法可以显著填补了国内空白
媒体报道和政治努力继续集中在所谓的“供水服务线路”上,这些线路将每家每户连接到街道上的配水系统。假设有铅服务线的家庭最容易接触铅和中毒。因此,大部分注意力都集中在寻找和替换这些线条上。
密歇根州立法机构已经拨款2500万美元用于替换有害的线路,首先是a大致250舍试验阶段。这项工作是由一个小组领导的国民警卫队准将。将军迈克尔·麦克丹尼尔。
的问题,但是,不仅是用线制成引线材料的出:铅颗粒可腐蚀镀锌钢管的壁上积聚。由铜或塑料的,在另一方面管,一般被认为是安全的。
但线路替换计划面临着迫在眉睫的挑战。最明显的是:这些危险的管道在哪里?
不幸的是,该市在服务线路安装和材料方面没有保持一致的记录。但经过一番搜寻,市政府官员最终找到了一套有手写注释的地图(最后一次更新是在1984年)UM弗林特研究团队带领由教授马蒂·考夫曼。这些似乎识别服务线的材料弗林特大多数家庭包裹。
如何完整,准确的是这些记录?不幸的是,不是很。对于家庭超过30%,无论是有缺失的标签或记录不同意维修线路的一部分的家庭检查。
我们可以再次填补空白与算法和数据的帮助。寻找在现有记录模式,统计工具可以提供一个合理的“的猜测”作为材料在家庭的服务线的类型。我们一直在与丹尼尔的管线更换团队直接合作,提供的铅管是最有可能在那里统计估计被发现,这也引导他们的接替资源的目标。
我们的建议是适应输入的数据,使用在线广告试验或临床试验中应用的技术,快速有效地识别出有风险的房屋。
我们的机器学习技术使用了所有可用的城市数据、包裹记录和一个超过3000份检查报告的数据库,能够以超过80%的准确率来估计生产线材料。例如,我们发现,20世纪20年代到40年代建造的房屋比60年代以后建造的房屋更有可能成为龙头。无论如何,我们的猜测并不完美,但估计这个水平可以节省数百万美元的恢复工作。
家庭服务热线可能不是铅的最大贡献者
尽管众多媒体的注意力集中在服务线路,从我们分析的一个主要外卖的是,这些服务专线可能不是带头弗林特的饮用水的主要驱动力。是的,它是用铜业务线的家庭有更低的铅含量,平均比那些在他们的服务线路引线的情况。但是,当你在水中测试数据仔细一看,差别比你想象的要小得多。
虽然很难肯定地确定由于参差不齐的纪录后,我们发现的是,铅大的尖峰发生在使用和不使用铅引入管线的家园。这表明可能不被通过服务线材料,而是由其他因素驱动的危险高铅读数的很大一部分。环境工程师谁研究这些问题报告说,铅可以从多个来源,包括家里的内饰水管,水龙头装置和老化的管道焊接浸出。
我们可以得出的结论是,公民和决策者可能需要将他们的关注范围扩大到服务线材料之外,并考虑采取替代措施来解决其他铅来源的问题。更换维修线当然是解决方案的一个必要部分,但还不够。
为了解决更广泛的问题,数据和统计工具可以帮助大大减少以低得多的成本风险,并在弗林特的问题,面向数据的理解可以指导力度地址其他地区的担忧最为严重也
这个故事最早出现在: