回避大数据的大问题

图表图像由Pressmaster通过Shutterstock
今年春天,《卫报》(Guardian)公布了前美国国家安全局(NSA)合同工爱德华·斯诺登(Edward Snowden)泄露的材料。令人震惊的是,美国政府一直在系统地、秘密地收集、储存和寻找美国公民可能的恐怖主义计划模式。电话和电子邮件和一个巨大的规模。
这种入侵是可能的,因为计算机可以物理地收集和分析过去难以想象的大型数据集。我们将在下面讨论的大数据领域,很可能对整个世界,特别是对商业来说都是一个福音。但是,与每一个度量概念一样,也有需要避免的陷阱。
陷阱:放弃为什么而做什么
大数据意味着收集大量的信息,然后利用它来了解你的主题,而这些信息是用少量信息和不那么复杂的分析方法无法发现的。
这本书”大数据:一场将改变我们生活、工作和思考方式的革命这本书的作者肯尼斯·库克耶和维克多·迈尔-舍恩伯格解释说,大数据从三个方面改变了我们对信息的看法:
1.使用所有可用的数据,而不仅仅是样本集(“全部而不是部分”)
2.数据通常不那么规则(“凌乱而不干净”)
3.从因果关系转向相关性。简而言之,大数据之所以重要,是因为它让预测变得更容易。
据GreenBiz报道,商业世界已经开始使用大数据以获得更大的能源效率收益这在以前是不可能的。乔•马科威尔Joel Makower预计写道在这里“收集和分析所有这些数据将使公用事业和电网管理者——以及他们的客户——能够确保稳定可靠的能源供应,预测电价,并据此做出决策。”反过来,这将更好地管理现有的发电厂,减少新建发电厂的需求,并减少总体排放。”
Cukier和Mayer-Schoenberger提供了几个大数据预测能力大出风头的有趣例子,比如UPS让它的卡车车队按照一种反直觉的维护日程表运行,以及在社会领域,抢先捕捉到危及生命的早产儿疾病。
但在寻求“会发生什么”的时候,两位作者指出,忘记寻找“为什么”(为什么会出现这种结果?)是一种危险。
有时候你不需要为什么,只需要什么。诀窍在于知道什么时候必须找到根本原因,如果不这样做就会带来风险。举个为什么的例子,“为什么?但我们注意到,如今美国各地关于气候变化的讨论(如果有的话)都集中在适应计划的“什么”上。选择留在有限的结果和明显的保护措施的“什么”这一问题上,意味着我们可以继续把更为棘手的减缓气候变化“为什么”的对话踢在后面。
陷阱:将因果关系不恰当地联系在一起
作者还警告说,大数据在预测结果方面惊人的潜力,为模糊相关性和因果关系这种常见的行为陷阱创造了成熟的条件。作者说,这种思维上的转变“代表了一种转变,人们不再总是试图理解世界如何运转背后的更深层次的原因,而只是学习现象之间的联系,然后利用它来完成工作。”
一个例子就是谷歌研究流感的爆发通过分析关键字搜索。虽然在某个特定时刻了解更多的人在哪里考虑流感是非常有价值的,但认为每个用谷歌搜索“最近的药店”的人目前都生病了就大错特错了。相关性并不像许多教授经常告诉我们的那样,是因果关系。
现在,相关性并不是一件坏事。可持续的业务度量的从业者,可能不了解它,但是非常熟悉它,并且可能适应它固有的局限性。还有,相当令人惊讶的是,相关性公司的声誉最近升级了。背线:虽然相关性不能推断因果关系,但这是一个很好的开始寻找它的地方。
也就是说,在你的交流中,记住这些教授所说的话是很重要的,即使我们在寻找相关性方面已经做得很好了。如果你真的需要知道原因,最好咨询社会科学家。
陷阱:用苍蝇拍就够了,还是用大锤
大数据面临的一个相关问题是将其应用于任何和所有情况。《纽约时报》的一篇文章《大城市大数据的局限》描述了让人参与的更简单、低技术含量的解决方案——比如电子邮件链——优于大数据的例子。简单地问一个社区它想要什么可能胜过计算机预测结果的能力。
同样,人力资源部门在招聘和招聘决策中使用大数据也是一种奇怪的讽刺。本文描述了大数据是如何被用来寻找专业的高科技工人的,就像大海捞针一样。在搜寻过程中丢失的是一些无法测量的东西(至少现在还不能),比如本能:“当你将人类排除在复杂决策之外时,你可以彻底优化算法,但代价是什么?”
有时候,没有什么能取代老式的、全面的简历搜寻金矿。有些低效率可能值得保留。
陷阱:当政府(或其他任何人)做得太过
谈到斯诺登的泄密和更早的担忧,库克耶和迈尔-舍恩伯格说,“另一个担忧是,如果政府过于信任数据的力量,可能会发生什么。”“老大哥”的观点引发了人们对民主国家隐私与保护之间的恰当平衡的困惑。这种平衡现在正在改变吗?监控友好国家的通讯是否可以接受?我们中的许多人现在正就所有这些问题以及我们社会面临的非常艰难的决定进行公开辩论。这些问题对于民主在未来意味着什么至关重要。正如库克耶和迈尔-舍恩伯格所写的那样:
在他1999年的书中,就像一个国家,人类学家詹姆斯·斯科特(James Scott)记录了政府在量化和数据收集方面的热情,有时会让人们的生活变得悲惨。他们利用地图来决定如何重组社区,而不首先了解当地居民的情况。他们采用了所有不完美的、有机的方式,这些方式是人们长期以来互动的方式,并根据他们的需求加以调整,有时仅仅是为了满足对可量化秩序的渴望。
我们需要学习如何去做更好地处理机会、紧张关系和复杂性由我们个人、职业和公民生活中的大数据构成。可以说是制定了基本规则。
商业世界也有类似的例子,大数据将不可避免地(在某种程度上,已经)在华盛顿出现许多同样的隐私和公平问题。这甚至还没有进入可能带来新的隐私问题的私人无人机时代。
什么样的客户信息是公平的?应该要求什么样程度的数据挖掘公开?隐私和许多社会规范现在几乎完全消失了吗?这个价格可以接受吗?可持续性给这个问题带来了什么必威体育2018?是否有可能找到创造性的、战略性的、公平的、合乎道德的解决办法,即使必须容忍某些低效率?
结论:不要被大数据所阻挡
许多人非常重视大数据。也许他们是对的。就像前面提到的许多陷阱一样,但这里的陷阱更甚,这种对数字的超级使用是否会阻止我们看到一些东西?随着大数据让森林变得更容易理解(隐喻和字面意义上),我们是否会错过更多从树木中学到的东西?
对数据、技术和效率的日益重视,不会让人们更容易忽视可持续性中仍然普遍被低估的社会和公平方面。必威体育2018但或许,如果大数据的隐私问题和上述其他问题能以远见、创造力和更强的公平感来面对,我们可能会发现,它们实际上有助于我们走向可持续发展,让我们当中的怀疑论者感到惊讶。必威体育2018
这样我们就有可能避免早期突破性技术的共同命运:至少向前迈一步,然后后退半步。
编者按:本文是系列文章的第七篇,该系列文章从商业世界之外的经验教训中,审视了可持续发展测量的陷阱。必威体育2018有关其他上下文,请参见第一部分,第二部分,第三部分,第四部分,第五部分,第六部分。
图表图像Pressmaster通过在上面