Doug切割,'Hadoop的“父亲”,谈论大数据技术演变
在伦敦最近的Strata会议上,Doug Chink,Hadoop Constor and Hadoop分销商Cloudera的首席建筑师,花时间每周与计算机谈论大数据软件的戏剧状态。
切割(图)是雅虎的阿德福的创始人,其中他和他的同事们将PromapreedureaIdea分析出来的数据工作负载,然后将结果从谷歌减少回来并将其更广泛地应用于软件框架,然后以孩子的玩具命名,Hadoop。
在此场合,他谈到了他公司技术的新网络安全应用,火花的作用,以及开放的源。以下是该面试的编辑成绩单。
计算机每周:你在做什么?
切割:我一直在帮助Cloudera和Intel与Apache Spot项目,这是一个开源,大数据样式的网络安全。这是具有扫描的滤波器的经典方法,该滤波器扫描某人在先前攻击方面手动编码的特定类型的行为。这很难以这种方式捕获新的攻击。虽然如果您构建定义通常行为的模型,则可以捕获异常。
计算机每周:但这是一个旧信息安全方法 - 异常检测。它如何移动?
切割:我们现在拥有马力来存储和处理更多的数据,带有Hadoop和[并行处理框架]火花。此外,我们正在尝试具有网络数据的标准格式,因此不同的公司可以构建检测入侵的不同应用程序,以便我们可以拥有网络安全生态系统,是网络安全的开放数据模型。我们一直是Cloudera的水平播放,但在这种情况下,我们确实想要支持行业特定的数据,并且可能有机会为其他行业(如Telco)或IOT [事物互联网]这样做。
计算机每周:开源可能是一个好的来源,但这是企业的力量吗?CIO对他们的开源供应商感兴趣。
切割:不,开源是企业的要求。公司越来越不愿意采用无法开放的技术,以获得其基本存储和处理数据。但它也是开发软件的更好模型,因为您有更多的人参与该过程。当您获得由单个机构控制的技术时,它将成为一头现金牛。公司无法轻易造成基本变化,而不会威胁其现有业务。例如,对于Cloudera,我们从一开始就将Hadoop的MapReduce元素作为核心组件。但Spark已经过来了,是一个更好的工具。
计算机每周:有火花现在eclipsed mapreduce?
切割:在许多情况下,它有。有趣的是,它不会威胁我们的业务;相反,它使它更强大,即使它是来自外部的技术。Oracle会发现很难 - 将其数据库用Spark替换,并说服客户更换它。我们在数据库技术中看到了比我们现在的专有技术在数据库技术中看到了很多手推车。
计算机每周:那么,原始Hadoop技术堆栈中的多少是在Cloudera?
切割:HDFS,MapReduce和Yarn仍然很多。例如,Uber使用MapReduce。它没有死,但是这样做,说,带有mapReduce的机器学习算法是笨拙的。有图书馆可以在火花中进行机器学习。或者如果您正在进行流,您可能会使用[消息传递系统] Kafka或Spark Streaming。
计算机每周:2017年,我们现在与Hadoop的演变在哪里?我们之前说过,在使用Hadoop,以促进更具创新的商业模式,我们介绍了换取成本。它仍然主要是关于从储存中取出成本?
切割:在使用的第一年,主要是从储存中取出成本。或组合您之前无法组合的数据源 - 这是另一个开始的方法。相当迅速,我们看到有两三种应用的人,使用平台进行实验和创新。这将是未来。它曾经是您建立了一个满足业务需求的应用程序,并且您运行了20年。您没有部署目的是创新的平台。现在你想先获得胜利,然后开始探索。
计算机每周:返回2012年,我在加利福尼亚州软件工程公司通过华尔街和城市到更多主流公司,我向您询问了“穿越鸿沟”的大数据技术。你说那将是稳定的增长。
切割:这就是我们所看到的。我非常乐观的长期,但是当你看看短期时,它是欺骗性的。你会看到各种分析师说“人们已经使用过Hadoop并且它失败了”。除非您在与之合作的业务中,否则这并不容易。
计算机每周:回到网络安全工作,这是由机器学习的标题进行吗?你对那个地区有什么关系,这是所有的愤怒?
切割:它确实如此。我采取的是那里有真正的东西。但是使用更简单的方法也有很多值。如果您在未来十年内查看业界,我认为机器学习将是我们业务的较小部分,而且业内的行业比传统数据管理方法更小。能够获得更多的数据更集成并能够计算您之前无法轻易计算的东西。大多数公司仍然无法做到这一点,当他们能够,他们会得到很多价值。有很多房间可以部署ml和ai,但它不会产生更多传统的数据库,搜索和分析技术。