Apache的Spark架构加速数据作业,撵走了MapReduce

它的大数据处理功能集合吸Apache的Spark架构进行更广泛的部署。一个重要的特点:性能星火MapReduce的速度超过很多Hadoop的使用案例。

提供快速的内存处理,高层次的学习机库和集成数据流功能,开放源码的Apache Spark架构的不断发现无论是在网络新贵与传统企业设置的更多的追随者。
在Databricks组织星火东峰会2016年在纽约,用户共享他们的理由雇用Spark架构,融合了它一个基本的内存分析引擎几个有用的API。他们的经验和别人的增加重量最近的市场研究媒体估计,全球范围内,星火市场可能在2020年达到$ 4.2十亿。

越来越多的Spark是在努力在运动中处理数据的心脏和欺诈检测的最好的例子之一。

克里斯·达戈斯蒂诺,在资本之一,总部设在弗吉尼亚州麦克莱恩,技术副总裁,告诉他的团队使用星火硬化其针对金融诈骗环防御高峰会的人群,即使银行的数字应用创造更多的数字数据。火花的目标是切断时的一系列的欺诈行为开始发生之间的差距,以及时间的活动被识别,并且停止。

它开始流

达戈斯蒂诺说,Capital One公司已经使用的Spark流,以大型数据集的历史信息相结合,同时使用星火的SQL接口和图形数据格式。

“这是星火一直对我们非常有用,”达戈斯蒂诺说。“我们可以在SQL和图形格式的信息相结合,创造执行模型做出决策的得分。” 该数据被送入星火的机器学习工具来帮助识别假身份证和假帐户注册的可能的情况下,根据达戈斯蒂诺。

他说,Capital One公司使用Databricks“支持的连接器链接亚马逊红移数据星火,允许在Amazon Web服务云应用快速处理更多的数据,并寻求在数据更多样化的功能 - 那些可能会发现骗子。

达戈斯蒂诺说,他的球队与开源的Apache Spark架构组件的努力是一个更大的资本之一的努力,IT敏捷沿着线模型的一部分​​。团队组织基于“堆栈”,它通常包括企业架构师,数据科学家和其他分析,用户界面​​开发人员和工程师的数据处理谁在中间层和数据基础设施项目。

MapReduce的减弱

与长期的Hadoop体验店继续带来火花 - 在许多情况下,从Hadoop的1.0的原始MapReduce的处理引擎移位工作为较新的格式。
“星火一直在稳步许多进军”作为一个数据平台,支持分析电子商务的组件,Seshu Adunuthula,在eBay公司的分析基础架构负责人,总部设在加州圣何塞说。

像其他的电子商务网站,eBay正在看到一个大的转向使用移动设备,甚至为它增添了每周880万的房源。与此同时,易趣认为有必要对网站的体验,这需要改善内部分析功能更加个性化。

在星火会议,Adunuthula描述一个多年的努力,eBay已经取得开拓基于Hadoop的使用增加公司内部灵活的分析,现在伴随着使用星​​火提高。

电火花加工速度超过MapReduce的在一些重要的用例,Adunuthula表示。他说,eBay正在转换“经典的MapReduce工作”即修建从MapReduce的多维分析立方体的火花。

在您的实时竞价

位于波士顿的公司DataXu使用星火亮起大量使用Hadoop和机器学习其原有的MapReduce的数据处理引擎的高跟鞋,贝丝洛根,优化的高级主管。DataXu是一个Web公司,使市场对网络广告实时竞价。

“星火比较快,”洛根说,呼应其他人谁也进站的结论MapReduce的对抗火花。此外,她说,星火的ML管道接口用来生产方式的MapReduce无法自动机器学习迭代处理。

这是很重要的,因为DataXu数据流是艰巨的。洛根说,该公司的系统处理高达每秒160万的请求,同时匹配在Web上提供现场广告的广告客户。星火速度是一个好处 - 还有其他的。

火花DataXu的一大吸引力是它的机器学习库,洛根说,注意到DataXu原有的MapReduce系统依靠自主开发的代码来实现机器学习。对于分布式部署机器学习的代码是很难写和调试,并且在成为一个更大的社区软件工作的一部分些许安慰,她表示。

偏爱开源

由于星火学习机库是开源的,她说,“我们没有发现每臭虫自己。这也意味着更高的可靠性,我们有以下的我们自己的代码来维持。”
组件如它在内存中处理引擎和高层次的学习机库已经帮助阿帕奇星火体系结构得到当前大数据的努力一个独特的地方-但它的开源特性与从Apache的Hadoop生态系统中的其他软件共享。这仍然是许多大数据分析的购买决定一个主要因素。

“谁是作出这些决定的人对开源的偏好,”托马斯·斯莫尔,总部设在牛顿的独立顾问说,大众“。一般来说,那些人更喜欢开源产品比商业产品。”

斯莫尔建议,这并不意味着这些用户不会购买商业产品。然而,这确实意味着,有一个明显的偏爱尽可能开源。这主题贯穿在峰会上许多星火讨论跑去。

 

DLCoder编译自:http://searchdatamanagement.techtarget.com/news/4500277430/Apache-Spark-architecture-speeds-data-jobs-ousts-MapReduce

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: