IBM对Spark的采用预示着大数据的革新

2019-11-27 16:30:53 编辑：来源：

导读上周，IBM终于放弃了大数据运动中的一项关键技术，转而把精力放在了一个新的竞争对手身上。该公司正在将Apache Spark添加到其开源大型数据处理软件组合中，使长期存在的system MapReduce黯然失色。该公司称Spark是十年来最重要的开源项目，并承诺将该技术嵌入其分析和商业平台，并在自己的公共云基础设施上提供Spark服务。蓝色巨人还将把它的SystemML机器学习技术捐赠给S

上周，IBM终于放弃了大数据运动中的一项关键技术，转而把精力放在了一个新的竞争对手身上。该公司正在将Apache Spark添加到其开源大型数据处理软件组合中，使长期存在的system MapReduce黯然失色。

该公司称Spark是十年来最重要的开源项目，并承诺将该技术嵌入其分析和商业平台，并在自己的公共云基础设施上提供Spark服务。蓝色巨人还将把它的SystemML机器学习技术捐赠给Spark开源运动。为什么?

Spark是一个用于数据处理的通用框架，设计用于运行在多个不同计算机集群中同时处理数据的应用程序。这解决了两个与处理大量数据相关的常见问题。

首先，非常大的数据集可能需要很长时间才能跨越网络转移到一台单独处理它们的计算机上。其次，一些大型数据应用程序，如机器学习，要求所有数据同时存储在内存中。这对于一台计算机来说是非常困难的，当你谈论tb级的东西时。这就是为什么Spark被描述为机器学习应用程序的有用工具，而机器学习应用程序通常需要大量的经验数据。

在历史上，对于许多人来说，跨计算机集群处理大型数据集的首选技术是MapReduce，它是为大型数据处理平台Hadoop分配处理任务的技术。

Hadoop也是Apache基金会的产品，受到包括IBM和HP在内的各种供应商的支持。IBM基于Apache开源发行版发布的Hadoop称为IOP。

IBM全球大数据分析平台技术销售主管Dirk deRoos认为，Spark作为Hadoop的工具，正在超越MapReduce。他说，它为程序员提供了更富表现力的API，使他们能够用数据处理做更广泛的事情。这意味着它们可以用于不同的工作，他补充说。

“MapReduce非常擅长批量处理符合严格的Map和Reduce模型的应用程序，而Sparkis要灵活得多，”他说。

spark可以用于批量应用程序，也可以用于交互式应用程序。当用户询问问题时，比如SQL查询，并希望在几秒钟或更少的时间内返回结果，”他继续说道。它还可以用于近乎实时的应用程序，比如处理跨neetowrk的数据流。

MapReduce的缺点很可能影响了谷歌在一年前有效地放弃这项技术。去年6月，它宣布将取代MapReduce，一个它自己建立的新的云分析系统，称为云数据流。

IBM也许会把精力集中在Spark上，但它不会放弃MapReduce。只要Apache开源项目将该技术包含在Hadoop中，它就会继续发布该技术，但IBM现在也将Spark整合到自己的Hadoop发行版中。Spark既可以用于Hadoop项目，也可以用于其他非Hadoop项目。

与Hadoop一样，Spark也可以在IBM的完全开源发行版上使用，即Apache Hadoop的开放平台。但是，它还将被绑定到IBM生产的其他应用程序框架中。

deRoos将Spark称为一项服务的云实现正在Bluemix上测试，Bluemix是一个基于开源云计算项目的云环境。他说，这是为了帮助开发人员在线混合和匹配不同的应用程序。

deRoos总结道:“park.com非常适合机器学习应用程序，这使得将机器学习功能集成到处理数据的Bluemix应用程序中成为可能。”

标签： IBM