如何使用大数据以及为什么我们需要互操作性

解决大数据问题有许多不同的组件和系统,其中一个重大挑战是互操作性将组件插在一起以在一个系统和另一个系统之间传输数据可能会产生高成本Apache Arrow项目是如何解决问题的一个很好的例子与互操作性相关的成本,速度和灵活性它是十几个大数据项目的合作,决定创建一种技术,使他们能够更有效地将系统集成在一起,快速移动数据并在内存中处理它而无需大量的转换对这样的项目充满热情的人是Wes McKinney,他是在对冲基金AQR Capital Management开始Pandas开源项目的着名数据科学家,McKinney在过去的七年里一直在Python开源生态系统工作,后来为Cloudera工作,构建Python开源数据科学堆栈之间的集成大数据Hadoop生态系统新闻周刊将于12月6日至7日在纽约举行的资本市场会议上主持人工智能和数据科学图片:新闻周刊媒体集团他去年作为软件工程师回归量化交易世界麦金尼表示,不同的数据管理系统花费80-90%的时间在一种格式和另一种格式之间进行转换“每个系统都会说一种不同的语言,因此[Apache Arrow]为数据建立了一种高效的通用语言,我们可以使用它来使整体更大其部分的总和“去年,作为Apache Arrow项目的一部分,McKinney与R社区的知名开发人员Hadley Wickham合作,他们建立了一个名为Feather的小文件格式,一种可互操作的高速数据存储格式R和Python在两个社区都很受欢迎“你发现许多数据科学家在他们的工作中同时使用R和Python,所以他们能够打破在这个墙上,能够在环境之间更加流畅地过渡,“McKinney说道

”某些任务中R是一个更强大的工具,特别是在数据可视化和统计中,并且某些任务中Python是更强大的工具,特别是软件工程和机器学习能够构建一个可以轻松来回移动的混合分析环境非常有用“这项技术在Apache Spark项目中也很有用,它具有Python和R编程接口

一般来说,它们可以是比本机Scala语言接口慢“你可以使用Spark和Python以及R,但由于数据传输效率低,你会因性能而受到损失,”McKinney表示,这项重要的工作是在Two Sigma的开源容量中进行的,与IBM和一些Spark开发人员合作,在Python和Apache之间建立更好,更紧密的集成.Apache Arrow一直是数据交互建立桥梁的可操作性技术 - 麦金尼在波士顿Spark峰会上所说的话两西格玛聘请了大量的研究人员,需要一流的工程团队来推动其数据科学平台的创新

鉴于近年来创新的快速发展,该公司已选择利用开源技术堆栈中的最佳功能

例如,Two Sigma已经建立了一个名为Flint的开源项目,这是一个可扩展的时间序列分析软件包,用于Spark McKinney说:“这是一个主要的在生态系统中需要Spark擅长传统的SQL类型的关系数据和ETL(提取,转换,加载)工作负载;对于时间序列数据来说,它不是一个强大的工具,我们处理大量的时间序列数据,因此这是我们投资的一个领域我们认为参与开源是正确的方法我们也参与其中在Python Pandas项目中“从他在Pandas工作的经验来看,McKinney说他从行业用户那里学到了很多有价值的东西,他们会把他们遇到的真实世界问题带到桌面上

日常的数据清理可能看起来不太性感,但是它帮助定义了要添加到项目中的新功能  “你会惊讶于你在野外看到的不同数据输入格式的数量;多年来我们不得不在Pandas中发展工具,以满足全球数十万用户的需求

,“ 他说

上一篇 :据报道,三星聘请国防部提高移动安全性
下一篇 '王国之心III'导演不确定何时会有更多新闻传来