大数据获取新的开源项目:Apache arrow.
2021-06-13 10:44:08 [来源]:
Hadoop,Spark和Kafka已经对大数据的世界进行了定义影响,现在已经有了另一个Apache项目,甚至可以进一步塑造景观:Apache箭头。
星期三的Apache软件基础推出箭头作为顶级项目,旨在为不同系统提供高性能数据层,用于跨不同系统的柱状内存分析。
基础上,基于相关Apache钻探项目的代码,Apache arrow可以带来包括在分析工作负载超过100倍的性能提高的好处。通常,它通过消除跨系统通信开销来实现多系统工作负载。
该项目的代码提交者包括来自其他Apache大数据项目的开发人员,如方解石,Cassandra,钻,Hadoop,HBase,Impala,Kudu,镶木地板,凤凰,火花和风暴。
“开源社区已加入Apache Arrow的部队,”新项目副总裁Jacques Nadeau说,Apache钻头说。“我们预计将在未来几年内通过箭头处理世界的大多数数据。”
在许多工作负载中,70%至80%的CPU周期都花了序列化和反序列化数据。基金会表示,arrow通过使数据能够在系统中共享数据并在没有序列化,反序列化或内存副本进行处理来减轻负担。
“一个行业标准的柱状内存数据层使用户能够在单个工作负载中组合多个系统,应用程序和编程语言而在Apache孵化器和Apache arrow项目管理成员和Apache arrow项目管理成员的副总裁说委员会。
除了传统的关系数据之外,arrow还支持具有动态模式的复杂数据。例如,它可以处理JSON数据,该数据通常用于互联网(IOT)工作负载,现代应用程序和日志文件。用于许多用于更大互操作性的编程语言也可提供实现。
Apache Arrow软件可在Apache许可证V2.0下提供,并由自选择的活动贡献者团队监督该项目。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。