昨天,在Spark + AI峰会上,Apache Spark的团队宣布了 .NET for Apache Spark,这是一种流行的开源分布式处理引擎,用于分析大型数据集。它还可用于处理实时流,批量数据,机器学习和即席查询。
面向开发人员的.NET for Apache Spark
.NET for Apache Spark旨在使所有Spark API中的.NET开发人员都可以访问Apache Spark。 Apache Spark的团队旨在为开发人员(作为.NET Foundation成员项目)以及Spark和.NET社区开发用于Apache Spark的.NET。
.NET for Apache Spark附带了高性能API,用于使用C#和F#中的Spark。使用.NET API,用户现在可以访问Apache Spark的所有方面,包括streaming,Spark SQL,DataFrame,MLLib等。它允许开发人员重用所有技能,代码,知识和库。绑定到Spark的C#/F#语言将写在一个新的Spark互操作层上,这将提供更容易的可扩展性。 .NET for Apache Spark可以在Linux,macOS和Windows上使用,并且符合.NET Standard 2.0。
.NET for Apache Spark性能
.NET Spark for Apache Spark的第一个预览版在流行的TPC-H基准测试中表现良好。该基准测试包含一系列面向业务的查询。针对Apache Spark的.NET具有针对Python和Scala的更好性能。它也比Python快2倍。
还有什么功能可以预期?
在未来,该团队旨在简化文档和示例,并与Visual Studio,Visual Studio Code,Jupyter笔记本等开发人员工具进行本机集成。开发人员还可以期望.NET支持用户定义的聚合函数以及用于C#和F#的.NET惯用API(例如,使用LINQ编写查询)。该团队还致力于添加对Azure Databricks,Kubernetes等的支持,并为Spark Spark的Apache Spark提供.NET。
不过很少有用户对此消息感到兴奋,并期望使用.NET for Spark进行一些重大改进。
要了解有关此新闻的更多信息,请查看Apache Spark的帖子。
Linux公社的RSS地址:https://www.linuxidc.com/rssFeed.aspx
本文永久更新链接地址:https://www.linuxidc.com/Linux/2019-04/158312.htm
