手机版
你好,游客 登录 注册
背景:
阅读新闻

BlazingSQL开源了,基于RAPIDS构建的GPU加速SQL引擎

[日期:2019-08-07] 来源:Linux公社  作者:醉落红尘 [字体: ]

昨天,BlazingSQL团队在Apache 2.0许可下开源BlazingSQL。 它是一个基于RAPIDS生态系统构建的轻量级,GPU加速的SQL引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL首席执行官Rodrigo Aramburu在媒体博客文章中写道:“随着RAPIDS的采用不断普及,开源的BlazingSQL加快了我们的开发周期,让我们的产品掌握在更多用户手中,并使我们的许可和消息与更大的RAPIDS人工智能生态系统保持一致。”

Aramburu将RAPIDS称为“下一代分析生态系统”,其中BlazingSQL作为SQL标准。 它还可以作为cuDF的SQL接口,cuDF是一个用于加载,连接,聚合和过滤数据的GPU DataFrame(GDF)库。

以下是BlazingSQL如何适应RAPIDS人工智能生态系统的概述:

使用BlazingSQL的优点

  • 经济高效:客户通常需要集中数千台服务器来大规模处理数据,这可能非常昂贵。 BlazingSQL只占基础设施的一小部分,以同等规模运行。
  • 更好的性能:在提取,转换和加载数据时,BlazingSQL比Apache Spark群集快20倍。它可以在几秒钟内生成GPU加速结果,使数据科学家能够快速迭代新模型。
  • 轻松扩展工作负载:通常,工作负载首先以小规模进行原型设计,然后针对分布式系统进行重建。使用BlazingSQL,您只需编写一次代码,可以根据分发的规模动态更改代码,只需最少的代码更改。
  • 连接到多个数据源:它连接到多个数据源,用于查询本地和分布式文件系统中的文件。目前,它支持AWS S3和Apache HDFS,团队计划在未来支持更多。
  • 运行联合查询:它允许您在联合查询的帮助下以原始格式直接将原始数据查询到GPU内存中。联合查询允许您跨多种数据格式连接来自多个数据存储的数据。它目前支持CSV,Apache Parquet,JSON和现有的GPU DataFrame。

NVIDIA的数据科学总监Josh Patterson在公告中表示,“NVIDIA和RAPIDS生态系统很高兴BlazingSQL开源其基于RAPIDS的SQL引擎。 通过在GPU上利用Apache Arrow并与Dask集成,BlazingSQL将扩展开源功能,并推动加速数据科学生态系统中的下一波互操作性。“

Linux公社的RSS地址https://www.linuxidc.com/rssFeed.aspx

本文永久更新链接地址https://www.linuxidc.com/Linux/2019-08/159895.htm

linux
相关资讯       RAPIDS  BlazingSQL  BlazingSQL开源 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数

       

评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款