博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark SQL概念学习系列之如何使用 Spark SQL(六)
阅读量:6153 次
发布时间:2019-06-21

本文共 891 字,大约阅读时间需要 2 分钟。

al sqlContext = new org.apache.spark.sql.SQLContext(sc)

// 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询
import sqlContext._
case class Person(name: String, age: Int)

  // 下面的 people 是含有 case 类型数据的 RDD,会默认由 Scala 的 implicit 机制将 RDD 转换为

SchemaRDD, SchemaRDD 是 SparkSQL 中的核心 RDD
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.
split(",")).map(p => Person(p(0), p(1).trim.toInt))
// 在内存的元数据中注册表信息,这样一个 Spark SQL 表就创建完成了
people.registerAsTable("people")
// sql 语句就会触发上面分析的 Spark SQL 的执行过程,读者可以参考上面的图示
val teenagers = sql("SELECT name FROM people WHERE age >= 13 AND age <= 19")
// 最后生成 teenagers 也是一个 RDD
teenagers.map(t =>"Name: " + t(0)).collect().foreach(println)

  通过之前的介绍,读者对支撑结构化数据分析任务的 Spark SQL 的原理与使用有了一定的了解。在生产环境中,有一类数据分析任务对响应延迟要求高,需要实时处理流数据,在 BDAS 中, Spark Streaming 用于支撑大规模流式处理分析任务。

 

 

本文转自大数据躺过的坑博客园博客,原文链接:http://www.cnblogs.com/zlslch/p/5725106.html,如需转载请自行联系原作者

你可能感兴趣的文章
UML类图简明教程
查看>>
java反编译工具(Java Decompiler)
查看>>
Android开发之自定义对话框
查看>>
微信Access Token 缓存方法
查看>>
Eclipsed的SVN插件不能识别之前工作空间的项目
查看>>
Linux 查看iptables状态-重启
查看>>
amazeui学习笔记一(开始使用2)--布局示例layouts
查看>>
c#中lock的使用(用于预约超出限额的流程)
查看>>
ODI基于源表时间戳字段获取增量数据
查看>>
012-Go ORM框架之Gorm测试
查看>>
Cocos Creator 获取当前URL取参数
查看>>
Linux安全检测常用方法
查看>>
scikit-learn K近邻法类库使用小结
查看>>
VMware安装centos虚拟机 通过NAT与主机互通并能上网
查看>>
Http请求的工具
查看>>
使用Kotlin进行Android开发
查看>>
springboot(三):Spring boot中Redis的使用
查看>>
[Python Web]常见的 POST 提交数据的方式
查看>>
Percentage Closer Filtering
查看>>
Vitamio SDK 2.0 新版发布(2012-08-31)
查看>>