b、提供SQL方法,可以创建临时或者全局的数据表直接写sql语句对數据进行操作。
|
|
|
|
|
选择某些列生成新的DataFrame 注意:列的选择采用 内置的 col(“列名是啥”)函数 支持对列的值加減,重命名alias等操作 表示对列age的每一个值加1并且重命名为age1 |
如图中,age列的类型由long类型变为string类型 |
|
|
按条件对列的值进行过滤多个条件用and或者or函數关联 |
|
|
|
按列分组,进行count、sum、max、min等统计操作 1、可以一次对单列或者多列进行同一种聚合 2、也可以一次对单列或者多列进行多种聚合 |
|
|
|
|
|
新增一列并给列赋新的值 |
|
按指定列进行排序 |
对两个dataframe进行连接操作,共包含三个参数
第一个参数是需要连接的dataFrame 连接的列的列名是啥须不同,可以在join之前对某个dataframe的列名是啥重命名下 |
|
支持以json格式输出到分布式文件系统 支持以csv格式输出到分布式攵件系统 支持输出到外部sql中详见第5节与JDBC交互 |
可以创建临时表或者全局表,采用SQL语句操作数据
#2)创建全局表,进行操作相比于临时表,可以跨不同SparkSession共享同一张表
发布了20 篇原创文章 · 获赞 18 · 访问量 3万+