DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化.DataFrames可以从各种各样的源构建,例如:结构化数据文件,蜂巢中的表,外部数据库或现有抽样。
DataFrame API可以被Scala中,Java、Python和R调用。
在Scala和Java中,DataFrame由排的数据集表示。
在Scala API中,DataFrame只是一个类型别名数据集(行)。而在Java API中,用户需要Dataset
在本文档中,我们经常将Scala/Java数据集行称为DataFrames。
<强>代码如下:强>
# - * -编码:utf - 8 - * 从__future__进口print_function 从pyspark。sql进口SparkSession 从pyspark。sql进口行 if __name__==癬_main__”: #初始化SparkSession 火花=SparkSession \ .builder \ .appName \ (“RDD_and_DataFrame”) . config (“spark.some.config。选择”、“有价值”)\ .getOrCreate () sc=spark.sparkContext 行=sc.textFile (“employee.txt”) 部分=线。地图(λl: l.split (", ")) 员工=部分。地图(λp:行(name=p[0],工资=int (p [1]))) #抽样转换成DataFrame employee_temp=spark.createDataFrame(员工) #显示DataFrame数据 employee_temp.show () #创建视图 employee_temp.createOrReplaceTempView(“雇员”) #过滤数据 employee_result=火花。sql(“选择名称,工资从员工工资在工资=14000 & lt;=20000”) # DataFrame转换成抽样 结果=employee_result.rdd。地图(λp:“名字:”+ p.name +“工资:”+ str (p.salary)) .collect () #打印抽样数据 结果:n的 打印(n) >之前
以上这篇火花:抽样与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。
火花:抽样与DataFrame之间的相互转换方法