火花:抽样与DataFrame之间的相互转换方法 - 行业资讯 - 肥雀云

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化.DataFrames可以从各种各样的源构建,例如:结构化数据文件,蜂巢中的表,外部数据库或现有抽样。

DataFrame API可以被Scala中,Java、Python和R调用。

在Scala和Java中,DataFrame由排的数据集表示。

在Scala API中,DataFrame只是一个类型别名数据集(行)。而在Java API中,用户需要Dataset用来表示DataFrame。

在本文档中,我们经常将Scala/Java数据集行称为DataFrames。

<强>代码如下:

　　　　　　# - * -编码:utf - 8 - * 　　从__future__进口print_function 　　从pyspark。sql进口SparkSession 　　从pyspark。sql进口行　　　　if __name__==癬_main__”: 　　#初始化SparkSession 　　火花=SparkSession \ 　　.builder \ 　　.appName \ (“RDD_and_DataFrame”) 　　. config (“spark.some.config。选择”、“有价值”)\ 　　.getOrCreate () 　　　　sc=spark.sparkContext 　　　　行=sc.textFile (“employee.txt”) 　　部分=线。地图(λl: l.split (", ")) 　　员工=部分。地图(λp:行(name=p[0],工资=int (p [1]))) 　　　　#抽样转换成DataFrame 　　employee_temp=spark.createDataFrame(员工) 　　　　#显示DataFrame数据　　employee_temp.show () 　　　　#创建视图　　employee_temp.createOrReplaceTempView(“雇员”) 　　#过滤数据　　employee_result=火花。sql(“选择名称,工资从员工工资在工资=14000 & lt;=20000”) 　　　　# DataFrame转换成抽样　　结果=employee_result.rdd。地图(λp:“名字:”+ p.name +“工资:”+ str (p.salary)) .collect () 　　　　#打印抽样数据　　结果:n的　　打印(n) 　　之前　　　　

火花:抽样与DataFrame之间的相互转换方法

以上这篇火花:抽样与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。