火花:抽样与DataFrame之间的相互转换方法

  

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架,但其经过了优化.DataFrames可以从各种各样的源构建,例如:结构化数据文件,蜂巢中的表,外部数据库或现有抽样。

  

DataFrame API可以被Scala中,Java、Python和R调用。

  

在Scala和Java中,DataFrame由排的数据集表示。

  

在Scala API中,DataFrame只是一个类型别名数据集(行)。而在Java API中,用户需要Dataset用来表示DataFrame。

  

在本文档中,我们经常将Scala/Java数据集行称为DataFrames。

  

  

<强>代码如下:

        # - * -编码:utf - 8 - *   从__future__进口print_function   从pyspark。sql进口SparkSession   从pyspark。sql进口行      if __name__==癬_main__”:   #初始化SparkSession   火花=SparkSession \   .builder \   .appName \ (“RDD_and_DataFrame”)   . config (“spark.some.config。选择”、“有价值”)\   .getOrCreate ()      sc=spark.sparkContext      行=sc.textFile (“employee.txt”)   部分=线。地图(λl: l.split (", "))   员工=部分。地图(λp:行(name=p[0],工资=int (p [1])))      #抽样转换成DataFrame   employee_temp=spark.createDataFrame(员工)      #显示DataFrame数据   employee_temp.show ()      #创建视图   employee_temp.createOrReplaceTempView(“雇员”)   #过滤数据   employee_result=火花。sql(“选择名称,工资从员工工资在工资=14000 & lt;=20000”)      # DataFrame转换成抽样   结果=employee_result.rdd。地图(λp:“名字:”+ p.name +“工资:”+ str (p.salary)) .collect ()      #打印抽样数据   结果:n的   打印(n)   之前      

火花:抽样与DataFrame之间的相互转换方法

  

以上这篇火花:抽样与DataFrame之间的相互转换方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持。

火花:抽样与DataFrame之间的相互转换方法