拼花介绍及简单使用

  


<强>

<强>


,,,,

//,读取,Parquet 文件   val  usersDF =, spark.read.load(“/测试/users.parquet")//,查询,Schema 和数据   usersDF.printSchema   usersDF.show//,查询用户的,name 和喜爱颜色并保存   usersDF.select ($“name",,“美元favorite_color") .write.save(“/测试/结果/parquet")//,验证结果,可通过,printSchema 查询数据结构,使用,show 查看数据//,显式指定文件格式:,加载,json 格式   val  usersDF =, spark.read.format (“json") .load(“/测试/people.json")//,存储模式(节省;模式),//,可以采用,SaveMode 执行存储操作,,SaveMode 定义,了对数据的处理模式,需要注意的是,这些保存模式不使用任何锁定,不是原子操作//,当使用,Overwrite 方式执行时,在输出新数据之前,原数据就已经被删除   usersDF.select(美元“name") .write.save(“/测试/parquet1"),,,//,若,/测试/parquet1 存在会报的错   usersDF.select(美元“name") .wirte.mode (“overwrite") .save(“/测试/parquet1"),,,,,,,,//,使用,overwrite 即可//,将结果保存为表,,也可以进行分区,,分桶等操作:,partitionBy  bucketBy   usersDF.select(美元“name") .write.saveAsTable (“table1")


<强>

<强>

//,从,json 文件中读入数据   val  empJson =, spark.read.json(“/测试/emp.json")//,将数据保存为,拼花   empJson.write.mode (“overwrite") .parquet(“/测试/parquet")//,读取镶木地板   val  empParquet =, spark.read.parquet(“/测试/parquet")//,创建临时表,emptable   empParquet.createOrReplaceTempView (“emptalbe")//,使用,SQL 语句执行查询   spark.sql (“select  *,得到emptable  where  deptno=10,以及sal> 1500“)。显示

<强>,,,,,- - - - -,Schematic 的合并:,

//,创建第一个文件   val  df1 =, sc.makeRDD(1,用5). map (x=祝辞,(x, x * 2)) .toDF (“single",,“double")   scala> df1.printSchema   根   |——大敌;单:integer  (=nullable 假)   |——大敌;双:integer  (=nullable 假)   ,   ,//,创建第二个文件,   ,scala> val  df2 =, sc.makeRDD(6,用10). map (x=祝辞,(x, x * 2)) .toDF (“single",,“triple")   df2: org.apache.spark.sql.DataFrame =,(单:int,,三:,int)      scala> df2.printSchema   根   |——大敌;单:integer  (=nullable 假)   |——大敌;三:integer  (=nullable 假)   ,,   ,scala> df2.write.parquet(“/数据/testtable/关键=2“)      ,//合并上面的两个文件   scala>, val  df3 =, spark.read.option (“mergeSchema",,“true") .parquet(“/数据/testtable")   df3: org.apache.spark.sql.DataFrame =,(单:int,,双:,int ……, 2, more 字段)      scala> df3.printSchema   根   |——大敌;单:integer  (nullable =, true)   |——大敌;双:integer  (nullable =, true)   |——大敌;三:integer  (nullable =, true)   |——大敌;关键:integer  (nullable =, true)   ,   ,scala> df3.show   + - - - - - - - - - - - - + - - - + - - - +   | |单|双| 3 |关键   + - - - - - - - - - - - - + - - - + - - - +   |,,,,,8 |,,空|,,,,16 |,2 |   |,,,,,9 |,,空|,,,,18 |,2 |   |,,,,10 |,,空|,,,,20 |,2 |   |,,,,,3 |,,,,,6 |,,空|,1 |   |,,,,,4 |,,,,,8 |,,空|,1 |   |,,,,,5 |,,,,10 |,,空|,1 |   |,,,,,6 |,,空|,,,,12 |,2 |   |,,,,,7 |,,空|,,,,14 |,2 |   |,,,,,1 |,,,,,2 |,,空|,1 |   |,,,,,2 |,,,,,4 |,,空|,1 |   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null

拼花介绍及简单使用