强>
强>
<强> 强>
<强> 强>
强> 强>
强> 强> 强>
强> 强> 强> 强>
强> 强> 强> 强> 强>
强> 强> 强> 强> 强>
,,,,
//,读取,Parquet 文件 val usersDF =, spark.read.load(“/测试/users.parquet")//,查询,Schema 和数据 usersDF.printSchema usersDF.show//,查询用户的,name 和喜爱颜色并保存 usersDF.select ($“name",,“美元favorite_color") .write.save(“/测试/结果/parquet")//,验证结果,可通过,printSchema 查询数据结构,使用,show 查看数据//,显式指定文件格式:,加载,json 格式 val usersDF =, spark.read.format (“json") .load(“/测试/people.json")//,存储模式(节省;模式),//,可以采用,SaveMode 执行存储操作,,SaveMode 定义,了对数据的处理模式,需要注意的是,这些保存模式不使用任何锁定,不是原子操作//,当使用,Overwrite 方式执行时,在输出新数据之前,原数据就已经被删除 usersDF.select(美元“name") .write.save(“/测试/parquet1"),,,//,若,/测试/parquet1 存在会报的错 usersDF.select(美元“name") .wirte.mode (“overwrite") .save(“/测试/parquet1"),,,,,,,,//,使用,overwrite 即可//,将结果保存为表,,也可以进行分区,,分桶等操作:,partitionBy bucketBy usersDF.select(美元“name") .write.saveAsTable (“table1")
<强> 强>
<强> 强>
强> 强>
//,从,json 文件中读入数据 val empJson =, spark.read.json(“/测试/emp.json")//,将数据保存为,拼花 empJson.write.mode (“overwrite") .parquet(“/测试/parquet")//,读取镶木地板 val empParquet =, spark.read.parquet(“/测试/parquet")//,创建临时表,emptable empParquet.createOrReplaceTempView (“emptalbe")//,使用,SQL 语句执行查询 spark.sql (“select  *,得到emptable where deptno=10,以及sal> 1500“)。显示
<强>,,,,,- - - - -,Schematic 的合并:,强>
//,创建第一个文件 val df1 =, sc.makeRDD(1,用5). map (x=祝辞,(x, x * 2)) .toDF (“single",,“double") scala> df1.printSchema 根 |——大敌;单:integer (=nullable 假) |——大敌;双:integer (=nullable 假) , ,//,创建第二个文件, ,scala> val df2 =, sc.makeRDD(6,用10). map (x=祝辞,(x, x * 2)) .toDF (“single",,“triple") df2: org.apache.spark.sql.DataFrame =,(单:int,,三:,int) scala> df2.printSchema 根 |——大敌;单:integer (=nullable 假) |——大敌;三:integer (=nullable 假) ,, ,scala> df2.write.parquet(“/数据/testtable/关键=2“) ,//合并上面的两个文件 scala>, val df3 =, spark.read.option (“mergeSchema",,“true") .parquet(“/数据/testtable") df3: org.apache.spark.sql.DataFrame =,(单:int,,双:,int ……, 2, more 字段) scala> df3.printSchema 根 |——大敌;单:integer (nullable =, true) |——大敌;双:integer (nullable =, true) |——大敌;三:integer (nullable =, true) |——大敌;关键:integer (nullable =, true) , ,scala> df3.show + - - - - - - - - - - - - + - - - + - - - + | |单|双| 3 |关键 + - - - - - - - - - - - - + - - - + - - - + |,,,,,8 |,,空|,,,,16 |,2 | |,,,,,9 |,,空|,,,,18 |,2 | |,,,,10 |,,空|,,,,20 |,2 | |,,,,,3 |,,,,,6 |,,空|,1 | |,,,,,4 |,,,,,8 |,,空|,1 | |,,,,,5 |,,,,10 |,,空|,1 | |,,,,,6 |,,空|,,,,12 |,2 | |,,,,,7 |,,空|,,,,14 |,2 | |,,,,,1 |,,,,,2 |,,空|,1 | |,,,,,2 |,,,,,4 |,,空|,1 | null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null拼花介绍及简单使用