弹性分布式数据集 RDD及常用算子( 二 ) _生活百科

sample：转换算子def main(args: Array[String]): Unit = {/*** sample：转换算子* 用于对数据进行取样* 总共有三个参数：* withReplacement：有无放回* fraction：抽样的比例（这个比例并不是精确的，因为抽样是随机的）* seed：随机数种子*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo06sample")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")stuRDD.sample(withReplacement = false, 0.1).foreach(println)// 如果想让每次抽样的数据都一样，则可以将seed进行固定stuRDD.sample(withReplacement = false, 0.01, 10).foreach(println)}mapValues：转换算子def main(args: Array[String]): Unit = {/*** mapValues：转换算子* 同map类似，只不过mapValues需要对KV格式的RDD的Value进行遍历处理*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo07mapValues")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val kvRDD: RDD[(String, Int)] = sc.parallelize(List("k1" -> 1, "k2" -> 2, "k3" -> 3))// 对每个Key对应的Value进行平方kvRDD.mapValues(i => i * i).foreach(println)// 使用map方法实现kvRDD.map(kv => (kv._1, kv._2 * kv._2)).foreach(println)}join:转换算子def main(args: Array[String]): Unit = {/*** join:转换算子* 需要作用在两个KV格式的RDD上，会将相同的Key的数据关联在一起*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo08join")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)// 加载学生数据，并转换成KV格式，以ID作为Key，其他数据作为Valueval stuKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/students.txt").map(line => {val id: String = line.split(",")(0)// split 指定分割符切分字符串得到Array// mkString 指定拼接符将Array转换成字符串val values: String = line.split(",").tail.mkString("|")(id, values)})// 加载分数数据，并转换成KV格式，以ID作为Key，其他数据作为Valueval scoKVRDD: RDD[(String, String)] = sc.textFile("Spark/data/score.txt").map(line => {val id: String = line.split(",")(0)val values: String = line.split(",").tail.mkString("|")(id, values)})// join : 内连接val joinRDD1: RDD[(String, (String, String))] = stuKVRDD.join(scoKVRDD)//joinRDD1.foreach(println)//stuKVRDD.leftOuterJoin(scoKVRDD).foreach(println)//stuKVRDD.rightOuterJoin(scoKVRDD).foreach(println)stuKVRDD.fullOuterJoin(scoKVRDD).foreach(println)}union：转换算子，用于将两个相类型的RDD进行连接def main(args: Array[String]): Unit = {// union：转换算子，用于将两个相类型的RDD进行连接val conf: SparkConf = new SparkConf()conf.setAppName("Demo09union")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")val sample01RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)val sample02RDD: RDD[String] = stuRDD.sample(withReplacement = false, 0.01, 1)println(s"sample01RDD的分区数：${sample01RDD.getNumPartitions}")println(s"sample02RDD的分区数：${sample02RDD.getNumPartitions}")// union 操作最终得到的RDD的分区数等于两个RDD分区数之和println(s"union后的分区数：${sample01RDD.union(sample02RDD).getNumPartitions}")val intRDD: RDD[Int] = sc.parallelize(List(1, 2, 3, 4, 5))//sample01RDD.union(intRDD) // 两个RDD的类型不一致无法进行union// union 等同于SQL中的union allsample01RDD.union(sample02RDD).foreach(println)// 如果要进行去重即等同于SQL中的union 则可以在 union后再进行distinctsample01RDD.union(sample02RDD).distinct().foreach(println)}groupBy：按照某个字段进行分组def main(args: Array[String]): Unit = {/*** groupBy：按照某个字段进行分组*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo10groupBy")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 统计班级人数stuRDD.groupBy(s => s.split(",")(4)).map(kv => s"${kv._1},${kv._2.size}").foreach(println)}groupByKey：转换算子，需要作用在KV格式的RDD上 def main(args: Array[String]): Unit = {/*** groupByKey：转换算子，需要作用在KV格式的RDD上*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo11groupByKey")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 使用groupByKey统计班级人数// 将学生数据变成KV格式的RDD，以班级作为Key，1作为Valueval clazzKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), 1))val grpRDD: RDD[(String, Iterable[Int])] = clazzKVRDD.groupByKey()grpRDD.map(kv => s"${kv._1},${kv._2.size}").foreach(println)}reduceByKey：转换算子，需要作用在KV格式的RDD上，不仅能实现分组，还能实现聚合def main(args: Array[String]): Unit = {/*** reduceByKey：转换算子，需要作用在KV格式的RDD上，不仅能实现分组，还能实现聚合* 需要接受一个函数f* 函数f：两个参数，参数的类型同RDD的Value的类型一致，最终需要返回同RDD的Value的类型一致值* 实际上函数f可以看成一个聚合函数* 常见的聚合函数（操作）：max、min、sum、count、avg* reduceByKey可以实现Map端的预聚合，类似MR中的Combiner* 并不是所有的操作都能使用预聚合，例如avg就无法实现*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo11groupByKey")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 使用reduceByKey统计班级人数// 将学生数据变成KV格式的RDD ，以班级作为Key，1作为Valueval clazzKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), 1))clazzKVRDD.reduceByKey((i1: Int, i2: Int) => i1 + i2).foreach(println)// 简写形式clazzKVRDD.reduceByKey((i1, i2) => i1 + i2).foreach(println)clazzKVRDD.reduceByKey(_ + _).foreach(println)}


上一页
1
2
3
4
下一页
		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  紫色配什么颜色好看,紫色衣服和什么颜色搭配 
                
                   
                
              
            

                  
              
                  上初中要军训吗 上初中要军训吗？ 
                
                   
                
              
            

                  
              
                  入门朝东还是朝西好 入门朝东还是朝西好一点呢 
                
                   
                
              
            

                  
              
                  有强迫症 桌面一定要很干净整洁的星座 
                
                   
                
              
            

                  
              
                  王者荣耀秋分时节活动攻略-秋分时节时间与奖励一览推荐阅读 
                
                   
                
              
            

                  
              
                  新课程的三维目标是什么 
                
                   
                
              
            

                  
              
                  税控盘减免后的增值税怎么计提 税控盘减免的增值税怎么做账 
                
                   
                
              
            

                  
              
                  洛克王国宠物练级攻略 洛克王国雪精灵练级攻略 
                
                   
                
              
            

                  
              
                  当下的语文教材，叫好者有之，质疑者同样有之。你怎么看呢？ 
                
                   
                
              
            

                  
              
                  关于鮠科简述 鮠科 
                
                   
                
              
            

                  
              
                  想离婚财产怎么分 
                
                   
                
              
            

                  
              
                  2022年8月9日宝宝出生的五行缺什么 沙石金开执位属五行 
                
                   
                
              
            

                  
              
                  属鸡人双鱼座女生性格 
                
                   
                
              
            

                  
              
                  台式烤肠用烤箱烤多长时间 烤肠用烤箱烤多长时间 
                
                   
                
              
            

                  
              
                  关于替嫁后 我被病娇总裁宠上了简述 替嫁后 我被病娇总裁宠上了 
                
                   
                
              
            

                  
              
                  健身喝蛋白粉的副作用 影响肾脏功能 
                
                   
                
              
            

                  
              
                  关于曹正海简述 曹正海 
                
                   
                
              
            

                  
              
                  汽车香水危害与好处 车用香水有哪些危害 
                
                   
                
              
            

                  
              
                  大头菜炒柿子做法 大头菜炒柿子 
                
                   
                
              
            

                  
              
                  灌篮高手手游为什么感觉大家都喜欢海边球场？ 
                
                   
                
              
            

          

Redis系列8：Bitmap实现亿万级数据计算 

数据科学学习手札146 geopandas中拓扑非法问题的发现、诊断与修复 

小样本利器4. 正则化+数据增强 Mixup Family代码实现 

python3使用libpcap库进行抓包及数据处理 

分布式ID生成方案总结整理 

Python数据分析：实用向 

.NET API 接口数据传输加密最佳实践 

SQL分层查询 

京东云开发者｜京东云RDS数据迁移常见场景攻略 

华为手机怎么连接电脑方法（华为usb数据线接电脑)

弹性分布式数据集 RDD及常用算子( 二 )

推荐阅读

紫色配什么颜色好看,紫色衣服和什么颜色搭配

上初中要军训吗上初中要军训吗？

入门朝东还是朝西好入门朝东还是朝西好一点呢

有强迫症桌面一定要很干净整洁的星座

王者荣耀秋分时节活动攻略-秋分时节时间与奖励一览推荐阅读

新课程的三维目标是什么

税控盘减免后的增值税怎么计提税控盘减免的增值税怎么做账

洛克王国宠物练级攻略洛克王国雪精灵练级攻略

当下的语文教材，叫好者有之，质疑者同样有之。你怎么看呢？

关于鮠科简述鮠科

想离婚财产怎么分

2022年8月9日宝宝出生的五行缺什么沙石金开执位属五行

属鸡人双鱼座女生性格

台式烤肠用烤箱烤多长时间烤肠用烤箱烤多长时间

关于替嫁后我被病娇总裁宠上了简述替嫁后我被病娇总裁宠上了

健身喝蛋白粉的副作用影响肾脏功能

关于曹正海简述曹正海

汽车香水危害与好处车用香水有哪些危害

大头菜炒柿子做法大头菜炒柿子

灌篮高手手游为什么感觉大家都喜欢海边球场？