弹性分布式数据集 RDD及常用算子( 三 ) _生活百科

aggregateByKey：转换算子，可以实现将多个聚合方式放在一起实现，并且也能对Map进行预聚合def main(args: Array[String]): Unit = {/*** aggregateByKey：转换算子，可以实现将多个聚合方式放在一起实现，并且也能对Map进行预聚合* 可以弥补reduceByKey无法实现avg操作**/val conf: SparkConf = new SparkConf()conf.setAppName("Demo13aggregateByKey")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")val ageKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), s.split(",")(2).toInt))val clazzCntKVRDD: RDD[(String, Int)] = stuRDD.map(s => (s.split(",")(4), 1))// 统计每个班级年龄之和val ageSumRDD: RDD[(String, Int)] = ageKVRDD.reduceByKey(_ + _)// 统计每个班级人数val clazzCntRDD: RDD[(String, Int)] = clazzCntKVRDD.reduceByKey(_ + _)// 统计每个班级的平均年龄ageSumRDD.join(clazzCntRDD).map {case (clazz: String, (ageSum: Int, cnt: Int)) =>(clazz, ageSum.toDouble / cnt)}.foreach(println)/*** zeroValue：初始化的值，类型自定义，可以是数据容器* seqOp：在组内（每个分区内部即每个Map任务）进行的操作，相当是Map端的预聚合操作* combOp：在组之间（每个Reduce任务之间）进行的操作，相当于就是最终每个Reduce的操作*/// 使用aggregateByKey统计班级年龄之和ageKVRDD.aggregateByKey(0)((age1: Int, age2: Int) => {age1 + age2 // 预聚合}, (map1AgeSum: Int, map2AgeSum: Int) => {map1AgeSum + map2AgeSum // 聚合}).foreach(println)// 使用aggregateByKey统计班级人数clazzCntKVRDD.aggregateByKey(0)((c1: Int, c2: Int) => {c1 + 1 // 预聚合}, (map1Cnt: Int, map2Cnt: Int) => {map1Cnt + map2Cnt // 聚合}).foreach(println)// 使用aggregateByKey统计班级的平均年龄ageKVRDD.aggregateByKey((0, 0))((t2: (Int, Int), age: Int) => {val mapAgeSum: Int = t2._1 + ageval mapCnt: Int = t2._2 + 1(mapAgeSum, mapCnt)}, (map1U: (Int, Int), map2U: (Int, Int)) => {val ageSum: Int = map1U._1 + map2U._1val cnt: Int = map1U._2 + map2U._2(ageSum, cnt)}).map {case (clazz: String, (sumAge: Int, cnt: Int)) =>(clazz, sumAge.toDouble / cnt)}.foreach(println)}cartesian：转换算子，可以对两个RDD做笛卡尔积def main(args: Array[String]): Unit = {/*** cartesian：转换算子，可以对两个RDD做笛卡尔积** 当数据重复时很容易触发笛卡尔积造成数据的膨胀*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo14cartesian")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val idNameKVRDD: RDD[(String, String)] = sc.parallelize(List(("001", "zs"), ("002", "ls"), ("003", "ww")))val genderAgeKVRDD: RDD[(String, Int)] = sc.parallelize(List(("男", 25), ("女", 20), ("男", 22)))idNameKVRDD.cartesian(genderAgeKVRDD).foreach(println)}sortBy：转换算子可以指定一个字段进行排序默认升序def main(args: Array[String]): Unit = {/*** sortBy：转换算子可以指定一个字段进行排序默认升序*/val conf: SparkConf = new SparkConf()conf.setAppName("Demo15sortBy")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val intRDD: RDD[Int] = sc.parallelize(List(1, 3, 6, 5, 2, 4, 6, 8, 9, 7))intRDD.sortBy(i => i).foreach(println) // 升序intRDD.sortBy(i => -i).foreach(println) // 降序intRDD.sortBy(i => i, ascending = false).foreach(println) // 降序val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")// 按照年龄进行降序stuRDD.sortBy(s => -s.split(",")(2).toInt).foreach(println)}常见的Action算子def main(args: Array[String]): Unit = {/*** 常见的Action算子：foreach、take、collect、count、reduce、save相关* 每个Action算子都会触发一个job**/val conf: SparkConf = new SparkConf()conf.setAppName("Demo16Action")conf.setMaster("local")val sc: SparkContext = new SparkContext(conf)val stuRDD: RDD[String] = sc.textFile("Spark/data/students.txt")/*** foreach：对每条数据进行处理，跟map算子的区别在于，foreach算子没有返回值*/stuRDD.foreach(println)// 将stuRDD中的每条数据保存到MySQL中/*** 建表语句：* CREATE TABLE `stu_rdd` (* `id` int(10) NOT NULL AUTO_INCREMENT,* `name` char(5) DEFAULT NULL,* `age` int(11) DEFAULT NULL,* `gender` char(2) DEFAULT NULL,* `clazz` char(4) DEFAULT NULL,* PRIMARY KEY (`id`)* ) ENGINE=InnoDB DEFAULT CHARSET=utf8;*/// 每一条数据都会创建一次连接，频繁地创建销毁连接效率太低，不合适//stuRDD.foreach(line => {//val splits: Array[String] = line.split(",")//// 1、建立连接//val conn: Connection = DriverManager.getConnection("jdbc:mysql://master:3306/student?useSSL=false", "root", "123456")//println("建立了一次连接")//// 2、创建prepareStatement//val pSt: PreparedStatement = conn.prepareStatement("insert into stu_rdd(id,name,age,gender,clazz) values(?,?,?,?,?)")////// 3、传入参数//pSt.setInt(1, splits(0).toInt)//pSt.setString(2, splits(1))//pSt.setInt(3, splits(2).toInt)//pSt.setString(4, splits(3))//pSt.setString(5, splits(4))////// 4、执行SQL//pSt.execute()////// 5、关闭连接//conn.close()////})/*** take : Action算子，可以将指定条数的数据转换成Scala中的Array**/// 这里的foreach是Array的方法，不是算子stuRDD.take(5).foreach(println)/*** collect : Action算子，可以将RDD中所有的数据转换成Scala中的Array*/// 这里的foreach是Array的方法，不是算子stuRDD.collect().foreach(println)/*** count : Action算子，统计RDD中数据的条数*/println(stuRDD.count())/*** reduce : Action算子，将所有的数据作为一组进行聚合操作*/// 统计所有学生的年龄之和println(stuRDD.map(_.split(",")(2).toInt).reduce(_ + _))/*** save相关:* saveAsTextFile、saveAsObjectFile*/}


上一页
1
2
3
4
下一页
		  	

    
    




    
    
    


推荐阅读

           
                  
              
                  紫色配什么颜色好看,紫色衣服和什么颜色搭配 
                
                   
                
              
            

                  
              
                  上初中要军训吗 上初中要军训吗？ 
                
                   
                
              
            

                  
              
                  入门朝东还是朝西好 入门朝东还是朝西好一点呢 
                
                   
                
              
            

                  
              
                  有强迫症 桌面一定要很干净整洁的星座 
                
                   
                
              
            

                  
              
                  王者荣耀秋分时节活动攻略-秋分时节时间与奖励一览推荐阅读 
                
                   
                
              
            

                  
              
                  新课程的三维目标是什么 
                
                   
                
              
            

                  
              
                  税控盘减免后的增值税怎么计提 税控盘减免的增值税怎么做账 
                
                   
                
              
            

                  
              
                  洛克王国宠物练级攻略 洛克王国雪精灵练级攻略 
                
                   
                
              
            

                  
              
                  当下的语文教材，叫好者有之，质疑者同样有之。你怎么看呢？ 
                
                   
                
              
            

                  
              
                  关于鮠科简述 鮠科 
                
                   
                
              
            

                  
              
                  想离婚财产怎么分 
                
                   
                
              
            

                  
              
                  2022年8月9日宝宝出生的五行缺什么 沙石金开执位属五行 
                
                   
                
              
            

                  
              
                  属鸡人双鱼座女生性格 
                
                   
                
              
            

                  
              
                  台式烤肠用烤箱烤多长时间 烤肠用烤箱烤多长时间 
                
                   
                
              
            

                  
              
                  关于替嫁后 我被病娇总裁宠上了简述 替嫁后 我被病娇总裁宠上了 
                
                   
                
              
            

                  
              
                  健身喝蛋白粉的副作用 影响肾脏功能 
                
                   
                
              
            

                  
              
                  关于曹正海简述 曹正海 
                
                   
                
              
            

                  
              
                  汽车香水危害与好处 车用香水有哪些危害 
                
                   
                
              
            

                  
              
                  大头菜炒柿子做法 大头菜炒柿子 
                
                   
                
              
            

                  
              
                  灌篮高手手游为什么感觉大家都喜欢海边球场？ 
                
                   
                
              
            

          

Redis系列8：Bitmap实现亿万级数据计算 

数据科学学习手札146 geopandas中拓扑非法问题的发现、诊断与修复 

小样本利器4. 正则化+数据增强 Mixup Family代码实现 

python3使用libpcap库进行抓包及数据处理 

分布式ID生成方案总结整理 

Python数据分析：实用向 

.NET API 接口数据传输加密最佳实践 

SQL分层查询 

京东云开发者｜京东云RDS数据迁移常见场景攻略 

华为手机怎么连接电脑方法（华为usb数据线接电脑)

弹性分布式数据集 RDD及常用算子( 三 )

推荐阅读

紫色配什么颜色好看,紫色衣服和什么颜色搭配

上初中要军训吗上初中要军训吗？

入门朝东还是朝西好入门朝东还是朝西好一点呢

有强迫症桌面一定要很干净整洁的星座

王者荣耀秋分时节活动攻略-秋分时节时间与奖励一览推荐阅读

新课程的三维目标是什么

税控盘减免后的增值税怎么计提税控盘减免的增值税怎么做账

洛克王国宠物练级攻略洛克王国雪精灵练级攻略

当下的语文教材，叫好者有之，质疑者同样有之。你怎么看呢？

关于鮠科简述鮠科

想离婚财产怎么分

2022年8月9日宝宝出生的五行缺什么沙石金开执位属五行

属鸡人双鱼座女生性格

台式烤肠用烤箱烤多长时间烤肠用烤箱烤多长时间

关于替嫁后我被病娇总裁宠上了简述替嫁后我被病娇总裁宠上了

健身喝蛋白粉的副作用影响肾脏功能

关于曹正海简述曹正海

汽车香水危害与好处车用香水有哪些危害

大头菜炒柿子做法大头菜炒柿子

灌篮高手手游为什么感觉大家都喜欢海边球场？