我的Spark学习笔记( 五 ) _生活百科

reduceByKey、 foldByKey、 aggregateByKey、 combineByKey 的区别reduceByKey: 相同 key 的第一个数据不进行任何计算，分区内和分区间计算规则相同foldByKey: 相同 key 的第一个数据和初始值进行分区内计算，分区内和分区间计算规则相同aggregateByKey：相同 key 的第一个数据和初始值进行分区内计算，分区内和分区间计算规则可以不相同combineByKey:当计算时，发现数据结构不满足要求时，可以让第一个数据转换结构，分区内和分区间计算规则不相同join算子：相同key连接import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 在类型为(K,V)和(K,W)的 RDD 上调用，返回一个相同 key 对应的所有元素连接在一起的(K,(V,W))的 RDD */object join {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd1 = sc.makeRDD(List(("a", 1), ("a", 2), ("c", 3), ("b", 3)))val rdd2 = sc.makeRDD(List(("a", 5), ("c", 6), ("a", 4)))// join : 两个不同数据源的数据，相同的key的value会连接在一起，形成元组//如果两个数据源中key没有匹配上，那么数据不会出现在结果中//如果两个数据源中key有多个相同的，会依次匹配，可能会出现笛卡尔乘积，数据量会几何性增长，会导致性能降低。val joinRDD: RDD[(String, (Int, Int))] = rdd1.join(rdd2)joinRDD.collect().foreach(println)sc.stop()}}leftOuterJoin rightOuterJoin：左外连接右外连接import org.apache.spark.{SparkConf, SparkContext}/** * 左外连接右外连接 */object leftOuterJoin_rightOuterJoin {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2) //, ("c", 3)))val rdd2 = sc.makeRDD(List(("a", 4), ("b", 5), ("c", 6)))val leftJoinRDD = rdd1.leftOuterJoin(rdd2)val rightJoinRDD = rdd1.rightOuterJoin(rdd2)leftJoinRDD.collect().foreach(println)rightJoinRDD.collect().foreach(println)sc.stop()}}cogroup算子：分组连接import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 分组连接 */object cogroup {def main(args: Array[String]): Unit = {val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")val sc = new SparkContext(sparkConf)val rdd1 = sc.makeRDD(List(("a", 1), ("b", 2) //, ("c", 3)))val rdd2 = sc.makeRDD(List(("a", 4), ("b", 5), ("c", 6), ("c", 7)))// cogroup : connect + group (分组，连接)val cgRDD: RDD[(String, (Iterable[Int], Iterable[Int]))] = rdd1.cogroup(rdd2)cgRDD.collect().foreach(println)sc.stop()}}参考资料：Spark中文文档尚硅谷Spark教程
调度系统：如何把握分布式计算的精髓

我的Spark学习笔记( 五 )

推荐阅读

身体突然长胖是因为缺乏什么因素吗？

南京有红宝石蛋糕店吗，红宝石蛋糕店

传奇三新手必看攻略传奇3地图新手怎么样玩

迢迢牵牛星中脉脉的意思

孩子有了个假想中的朋友，家长速度反思是否平时忽略了孩子？

蛋白质粉里含雌激素吗？蛋白质粉中会含有雌激素吗

一带一路什么意思一带一路是指什么

裤子掉档是什么意思啊裤子掉档的怎么处理

这些生肖最喜欢送对方定情信物？

常见的美系车品牌有哪些美国汽车品牌排行榜前十名

灵芝红枣水的功效灵芝红枣水的正确煮法

女人排毒吃什么最好女生吃什么排毒

2022呼和浩特疫情期间地铁进站乘车最新要求

亚历山大大帝东征最远到达了哪里

有没有哪些相亲渠道免费且靠谱？

黑衣人迅雷黑衣人迅雷mp4下载

哈弗m6车身颜色有几种哈弗M6有哪几种颜色

分享华为手机换电池步骤华为智能手机怎么换电池教程

分享29个营销理论什么是色彩营销？

吉利博越m挡什么时候用吉利博越M挡有什么用