spark计数器 原理

spark计数器 原理

  spark计数器原理是分发task,申请资源等功能外,更重要的一个功能是将RDD拆分成task,即绘制DAG图。

   Spark的三大核心数据结构:RDD、累加器(只写不读)、广播变量(只读不写)

    在spark应用程序中,我们经常会有这样的需求,如异常监控,调试,记录符合某特性的数据的数目,这种需求都需要用到计数器,如果一个变量不被声明为一个累加器,那么它将在被改变时不会再driver端进行全局汇总,即在分布式运行时每个task运行的只是原始变量的一个副本,并不能改变原始变量的值,但是当这个变量被声明为累加器后,该变量就会有分布式计数的功能。