spark中的stage和task

提交spark任务之后,在yarn中可以看到以下任务页面:

我们需要分析每个job的执行情况,所以需要弄清楚stage、task的分配。在spark中RDD生成的任务构成DAG,由DAGScheduler管理,RDD可以切分成不同的stage,每个stage提交到taskScheduler进行调度执行,每个task由executor执行。总体如下图:

executor的资源配置决定了总体的执行效率。计算较慢可以观察executor的总体资源占用情况。

spark中的stage和task