spark中的stage和task 2020年11月11日2020年11月11日 布鲁斯.L 提交spark任务之后,在yarn中可以看到以下任务页面: 我们需要分析每个job的执行情况,所以需要弄清楚stage、task的分配。在spark中RDD生成的任务构成DAG,由DAGScheduler管理,RDD可以切分成不同的stage,每个stage提交到taskScheduler进行调度执行,每个task由executor执行。总体如下图: executor的资源配置决定了总体的执行效率。计算较慢可以观察executor的总体资源占用情况。 spark中的stage和task