spark中的stage和task

提交spark任务之后,在yarn中可以看到以下任务页面:

我们需要分析每个job的执行情况,所以需要弄清楚stage、task的分配。在spark中RDD生成的任务构成DAG,由DAGScheduler管理,RDD可以切分成不同的stage,每个stage提交到taskScheduler进行调度执行,每个task由executor执行。总体如下图:

executor的资源配置决定了总体的执行效率。计算较慢可以观察executor的总体资源占用情况。

spark中的stage和task

蒙特卡洛方法

基本思想

通常蒙特卡罗方法可以粗略地分成两类:

一类是所求解的问题本身具有内在的随机性,借助计算机的运算能
力可以直接模拟这种随机的过程。例如在核物理研究中,分析中子
在反应堆中的传输过程。中子与原子核作用受到量子力学规律的制
约,人们只能知道它们相互作用发生的概率,却无法准确获得中子
与原子核作用时的位置以及裂变产生的新中子的行进速率和方向。
科学家依据其概率进行随机抽样得到裂变位置、速度和方向,这样
模拟大量中子的行为后,经过统计就能获得中子传输的范围,作为
反应堆设计的依据。

另一种类型是所求解问题可以转化为某种随机分布的特征数,比如
随机事件出现的概率,或者随机变量的期望值。通过随机抽样的方
法,以随机事件出现的频率估计其概率,或者以抽样的数字特征估
算随机变量的数字特征,并将其作为问题的解。这种方法多用于求
解复杂的多维积分问题。

求解流程

1、待求解问题建模为一个概率随机过程
2、构造符合1随机过程的随机数。一般从已知概率分布,比如均匀分布,构造随机抽样样本
3、设计评估量,即设定2构造随机抽样过程的终止条件。

蒙特卡洛方法

搬到科兴科学园

2020.10.30,正式在科兴办公。

在鹅厂,2年内不搬迁是比较难的,特别是新业务,楼层内移动比较常见。印象中在腾大片区办公搬迁频率稍微少一点,大约半年一次。而来到滨海大厦之后,搬迁次数有些多,团队持续在扩张,toc业务中心来到了科兴。

科兴的G层如同大商场一样,有各色各样的饭馆,竞争特别激烈,如果每天下一次馆子,可以一两个月不重样的。减肥之路,顿然觉得有些坎坷了。

搬到科兴科学园