因为一个DataStream会在提交到JobManager上的时候,生成一个Dataflow图并准备好执行的算子

每一个算子中包含一个或者多个并行的任务,每个任务负责算子的部分输入流.那么一个任务并行化的数目称为这个算子的并行度

而算子的并行度既可以控制在整个执行环境级别,或者单个算子级别.

默认情况下,算子的并行度等于应用执行环境的并行度,环境的并行度会根据启动时的上下文来初始化

比如在本地的时候,就是CPU的线程个数

而集群环境则有一个设定好的并行度,当然环境的并行度也可以通过代码设置来进行覆盖

图片

或者来设置某个算子中任务的并行度

比如下面,我们设置map的并行度是默认的2倍

图片

而输出任务,print的并行度则为2

发表评论

邮箱地址不会被公开。 必填项已用*标注