因为一个DataStream会在提交到JobManager上的时候,生成一个Dataflow图并准备好执行的算子
每一个算子中包含一个或者多个并行的任务,每个任务负责算子的部分输入流.那么一个任务并行化的数目称为这个算子的并行度
而算子的并行度既可以控制在整个执行环境级别,或者单个算子级别.
默认情况下,算子的并行度等于应用执行环境的并行度,环境的并行度会根据启动时的上下文来初始化
比如在本地的时候,就是CPU的线程个数
而集群环境则有一个设定好的并行度,当然环境的并行度也可以通过代码设置来进行覆盖
或者来设置某个算子中任务的并行度
比如下面,我们设置map的并行度是默认的2倍
而输出任务,print的并行度则为2