1。持久化算子缓存
介绍:正常情况下,一个抽样是不包含真实数据的,只包含描述这个抽样元数据信息,如果对这个抽样调用缓存方法,那么这个抽样的数据,依然没有真实数据,直到第一次调用一个行动的算子触发了这个抽样的数据生成,那么缓存操作就会把数据存储在内存中,所以第二次重复利用这个抽样的时候,计算速度将会快很多。
火花的持久化和共享变量
介绍:正常情况下,一个抽样是不包含真实数据的,只包含描述这个抽样元数据信息,如果对这个抽样调用缓存方法,那么这个抽样的数据,依然没有真实数据,直到第一次调用一个行动的算子触发了这个抽样的数据生成,那么缓存操作就会把数据存储在内存中,所以第二次重复利用这个抽样的时候,计算速度将会快很多。
火花的持久化和共享变量