SPL分组优化技巧

1。常规分组

当分组聚合的结果集不大时,可以使用组,例如有学生成绩表存储在集文件中,表结构如下:

ScoresclassstudentIDsubjectscore……

现在计算每个学生的总分数:


A1=文件(“scores.btx”) .import@b () 2=A1.groups (studentID;总和(分数):TotalScore)

A1:成绩表的数据装入内存。

A2:按照studentID字段分组,计算总分。

如果成绩表数据太大,无法装入内存,则可以用游标方式:


A1=文件(“scores.btx”) .cursor@b () 2=A1.groups (studentID;总和(分数):TotalScore)

A1:得到成绩表的游标。

A2:按照studentID字段分组,计算总分。

当成绩表记录很多,分组计算的结果集很大时,就要使用groupx:


A1=文件(“scores.btx”) .cursor@b () 2=A1.groupx (studentID;总和(分数):TotalScore; 10000)

A1:得到成绩表的游标。

A2:按照studentID字段分组,计算总分。

groupx的最后一个参数是缓冲区行数,也就是内存里能够一次处理的记录条数,这里指定为10000,实际使用时要根据自己的情况进行调整。

2。有序分组

2.1。前半有序

当数据对分组字段有序时,可以使用groups@o。如上例中,当成绩表对studentID字段有序时,就可以加上选哪项:


A1=文件(“scores.btx”) .import@b () 2=A1.groups@o (studentID;sum(分数):TotalScore)

如果成绩表太大,无法装入内存,可以使用游标:


A1=文件(“scores.btx”) .cursor@b () 2=A1.groups@o (studentID;sum(分数):TotalScore)

同样,如果有序分组的结果集很大,就不能用组,这时要使用组:


A1=文件(“scores.btx”) .cursor@b () 2=A1.group (studentID;总和(分数):TotalScore)

集团的返回是游标,这一点跟团体不一样。

2.2。后半有序

”后半”有序是指:要分组的表T已经对字段a, b有序,现在我们要将表T按字段b进行分组。例如有保存销售记录的集文件出售。btx,表结构如下:

SalesdateemployeeIDamount……

销售表对字段日期、employeeID有序,现在要计算每个员工的销售总额,对employeeID字段做分组,这时常规分组会计算散列,但这种后半有序的情况可以使用groups@h,看一下实现:


A1=文件(“sale.btx”) .import@b () 2=A1.groups@h (employeeID;金额(金额):TotalAmount)

如果销售表太大,无法装入内存,可以使用游标:


A1=文件(“sale.btx”) .cursor@b () 2=A1.groups@h (employeeID;金额(金额):TotalAmount)

3。序号分组

当分组表达式的结果是序号的时候,可以使用groups@n。仍然使用上例的销售表,现在要计算统计每个月的销售额,实现是这样的:


A1=文件(“sale.btx”) .cursor@b () 2=A1.groups@n0(月(日期):月,金额(金额):TotalAmount)

A1:得到销售表的游标。

A2:把日期字段转换为月份,计算每个月的销售总额,如果存在日字段是空的情况,则要加上选项@0。

使用@n之后,会依据序号去分组,而不用再计算散列,所以要比不带@n时快。

使用3个亿条数据测试,本案例实际测试结果:

耗时(秒)有@n没有@n3949

4。过滤拆分

过滤拆分是指根据条件分组,满足条件和不满足条件的分成两个集。使用可选择以做到这种拆分,但是要遍历两次,即一次选择(条件真实),和一次选择(条件假)。

而使用组和对齐只需要遍历一次。以上面成绩表为例,现在要把成绩及格的和不及格的分成两组,看一群下的实现:


A1=文件(“scores.btx”) .import@b () 2=A1.group (score>=60)

需要注意的是,使用组过滤拆分的结果不一定是两个集,有可能结果只有一个集,如本例中,有可能出现成绩都大于60的情况。这时候需要判断一下结果集的个数,或者使用对齐,因为一致的结果肯定是两个集,没有符合条件的记录,也会产生一个空集来。看一下对齐的实现:


A1=文件(“scores.btx”) .import@b () 2=A1.align@a(真,假,score>=60)

如果想在过滤拆分中把不满足的写进文件,可以使用选择(x;文件),看一下实现:


A1=文件(“scores.btx”) .cursor@b () 2=A1。选择(score>=60;文件(“Fail.btx”)) 3=A2.fetch ()

执行完成后,A3里是成绩及格的,不及格的会保存到集文件失败。btx .

如果要拆分为多个集,可以使用groupn。例如要把成绩分为优秀,良好,及格和不及格这些集合,可以这样实现:


A1=文件(“scores.btx”) .cursor@b() 2=[文件(“Excellent.btx”),文件(“Good.btx”),文件(“Pass.btx”),文件(“Fail.btx”)] 3=A1.groupn(如果(score>=90:1 score>=80:2 score>=60:3, 4); A2) 4=A3.fetch ()

5。组内TopN

前也可以用于组织中,例如计算每个部门里薪水的最大值:

SPL分组优化技巧