哪种列存格式适合并行计算？

大数据量时，硬盘扫描和读取的时间占比很大。采用列式存储，在总列数很多而计算涉及的列很少时，只要读取需要的列即可，能够减少硬盘访问量，提高性能。事实上，很多数据仓库产品都采用了列式存储。

但是，数据按列存储，做多线程并行计算时会出现分段同步性问题。分段是并行计算的前提，行存分段比较简单，按数据量大体平均分段，再找记录结束标记确定分段点位置就可以。而列存不能采用同样的办法。由于列存的不同列是分别存储的，也必须分别分段，又因为不定长字段和压缩数据的存在，各个列相同的分段点位置不一定会落在同一条记录上，会错位导致读取错误。

业界普遍采用分块列存方案解决分段同步性问题：块内数据用列式存储，分段必须以块为单位，在块内不再分段并行。这样会出现一个矛盾：如果分块数太少，就无法做到灵活分段，而均匀、灵活的分段是决定并行计算性能的关键；如果分块数很多，列数据在物理上会被拆成很多不连续的小块，会多读入分块之间的少量无用数据，考虑机械硬盘的寻道时间，分块数越多这些问题越严重。很多数据仓库或大数据平台都无法解决这个矛盾，很难充分利用并行计算的性能。

开源的集算器 SPL 研发了创新的倍增分段技术，并在其组表列存中实现，解决了上述矛盾，这样就可以充分利用并行计算来提高性能了。

倍增分段是将固定（物理）分块改为动态（逻辑）分块。具体做法是：为每列数据建立确定大小（例如 1024 个索引位）的索引区，每个索引位存储一条记录的起始位置，相当于一条记录为一块。追加记录到索引位填满后，重写索引区，丢弃偶数索引位，奇数位向前移动，空出索引区后一半位置。相当于将分块数缩减为 512 个，两条记录为一块。依次类推，重复追加数据、填满、重写索引区的过程。随着数据量的增加，块的大小（块内记录数）不断翻倍。所有列的索引区要同步填充，且填满后同步重写，始终保持一致。倍增分段实质上是以记录数作为分段依据的，而不是字节数，所以可以保证各个列即使分别分段也是同步的，不会出现错位的情况。

以动态块为单位分段时，块个数保持在 512 到 1024 之间（记录数小于 512 除外），可以满足分段灵活的要求。各列的动态块对应记录数完全相同，也可以满足分段均匀的要求。数据量无论大小，都可以获得良好的分段效果。

SPL 组表会缺省支持倍增分段方案，生成这种分段的列存数据非常简单：

file("T.ctx").create(…).append(cs)

基于列存的多线程并行代码也很简单：

=file("T.ctx").open().cursor@m(f1,amt1).groups(f1;sum(amt1)) 打开列存数据后，建立多线程游标，做并行分组汇总。

更详细的原理讲解参见这里：倍增分段，组表与列存（底部原文中查看链接）

列存并行的应用案例：

开源SPL讨论

对开源SPL感兴趣的朋友，
请扫码添加小助手进群参与讨论
微信号｜SPL-helper

· SPL小助手 ·

哪种列存格式适合并行计算？

美国"债主"要求乌政府明年开始还钱：1年5亿美元利息

香飘飘硬刚日本核污水？反转来的太快

游客海参崴遭威胁"你是不想回国了" 周围人直呼"哎呦"

曼联0-4惨败水晶宫！跌至第8！创最差纪录奥利斯双响胖虎2球被吹

40年的发展，养肥了一批“特权阶级”！

成为“理财师”的农村老人失去了毕生积蓄｜深度报道

海淀疾控通报“醉爱”时尚餐厅食品安全问题：诺如病毒导致

某地政府部门调整工作时间，中午12点下班下午3点上班

以色列媒体：战时内阁通过攻打拉法的决定

俄媒：俄计划建新管道向中国输送天然气

吉林老人承包荒山20年因修路部分林地被占，1平方补7分钱，村支书回应

广东2-1辽宁夺赛点周琦13+12李晓旭伤退

店铺回应卖出的叫花鸡里没有鸡:临时工把样品给打包了

商务部：推动中俄双边贸易进一步提质升级

深圳分区优化住房限购政策

哈马斯领导人宣布同意停火方案

6天爆发4次一文读懂太阳耀斑影响

淘宝答题免单活动出宠物类题目后，铲屎官成为最受欢迎的人群

航行警告：渤海西部海域军事训练

“换了谁，那时都会冲出去救人”

哪种列存格式适合并行计算？

美国"债主"要求乌政府明年开始还钱：1年5亿美元利息

香飘飘硬刚日本核污水？反转来的太快

游客海参崴遭威胁"你是不想回国了" 周围人直呼"哎呦"

曼联0-4惨败水晶宫！跌至第8！创最差纪录 奥利斯双响胖虎2球被吹

40年的发展，养肥了一批“特权阶级”！

成为“理财师”的农村老人失去了毕生积蓄｜深度报道

海淀疾控通报“醉爱”时尚餐厅食品安全问题：诺如病毒导致

某地政府部门调整工作时间，中午12点下班下午3点上班

以色列媒体：战时内阁通过攻打拉法的决定

俄媒：俄计划建新管道向中国输送天然气

吉林老人承包荒山20年因修路部分林地被占，1平方补7分钱，村支书回应

广东2-1辽宁夺赛点 周琦13+12李晓旭伤退

店铺回应卖出的叫花鸡里没有鸡:临时工把样品给打包了

商务部：推动中俄双边贸易进一步提质升级

深圳分区优化住房限购政策

哈马斯领导人宣布同意停火方案

6天爆发4次 一文读懂太阳耀斑影响

淘宝答题免单活动出宠物类题目后，铲屎官成为最受欢迎的人群

航行警告：渤海西部海域军事训练

“换了谁，那时都会冲出去救人”

曼联0-4惨败水晶宫！跌至第8！创最差纪录奥利斯双响胖虎2球被吹

广东2-1辽宁夺赛点周琦13+12李晓旭伤退

6天爆发4次一文读懂太阳耀斑影响