重庆高性能会议记录
本文最后更新于:1 年前
GraphSet : High Performance Graph Mining through Equivalent Set Transformations
GraphSet是一个通过集合等价变换来实现高性能的图挖掘
图分析问题:①图处理;②※图挖掘(比如找三角形,矩阵)
Pattern-Oblivious
※Pattern-Aware(利用结构信息,能剪枝) -> NPC问题
变换控制流(串行部分->容斥原理??(求∩∪一类的易于并行的))为集合操作(有无依赖)[这部分应该大多是公式]
基于架构的优化:
- warp内共做一个集合操作
- warp间独立(通过DFS遍历树)执行
- CPU-GPU协同计算(预测并行度,低的丢给CPU?)
论文地址: GraphSet : High Performance Graph Mining through Equivalent Set Transformations
Optimizing Direct Convolutions on ARM Multi-Cores
优化卷积算子
卷积的四种优化策略:
-
直接优化:{
引入新的张量存储格式;
循环优化;
微内核设计;
并行化
} -
Im2col + GEMM
-
FFT
ARMv9对DL算子优化度不高
相关工作(18-23):
LIBXSMM->XNNPACK->Ansor->MOpt->mGEMM->MBDC
现有瓶颈:
- 主流框架兼容性 -> NCHW(实际上应该是NHWC)
- 转换开销 -> 打包
- 连续访存降低性能 -> 重叠
- 粗粒度的并行策略 -> 细粒度
- 基于GEMM的微内核,寄存器复用次优 ->(计算微内核+打包微内核)
论文地址: Optimizing Direct Convolutions on ARM Multi-Cores
DASP: Specific Dense Matrix Multiply Accumulate Units Accelerated General Sparse Matrix-Vector Multiplication
SpMV 稀疏矩阵A*稠密向量x = 稠密向量
SpMV三部分的开销:1.随机访问向量x;2.A的非零元和对应x的计算;3.读写其他数组
mma指令处理8*8矩阵
Optimizing MPI Collectives on Shared Memory Multi-Cores
论文地址: Optimizing MPI Collectives on Shared Memory Multi-cores
Tetris: Accelerating Sparse Convolution by Exploiting Memory Reuse on GPU
论文地址: Tetris: Accelerating Sparse Convolution by Exploiting Memory Reuse on GPU
Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference
论文地址: Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference
EasyScale: Elastic Training with Consistent Accuracy and Improved Utilization on GPUs
论文地址: EasyScale: Elastic Training with Consistent Accuracy and Improved Utilization on GPUs
以上有论文地址的都是中了SC的,中了PPoPP的好像没挂地址出来,这里没有去找arXiv
总结
从目前的SC和PPoPP接收的情况来看,以下领域是高性能计算中的热点工作:
- 图挖掘、图处理
- SpMV
- 算子优化
- 分布式推理
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!