重庆高性能会议记录

本文最后更新于:1 年前

GraphSet : High Performance Graph Mining through Equivalent Set Transformations

GraphSet是一个通过集合等价变换来实现高性能的图挖掘

图分析问题:①图处理;②※图挖掘(比如找三角形,矩阵)
Pattern-Oblivious
※Pattern-Aware(利用结构信息,能剪枝) -> NPC问题
变换控制流(串行部分->容斥原理??(求∩∪一类的易于并行的))为集合操作(有无依赖)[这部分应该大多是公式]

基于架构的优化:

  • warp内共做一个集合操作
  • warp间独立(通过DFS遍历树)执行
  • CPU-GPU协同计算(预测并行度,低的丢给CPU?)

论文地址: GraphSet : High Performance Graph Mining through Equivalent Set Transformations

Optimizing Direct Convolutions on ARM Multi-Cores

优化卷积算子
卷积的四种优化策略:

  1. 直接优化:{
    引入新的张量存储格式;
    循环优化;
    微内核设计;
    并行化
    }

  2. Im2col + GEMM

  3. FFT

ARMv9对DL算子优化度不高

相关工作(18-23):
LIBXSMM->XNNPACK->Ansor->MOpt->mGEMM->MBDC

现有瓶颈:

  • 主流框架兼容性 -> NCHW(实际上应该是NHWC)
  • 转换开销 -> 打包
  • 连续访存降低性能 -> 重叠
  • 粗粒度的并行策略 -> 细粒度
  • 基于GEMM的微内核,寄存器复用次优 ->(计算微内核+打包微内核)

论文地址: Optimizing Direct Convolutions on ARM Multi-Cores

DASP: Specific Dense Matrix Multiply Accumulate Units Accelerated General Sparse Matrix-Vector Multiplication

SpMV 稀疏矩阵A*稠密向量x = 稠密向量

SpMV三部分的开销:1.随机访问向量x;2.A的非零元和对应x的计算;3.读写其他数组

mma指令处理8*8矩阵

论文地址: DASP: Specific Dense Matrix Multiply Accumulate Units Accelerated General Sparse Matrix-Vector Multiplication

Optimizing MPI Collectives on Shared Memory Multi-Cores

论文地址: Optimizing MPI Collectives on Shared Memory Multi-cores

Tetris: Accelerating Sparse Convolution by Exploiting Memory Reuse on GPU

论文地址: Tetris: Accelerating Sparse Convolution by Exploiting Memory Reuse on GPU

Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference

论文地址: Liger: Interleaving Intra- and Inter-Operator Parallelism for Distributed Large Model Inference

EasyScale: Elastic Training with Consistent Accuracy and Improved Utilization on GPUs

论文地址: EasyScale: Elastic Training with Consistent Accuracy and Improved Utilization on GPUs

以上有论文地址的都是中了SC的,中了PPoPP的好像没挂地址出来,这里没有去找arXiv

总结

从目前的SC和PPoPP接收的情况来看,以下领域是高性能计算中的热点工作:

  • 图挖掘、图处理
  • SpMV
  • 算子优化
  • 分布式推理