加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

CCF HPC China 2022 | 第二届异构计算软件栈与应用论坛成功召开

2022/12/15
1185
阅读需 7 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

以“新算力 新赋能 新未来”为主题的2022 CCF全国高性能计算学术年会(CCF HPC China 2022)在线上正式召开。作为高性能计算领域全球最具影响力的三大超算盛会之一,大会邀请到2021年图灵奖获得者Jack Dongarra,中国科学院院士陈国良、钱德沛,中国工程院院士陈左宁、孙凝晖、王军成,加拿大工程院院士K. Nandakumar等业界专家齐聚一堂,共话超算新趋势。

12月15日上午,由张先轶博士主持的第二届异构计算软件栈与应用论坛成功召开。

演讲嘉宾们奉献了精彩的报告,如下是各报告的摘要。
报告主题:异构计算软件栈的国产自主与国际化愿景

讲者简介

张先轶,算力软件栈领军人物。本科和硕士毕业于北京理工大学,博士毕业于中国科学院大学,之后分别在UT Austin和MIT进行博士后研究工作。ACM SIGHPC China执行委员,CCF高性能计算专委会委员。曾荣获中国计算机学会科学技术奖,中国科学院杰出科技成就奖。国际知名开源矩阵计算项目OpenBLAS发起人和主要维护者。

报告摘要:介绍了高性能计算的软硬件体系和发展概况,结合澎峰科技的算力基础软件栈PerfMPL(数学计算库)、PerfXAPI(异构计算软件栈)和PerfXPy(新一代科学计算工具),介绍了如何通过开源创新实现共建算力生态的目标,以及立足国内,走向国际的发展愿景。

报告主题:面向天河新一代的异构并行应用开发
讲者简介
龚春叶,博士,国防科技大学计算机学院副研究员,应用教研室主任,主任设计师,天河高性能并行应用方向负责人。长期从事高性能并行计算研究,包括网格生成、密码分析及CFD并行计算等卡脖子技术。发表论文二十余篇,获省科技进步奖一等奖1项。
报告摘要:介绍了MT-DSP体系结构,hThreads并行编程模型。结合密码破译、复杂城市风场模拟、惯性约束聚变等离子体不稳定性数值模拟等典型应用分享了软硬融合的算法加速研究成果,提出异构程序性能优化五大准则,和算力生态的展望。

报告主题:华为高性能数学库建设进展
讲者简介
李志豪,工学博士,主要研究方向为高性能计算。他于2015~2021年于中科院计算所攻读博士学位,现就职于华为公司2021实验室。攻读博士期间发表高性能计算领域高水平论文,如IEEE TPDS、SC、JPDC、ICAPDS、HPCC和计算机学报等,申请发明专利多项。曾获中国科学院院长优秀奖,中科院计算所所长特别奖,ACM SIGHPC China优博奖等荣誉。
报告摘要:数学库是使能处理器在数值计算领域的基础软件库,是发挥硬件算力的基石,目前常用函数大约有一万个。介绍了华为在数学库的建设进展,并结合电路仿真、电磁仿真、网络自治关键算法、语音识别、加密水印、OCR等应用场景,展示了高性能数学库在应用领域的加速效果。

报告主题:EasyView: Enabling and Scheduling Tensor Views in Deep Learning Compilers
讲者简介
蒋丽娟,2020年于中国科学院软件研究所并行软件与计算科学实验室获得博士学位,博士期间主要从事国产众核平台上高性能数学库以及基准测试程序HPCG的深度优化工作,毕业之后主要从事深度学习编译器方面的学习研究,在ICPP、TACO等会议以及期刊上发表多篇文章。
报告摘要:访存密集型算子子图在神经网络的训练和推理中占据了越来越多的时间比例,基于在线编译的自动算子融合技术被证明是一种优化该类子图有效的手段。介绍了针对在网络实现中高频出现的tensor view类算子的端到端在线编译自动融合方法,包含view lowering,内存活动追踪,读写关系一致的算子拓扑序列获取,以及计算内存优化策略等内容。

报告主题:面向异构加速器的自适应精度模拟

讲者简介
马子轩,清华大学计算机科学与技术系在读博士生。2019年本科毕业于清华大学计算机科学与技术系。主要研究方向为高性能计算、异构程序优化、编译优化等。相关研究成果发表于PPoPP、ICS、OSDI、SIGMOD、SC等国际会议。
报告摘要:是否有可能利用异构加速器针对低精度类型的高效计算能力, 加速高精度类型的计算负载? 讲者提出了APE,一个BLAS-like的数学库,支持在不同异构加速器上利用低精度类型加速高精度计算,并设计了一种数据相关的自适应方法。在NVIDIA GPU上的实验表明,APE可以有效加速矩阵乘法3.12x,和多种应用达到1.78x的加速性能。

感谢各位老师的精彩报告!

相关推荐

电子产业图谱