行业动态

澎峰科技(PerfXLab),核心团队来自中科院,致力于计算软件栈技术的研发,聚集HPC、AI、RISC-V三大领域。 国际领先的加速计算机技术解决方案商,赋能计算芯片、科学计算和高性能计算应用软件企业。澎峰科技在高性能计算领域有着上十年的技术沉淀,致力于算力基础软件研发。即使是在计算技术体系被国际巨头所把持的时代,仍坚持进行底层和基础技术的软件研发,因为我们坚信计算硬件技术和算力基础软件是新一代信息技术的基础建设。今天,我们厚积薄发,正在积极与各大国产计算硬件伙伴携手迎接新一代计算技术的挑战。

异构计算软件栈与应用论坛|CCF HPC China2023

2023年8月26日上午9:00-12:00,第三届异构计算软件栈与应用论坛在山东青岛红岛国际会议展览中心望海楼(北)A305会议室举办,并于腾讯会议平台同步直播(ID:750946700)。 异构计算软件栈从编程语言、性能库和框架等多方面支持科学计算、人工智能等多种行业应用在高性能计算平台,边缘计算平台的部署与优化。本论坛主要探讨异构计算软件栈相关的底层软件技术、硬件平台适配与优化、软件产品以及行业应用案例等。

论坛主席

张先轶,本科和硕士毕业于北京理工大学,博士毕业于中国科学院大学,曾于中科院软件所工作,之后分别在UT Austin和MIT进行博士后研究工作。国际知名开源矩阵计算项目OpenBLAS发起人和主要维护者。中国计算机学会高性能计算专业委员会委员,ACM SIGHPC China执行委员。2016年,创办PerfXLab澎峰科技,提供异构计算软件栈与解决方案。2016年获得中国计算机学会科学技术二等奖,2017年获得中国科学院杰出科技成就奖,2020年 美国SIAM Activity Group on Supercomputing最佳论文奖。

论坛嘉宾

张先轶|澎峰科技
报告题目:

PerfXAPI:统一跨平台API异构计算框架

报告摘要:

高性能的计算软件栈作为底层硬件和上层应用的桥梁,可以扩展芯片的应用范围,提升计算性能。面向当前多种计算硬件(CPU,CUDA GPU,OpenCL GPU等),我们提出了统一的跨平台API异构计算框架PerfXAPI,在不显著增加开销的情况下,实现了计算API应用程序在x86 CPU, ARM CPU,NVIDIA GPU,OpenCL GPU等多种平台的无缝迁移和运行。为将来智算中心和超算中心,不同的硬件架构下的算力互连互通打下坚实基础。

梅跃|副教授|大连理工大学
报告题目:

面向多物理场耦合的CAE仿真技术

报告摘要:

多物理场耦合问题是由两个或两个以上的场通过交互作用而形成的物理现象,诸如流固耦合问题、电磁耦合、热力耦合问题等经典问题。由于绝大多数多物理场耦合问题难以获取理论解,而实验手段仅能进行简单多物理场问题的研究,且通常需要较大耗费。因而数值仿真技术成为了研究多物理场耦合问题的重要手段。基于此,本报告将主要介绍基于主流开源库所开发的面向大规模多物理场耦合问题的高精度高效通用仿真方法及其在能量采集器结构设计等若干领域的应用。

龚春叶|副主任|国家超算计算天津中心
报告题目:

后摩尔时代异构计算挑战

报告摘要:

随着晶体管器件逼迫物理极限,芯片工艺提升趋于停滞,多层堆叠也将带来散热巨大的火炉效应。信息社会由摩尔时代正式进入后摩尔时代,异构计算成为主流计算模式。异构计算存在计算墙、访存墙、编程墙、架构墙、编译墙、通信墙、优化墙等挑战,本报告将对上述挑战进行初步探讨。

梁杰鑫|社区开发者|OpenPPL社区
报告题目:

从模型到服务——PPL.LLM大模型推理系统介绍

报告摘要:

为解决在大模型的落地过程中,模型导出难,硬件平台迁移难,推理成本高等问题,OpenPPL社区推出了兼具通用性与高性能的推理系统"PPL.LLM",该系统有以下特点:1. 标准化表达:提出针对大模型的融合算子IR "PMX",统一模型表达形式;2. 分布式推理:通过PMX大模型算子提供分布式行为信息,实现自动化并行;3. 高性能引擎:基于OpenPPL构建大模型推理引擎,提供极致的推理性能及多平台兼容性;4. 服务级优化:针对服务场景定制优化策略,实现大模型的降本增效。

卢玥辰|博士研究生|中国石油大学(北京)
报告题目:

DASP:稠密矩阵乘加单元加速的SpMV算法

报告摘要:

稀疏矩阵向量乘法(SpMV)在计算科学与工程、图处理和机器学习等应用中发挥着关键作用。我们通过实验发现,内积计算部分在SpMV中仍然占据很大的开销,这在现有SpMV工作中很大程度上被忽略了。在本文中,我们提出了 DASP,一种专用稠密矩阵乘加(MMA)单元加速的通用 SpMV算法。我们将稀疏矩阵中的不规则数据布局整理为能够有效利用MMA单元的结构,并对各类数据分别设计了不同计算策略。实验证明,在最新的NVIDIA Ampere和Hopper GPU上,DASP的性能在大多数矩阵上明显优于当前SpMV方法。

张晨|博士研究生|清华大学
报告题目:

Cocktailer: 深度学习程序中动态控制流的分析与优化

报告摘要:

随着深度学习网络结构的日益复杂,动态控制流(如循环、分支和递归等)在深度学习程序中变得十分必要。我们提出了Cocktailer,一个能够在硬件加速器上对深度学习的控制流和数据流进行协同优化的编译器。Cocktailer使用uTask抽象统一表示深度学习模型中的控制流和数据流操作,从而能够将二者统一调度到加速器的底层并行处理单元上,这使得跨越控制流边界对深度学习程序进行优化成为了可能。实验表明,与最先进的深度学习框架和编译器相比,Cocktailer能够将具有控制流的DNN模型加速8.2倍。相关论文发表于 OSDI 2023。

澎峰科技

澎峰科技(PerfXLab),核心团队来自中科院,致力于计算软件栈技术的研发,聚集HPC、AI、RISC-V三大领域。 国际领先的加速计算机技术解决方案商,赋能计算芯片、科学计算和高性能计算应用软件企业。


地址


北京·海淀·紫雀路55号院9号楼
长沙·岳麓区·德必 511室

邮箱


info@perfxlab.com

电话


010-62600621