用户
 找回密码
 立即注册
发表于 2021-4-17 11:23:35
66970
农历春节就要来了,高校的小伙伴们是不是都已经开启了放飞自我的寒假生活。在依然需要落实疫情防控要求的 2021 年春节,是不是宅在家中有些许无聊呢?
NVIDIA 开发者社区特此给同学们奉上假期学习修炼包,用丰富的人工智能、高性能计算开发知识丰富自己的假期吧!
给同学们准备的学习包一共包含 16 份视频演讲,前面文章里已经介绍了8份视频,在本篇中继续介绍剩余8篇。



网络计算技术加速 GPU 应用
—演讲人—
宋庆春
NVIDIA 网络事业部市场开发高级总监
演讲简介
RDMA 技术已经成为提高网络性能和数据中心扩展性的必不可少的技术,RDMA 技术可以实现 CPU 和操作系统 Kernel 的 Bypass,直接在 CPU 或 GPU 的 memory 之间建立通信通路,实现通信的高带宽、低延迟,并提升了系统的可扩展性。在现代 GPU 的应用当中,RDMA 成为提升性能的关键,从 Ring 通信、 Tree 通信,再到现在热门的 SHARP 通信以及 GPU 和存储之间的 GDS 通信,都依赖于 RDMA 来提供性能保障。在本报告中,将会介绍 RDMA 的工作原理和编程接口,为广大的 RDMA 爱好者能充分利用 RDMA 优化 AI 平台的性能提供建议。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20819
或识别二维码观看


大规模分布式 GPU图嵌入在腾讯的实践之路
—演讲人—
王洋子豪
腾讯 软件工程师
演讲简介
您将得到关于如何在多机多卡 GPU 机群系统上搭建和优化高性能图嵌入系统的经验和知识。本演讲首先将介绍大规模图嵌入在不同领域的应用和重要性,接着说明在 GPU 机群上实现高性能图嵌入系统的关键点和我们的图嵌入系统中的关键模块,包括图和特征的分布式层级存储以及如何设计和实现并行的训练管线以最大化通信和计算效率。最后我们会展示我们的图嵌入系统的性能以及简要介绍我们的图嵌入系统的应用场景和未来计划。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20857

或识别二维码观看




加速基于 GPU 的 Top-K 计算
—演讲人—
张静蓉
NVIDIA GPU计算专家
演讲简介
Top-K 计算的目标是从候选数据中选取最大或最小的 K 个数据。作为一种通用的基础计算,Top-K 广泛应用在推荐系统、检索系统的召回模块中。当候选数据较多时,使用 GPU 可以显著地加速 Top-K 计算。我们对比了当前主流的 Top-K 算法和 GPU 实现,并对这些算法进行了优化,大大提升了 GPU 实现的性能。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20315

或识别二维码观看


CUDA Graph 在 TensorFlow 中的应用
—演讲人—
姚佳杰
NVIDIA GPU计算专家
演讲简介
介绍如何在 TensorFlow 中,利用 CUDA Graph,降低 Kernel Launch Overhead,提高 GPU 利用率,改善系统性能。在使用 TensorFlow 的过程中,通常会遇到这样的情形 – 模型中存在较多计算量小的操作(op),由于每个操作在执行过程中,会发生一或多次 Kernel Launch,导致 Launch Kernel 的 Overhead 变得非常显著,降低 GPU 利用率。TF 在默认配置下,GPU 上的计算调度和 CPU 上的计算调度使用同一个线程池,导致同时存在相当数量的线程在进行 Kernel Launch,进一步加剧了 Launch Overhead 。针对这个问题,我们提出了使用 CUDA Graph 来降低 TF 中 Kernel Launch Overhead 的方法 – 将 Session Run 过程中的 Kernel Launch 合并成一次 CUDA Graph Launch,经过测试验证,该方法可以显著提高 TF 在 Inference 过程中 GPU 利用率,相比于图优化策略,该方法适用更多的计算图模式,同时也可以和图优化方法同时使用,进一步提升性能。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20732
或识别二维码观看


Lightseq : GPU 高性能序列推理实践
—演讲人—
王晓辉
字节跳动 算法工程师
演讲简介
在本演讲中,会分享 LightSeq 团队在过去一年多时间里,围绕 NVIDIA GPU 硬件,针对自然语言处理领域的序列(sequence)模型,进行的推理优化工作。自 2017 年 Google 提出 Transformer 模型,以其为基础的特征提取方法,推动了众多自然语言处理任务能力水平的提升,与此同时,模型的参数量和推理延迟也呈现近乎指数增长。为了满足业务场景严苛的部署要求,LightSeq 团队结合 GPU 的硬件特性:1. 对特征运算进行了定制优化 2. 对自回归解码进行了层次化改写 3. 引入编译优化进一步提升计算吞吐。成为业界第一款完整支持 Transformer 、 GPT 等多种模型高速推理的开源引擎。模型层面,LightSeq 团队也探索了压缩、量化及蒸馏技术,性能达到业界 SOTA 。LightSeq 可以应用于机器翻译、自动问答、智能写作、对话回复生成等众多场景,大大提高线上模型推理速度,改善用户的使用体验,降低企业的运营服务成本。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20158
或识别二维码观看


深度学习在游戏角色动画制作过程中的应用
—演讲人—
郑规
腾讯 工程师
演讲简介
3D 游戏中的角色动画,主流做法是:a)动作捕捉获得骨骼动画;b)将角色模型绑定到骨骼用以驱动角色模型的运动;c)将动画切成片段,在游戏中通过有限状态机来驱动动作的转换。这些环节都需耗费大量人力,而且多数不关乎创意和美学,只是重复劳动。具体地,动作捕捉因为肢体遮挡、环境光干扰等问题造成多种类型的数据缺失和错误,需要通过工具或手工逐帧修复;服装蒙皮,一套中等复杂程度的服装可能需要耗费 7 人天;动画切片、构建循环动作、动画状态机维护也是一项长期的工作。我们采用数据驱动的思路,试图将动画制作过程中一些工作完全自动化。在动作捕捉中,深度学习模型从动捕工程师加工过的数据中,学会如何识别错误的数据、重新生成正确的数据,最终可减少 90% 的人工数据清洗时间,大大提高了动捕的效率;在服装蒙皮中,机器学习模型可以达到甚至超过人工蒙皮的水准。我们也探索了如何用监督学习来生成运动学动画,并尝试了如何用强化学习和物理模拟来合成与环境或动作目标相匹配的动画。以上工作,NVIDIA GPU 在两个方面发挥了重要作用,一是深度学习的模型训练,二是几何处理的关键算法如测地距离计算、 mesh 分割等。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20621
或识别二维码观看


超算驱动的新冠药物筛选及临床验证
—演讲人—
罗海彬
中山大学药学院 副院长
演讲简介
中山大学罗海彬教授研究团队发展了 GPU 加速的自由能微扰 — 绝对结合自由能计算新方法(GA-FEP),取得药物设计关键技术的新突破,在抗击新冠肺炎研究中,采用该方法获得 Mpro 抑制活性最优的药物双嘧达莫,多中心临床试验验证该药对新冠肺炎获得较好的临床治疗效果。该 GPU 加速方法实现自由能微扰(FEP)/ 药物设计方法的国产化,该 GA-FEP 方法首次一周内完成对老药数据库的高精度筛选,从而预测出 25 个对新冠肺炎主蛋白酶 Mpro 有较高亲合力的药物,进一步的体外活性验证发现了 15 个 Mpro 抑制剂,表现出较高的活性化合物命中率。特别值得一提的是,抑制活性最优的药物双嘧达莫对新冠肺炎获得较好的临床治疗效果,从而进一步验证 GA-FEP 方法的可靠性。该 GA-FEP 方法既可以明显提高药物 / 靶标亲合力的预测精度,还可以提高预测速度(传统 FEP 方法每个化合物的预测时间为 30-60 天,本方法缩短为 1 天以内,效率提高 30-60 倍),从而提高创新药物筛选的成功率并降低研发时间。该 GA-FEP 方法还可以应用于其他新药设计工作中,如骨架跃迁和全新药物设计等,以提高先导化合物的发现和优化效率。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20563
或识别二维码观看


HPC 应用性能分析和调优
—演讲人—
朱朋志
NVIDIA HPC-AI 实验室高级经理
演讲简介
超级计算领域的集群规模和算力一直在快速增长,在这些集群中,主要的编程模型是消息传递接口(MPI)。对 MPI 库的优化,在提升资源使用效率和应用扩展性,完全释放集群性能方面起着关键作用。为了获得最大的性能,需要针对集群中典型应用的性能热点进行优化,以加速计算并降低开销。因为 InfiniBand 互连提供了一系列提升应用扩展性的关键特性,包括网络计算(In-Network Computing)、远程数据内存访问(RDMA)、点对点通信协议卸载、聚合通信协议卸载等,有效地解决了超级计算 MPI 应用的扩展问题,并被众多大型超级计算集群选择为标准互连。。在本环节中,演讲嘉宾将解读网络加速 HPC-AI 集群应用的关键技术,介绍分析集群中 MPI 应用性能热点的经典方法,示范如何应用网络卸载计算技术针对性能热点进行调优。

观看地址:
https://nvidia.gtcevent.cn/forum/watch?session_id=CNS20767


使用道具 举报 回复
发新帖
您需要登录后才可以回帖 登录 | 立即注册