/images/avatar.png

runzhliu

DeepSpeed研究

概述 在公有云的 GPU 机器上尝试运行 DeepSpeed 的代码。 训练解析 还是用 PyTorch 来训练的。 安装环境 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Triton调研

概述 Triton 推理服务器是一种开源推理服务软件,可简化 AI 推理。Triton 使团队能够部署来自多个深度学习和机器学习框架的任何 AI 模型,包括 Tensor

HPC系列-设置SR-IOV

概述 To set up an SR-IOV environment, the following is required: MLNX_OFED Driver A server/blade with an SR-IOV-capable motherboard BIOS Hypervisor that supports SR-IOV such as: Red Hat Enterprise Linux Server Version 6 Mellanox ConnectX® VPI Adapter Card family with SR-IOV capability RoCE和InfiniBand比较 RoCE v

搭建GPU容器环境

概述 测试环境可以在办公网内访问,本文主要介绍在测试环境的 GPU 节点,通过 Docker 来运行一个 PyTorch 环境的 GPU 容器,用于测试和调试。 操作 假设 10.189.109.88 这个节点是经过跳板

爆改x16点亮卡

概述 近期在家里搭建一台测试服务器,基础的需求就是可以测试 GPU 和高性能网卡,比如一下 RDMA 网卡,另外有一些基础的需求,如果买刀片机或者塔式服务器,太