概述 Mellanox: 迈洛思是基于InfiniBand和以太网技术的计算机网络产品供应商,已经被Nvidia收购 RDMA: Remote Direct Memory Access也叫远程直接内存访问,是
概述 OFED 是 OpenFabrics Enterprise Distribution 的简称,是一个开放源代码软件堆栈,用于实现高性能计算(HPC)和企业数据中心的低延迟和高带宽网络。OFED 提供了一组开放的通信
概述 实验的条件是机器有 Mellanox 的 RDMA 网卡,并且支持 RoCEv2,通过 Docker HostNetwork 以及 Macvlan 的方式测试,实验都是分别在两台物理机上分别创建一个容器来测试跨机通信的
概述 大概在2018-2020年左右,做过一些基于 Kubernetes 的云原生 AI 的工作,其中在大规模的高性能计算中,涉及到一些 RDMA 的框架和应用,简单介绍一下。 基础
概述 提供基础的环境供 RDMA 相关业务测试。 机器信息 IP 发行版 内核 10.199.100.34 CentOS 8 4.18.0-193.14.2.el8_2.x86_64 10.199.100.35 CentOS 8 4.18.0-240.el8.x86_64 驱动版本 重新安装 OFED,因为官方没有合适版本的驱动,所以是通过增加
概述 搭建一个测试的 Kubernetes 集群,将节点的 Mellanox 网卡通过虚拟化的方式创建出 PF/VF,通过 k8s-rdma-shared-dev-plugin 插件提供给 Kubernetes 集群作为资源管理,集群可以通过 http://10.199.100.32:8900/ 在办公网内访问(