/images/avatar.png

runzhliu

RDMA-04-基础调试

概述 提供基础的环境供 RDMA 相关业务测试。 机器信息 IP 发行版 内核 10.199.100.34 CentOS 8 4.18.0-193.14.2.el8_2.x86_64 10.199.100.35 CentOS 8 4.18.0-240.el8.x86_64 驱动版本 重新安装 OFED,因为官方没有合适版本的驱动,所以是通过增加

RDMA-05-测试集群

概述 搭建一个测试的 Kubernetes 集群,将节点的 Mellanox 网卡通过虚拟化的方式创建出 PF/VF,通过 k8s-rdma-shared-dev-plugin 插件提供给 Kubernetes 集群作为资源管理,集群可以通过 http://10.199.100.32:8900/ 在办公网内访问(

大模型初探

概述 ChatGPT 发布以来,在算法以及工程圈里引发了各种讨论,近期公司业务需要做 GPT 的尝试,因此前期花了一点时间来学习和调研。 名词解释 LLaMA: Language Model Analysis using Multi-Head Attention, LLa

nvidia-smi报错排查和解决

概述 排查一个 nvidia-docker 的问题。 官方issue 从 nvidia-docker 的官方 issue 中检索,大概发现了如下这些 issue ,大概的意思是目前 nvidia-docker 依靠 runc hook 在 containerd 背后进行 GPU 设备注入(这是现有nv