/images/avatar.png

runzhliu

tcsetpgrp-failed重新编译tini

概述 在启动 Spark Operator 的时候出现了一个意想不到的问题。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 # kubectl log -n kube-system spark-sparkoperator-86f6c889cd-ggbmc log is DEPRECATED and will be removed in a future version. Use logs instead. ++ id -u + myuid=185 ++

Tensorboard-on-K8S

概述 本文会详细介绍在 K8S 集群中,部署 Tensorboard 的过程,以及解释一些知识点。关于 Tensorboard 的学习和运用,非常建议浏览官方的教程! https://www.tensorflow.org/guide/summaries_and_tensorboard?hl=zh-CN 另外,对于 K8S 还不熟悉的同学,可

Tensorflow-file_io的用法

概述 S3 对象存储的使用越来越广泛,其中的好处就不多说了,这里用 Tensorflow 举个例子。 https://github.com/tensorflow/examples/blob/master/community/en/docs/deploy/s3.md Tensorflow 本身就支持从 S3 中读写数据的。在弹性计算平台上,用户可以通过指定 AWS_ACCESS_KEY_ID

Tensorflow-RDMA测试

概述 测试,先拿到两个容器。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 [root@53d7b09e-f8ca-45a7-98a3-b10ac0040351 ~]# ibv_devices device node GUID ------ ---------------- mlx5_6 0000000000000000 mlx5_8 0000000000000000 mlx5_11 0000000000000000 mlx5_13 0000000000000000 mlx5_1 506b4b0300081c5b mlx5_15 0000000000000000 mlx5_3 0000000000000000 mlx5_17 0000000000000000 mlx5_5 0000000000000000 mlx5_7 0000000000000000 mlx5_10 0000000000000000 mlx5_9 0000000000000000 mlx5_12 0000000000000000 mlx5_0 506b4b0300081c5a

Tensorflow-Serving-on-Kubernetes

概述 TensorFlow Serving is a flexible, high-performance serving system for machine learning models, designed for production environments. 在 Tensorflow 给的官方例子中 Use TensorFlow Serving with Kubernetes,是将模型拷贝到镜像里的,这里是会有点不太灵活,因为更新模