远程虚拟环境使用简记

我们在深度学习训练时常常需要远程使用虚拟环境,对初学者有一些使用指南和技巧,包括conda、指定显卡、tensorboard、pycharm远程、nohup避免任务中断等,这篇博客做简单记录。

一、远程环境

查看cuda版本: cat /usr/local/cuda/version.txt

查看conda环境: conda env list

创建自己的虚拟环境: conda create -n env_name python=3.8

通过clone创建环境: conda create -n env_name –clone base_env_name

查看已安装的包: conda list -n env_list

删除conda环境: conda remove -n name

pip更换国内源: 修改~/.pip/pip.conf 源 (如果没有文件夹就创建文件夹,如果没有文件就创建文件)

[global] index-url = http://mirrors.aliyun.com/pypi/simple/ [install] trusted-host = mirrors.aliyun.com

二、训练相关

查看显卡使用: nvidia-smi

指定特定显卡: 在程序开始时设置(比如只使用前两张卡):

os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘0, 1’

启动tensorboard: tensorboard –logdir ./checkpoints –host ${server_ip} –port ${port}

pycharm远程配置:

https://www.cnblogs.com/superjn/p/8624605.html

三、防止运行任务中断

如果ssh远程登录运行命令,终端关闭后,在对应终端开启的进程也会被关闭,为避免改进程被关闭,可以使用 nohup +命令 来运行

<命令> &   可以让任务一开始就后台运行

如果终端关闭,打开新的终端,需要用ps才能查看到进程

ps -aux | grep “test.sh”

(如果是同一个终端,终端没有关闭,可以

使用 fg %2  可以将任务挂会前台, %2 是job_id, job_id 可以通过 jobs -l 查看当前ssh的任务)

推荐用screen来实现终端自由切换和输入输出重定向 https://www.cnblogs.com/ywl925/p/3604530.html

发表评论