我们在深度学习训练时常常需要远程使用虚拟环境,对初学者有一些使用指南和技巧,包括conda、指定显卡、tensorboard、pycharm远程、nohup避免任务中断等,这篇博客做简单记录。
一、远程环境
查看cuda版本: cat /usr/local/cuda/version.txt
查看conda环境: conda env list
创建自己的虚拟环境: conda create -n env_name python=3.8
通过clone创建环境: conda create -n env_name –clone base_env_name
查看已安装的包: conda list -n env_list
删除conda环境: conda remove -n name
pip更换国内源: 修改~/.pip/pip.conf 源 (如果没有文件夹就创建文件夹,如果没有文件就创建文件)
[global] index-url = http://mirrors.aliyun.com/pypi/simple/ [install] trusted-host = mirrors.aliyun.com
二、训练相关
查看显卡使用: nvidia-smi
指定特定显卡: 在程序开始时设置(比如只使用前两张卡):
os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘0, 1’
启动tensorboard: tensorboard –logdir ./checkpoints –host ${server_ip} –port ${port}
pycharm远程配置:
https://www.cnblogs.com/superjn/p/8624605.html
三、防止运行任务中断
如果ssh远程登录运行命令,终端关闭后,在对应终端开启的进程也会被关闭,为避免改进程被关闭,可以使用 nohup +命令 来运行
<命令> & 可以让任务一开始就后台运行
如果终端关闭,打开新的终端,需要用ps才能查看到进程
ps -aux | grep “test.sh”
(如果是同一个终端,终端没有关闭,可以
使用 fg %2 可以将任务挂会前台, %2 是job_id, job_id 可以通过 jobs -l 查看当前ssh的任务)
推荐用screen来实现终端自由切换和输入输出重定向 https://www.cnblogs.com/ywl925/p/3604530.html