NVIDIA CUDA实现AI训练并行计算工具包安装

🕗2024-02-14👁️22

一、什么是NVIDIA的CUDA

CUDA（Compute Unified Device Architecture）是由NVIDIA公司开发的一个并行计算平台和应用程序编程接口（API），它允许软件开发者和软件工程师使用NVIDIA的图形处理单元（GPU）来进行通用计算。简而言之，CUDA让开发者能够利用NVIDIA的GPU进行高效能的计算工作，这通常被称为GPGPU（通用计算图形处理单元）。

CUDA提供了一种相对简便的方法来进行并行处理，因为它允许开发者使用类似于C、C++和Fortran这样的高级编程语言来编写代码。通过CUDA，开发者可以创建能够由GPU执行的算法，从而处理复杂数学和物理问题，这在只使用传统的中央处理单元（CPU）时可能是非常耗时的。

CUDA架构包括几个关键的组成部分：

CUDA核心 - 由多个能够并行处理任务的核心组成，它们可以同时执行成百上千的线程。
CUDA内存管理 - 提供了对GPU内存的高效管理方法，包括全局内存、共享内存和常量内存等。
CUDA并行计算线程 - 一个GPU可以创建和管理成千上万个并行线程，这些线程可以分组执行，提高数据处理的效率。
CUDA工具链 - 包括编译器、调试器和性能分析工具，帮助开发者优化其GPU代码。

CUDA被广泛应用于科学计算、工程、医学成像、视频和图像处理、机器学习等领域，因为这些领域通常需要大量的并行计算能力。例如，在深度学习中，CUDA使得神经网络的训练通过GPU加速变得可能，大幅缩短了所需的时间。

二、查看已经安装的CUDA

在Ubuntu系统中，你可以通过以下几种方式来检查已安装的CUDA版本：

使用nvcc命令：
nvcc是NVIDIA CUDA编译器工具。你可以通过命令行运行以下命令来查看其版本：
```
nvcc --version
```
这将输出CUDA编译器的版本信息。
检查CUDA目录：
CUDA通常安装在/usr/local/cuda目录下。你可以检查这个目录下的版本号：
```
ls -l /usr/local/cuda
```
通常，这个目录是指向当前安装的CUDA版本的一个符号链接。
使用dpkg查询：
如果你是通过apt或dpkg安装的CUDA，可以用以下命令来查询安装的包：
```
dpkg -l | grep cuda
```
这将列出所有包含“cuda”名称的包，你可以从中找到CUDA Toolkit的相关信息。
查看环境变量：
如果你设置了环境变量CUDA_HOME或CUDA_PATH，这些变量通常指向CUDA安装的位置。你可以打印它们的值：
```
echo $CUDA_HOME
echo $CUDA_PATH
```

三、ubuntu下如何安装CUDA

在Ubuntu下安装CUDA Toolkit，你可以按照以下步骤进行：

检查NVIDIA GPU：
首先，确认你的系统中有NVIDIA GPU，并且它支持CUDA。你可以使用lspci | grep -i nvidia命令查看GPU信息。
移除旧版本的NVIDIA驱动：
如果你之前安装过NVIDIA驱动，你可能需要先卸载它们，以避免潜在的冲突。使用以下命令：
```
sudo apt-get purge nvidia*
```
安装NVIDIA驱动：
你可以通过Ubuntu的额外驱动工具安装或者从NVIDIA官网下载合适的驱动。安装驱动的命令如下：
```
sudo ubuntu-drivers autoinstall
```
下载CUDA Toolkit：
前往NVIDIA CUDA Toolkit下载页面（https://developer.nvidia.com/cuda-downloads）并选择适合你Ubuntu版本的安装包。你可以选择`.deb`文件。
安装CUDA Toolkit：
假设你下载了适合你Ubuntu版本的.deb文件，你可以使用以下命令安装CUDA Toolkit：
```
sudo dpkg -i cuda-repo-<distro>_<version>_amd64.deb
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/<distro>/x86_64/7fa2af80.pub
sudo apt-get update
sudo apt-get install cuda
```
其中<distro>和<version>需要替换成你下载的文件对应的发行版和版本号。

设置环境变量：
打开你的.bashrc文件，添加以下行来设置环境变量：

export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

然后，使改动生效：

source ~/.bashrc

重启电脑：
安装完成后，重启你的电脑以确保所有驱动和变量设置正确加载。
验证CUDA安装：
安装完成后，你可以通过运行nvcc --version来验证CUDA编译器是否正确安装。为了测试整个CUDA Toolkit，你可以尝试编译并运行NVIDIA提供的示例程序。

四、ubuntu下如何升级CUDA

在Ubuntu系统上升级CUDA Toolkit需要谨慎进行，因为这可能会影响依赖于CUDA的应用程序。以下是升级CUDA的一般步骤：

备份重要数据：
在进行升级之前，确保备份你的重要数据和工作，以防升级过程中出现问题。
卸载旧版本CUDA：
你可以使用以下命令来卸载旧版本的CUDA Toolkit：
```
sudo apt-get --purge remove "*cuda*"
sudo apt-get --purge remove "*nvidia*"
```
这将移除当前安装的CUDA版本和相关的NVIDIA驱动程序。
清理系统：
清理系统中不再需要的依赖和包：
```
sudo apt-get autoremove
sudo apt-get autoclean
```
安装新版本的NVIDIA驱动：
确保安装与新版本CUDA兼容的NVIDIA驱动。可以通过Ubuntu的额外驱动工具或从NVIDIA官网下载安装。
下载新版本的CUDA Toolkit：
前往NVIDIA官方网站下载最新版本的CUDA Toolkit - https://developer.nvidia.com/cuda-downloads
安装新版本的CUDA Toolkit：
根据下载的CUDA版本，使用dpkg和apt-get命令安装新版本的CUDA Toolkit。例如：
```
sudo dpkg -i cuda-repo-<distro>_<version>_amd64.deb
sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/<distro>/x86_64/7fa2af80.pub
sudo apt-get update
sudo apt-get install cuda
```
其中<distro>和<version>需要替换成你下载的文件对应的发行版和版本号。
更新环境变量：
更新.bashrc文件，将CUDA的路径设置为新版本的路径：
```
export PATH=/usr/local/cuda-<new_version>/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-<new_version>/lib64:$LD_LIBRARY_PATH
```
替换<new_version>为你安装的新版本号，然后运行source ~/.bashrc使更改生效。
重启电脑：
重启你的电脑以确保所有的驱动和环境变量设置正确加载。
验证新版本的CUDA：
使用nvcc --version命令来验证新版本的CUDA编译器是否安装成功。

一、如何查看本机是否安装了Pytorch

在Python环境中查看是否安装了PyTorch可以通过几个简单的步骤来完成。这里有一些方法：

使用Python命令行:

打开你的命令行工具（比如Terminal、Command Prompt或Anaconda Prompt），然后输入Python来启动Python解释器。之后，尝试导入PyTorch库来看看是否会报错。
```
import torch
print(torch.__version__)
```
如果PyTorch已经安装，这将打印出PyTorch的版本号。如果没有安装，你会收到一个ModuleNotFoundError。
使用pip列表:

在命令行中，你可以使用pip包管理工具列出所有已安装的Python包。运行以下命令：
```
pip list
```
或者，如果你使用的是Anaconda，可以使用：
```
conda list
```
这将列出所有已安装的包，你可以在列表中查找torch来确认PyTorch是否安装。
使用pip show:

你可以特别查询PyTorch包的安装信息：
```
pip show torch
```
如果PyTorch已经安装，这将显示PyTorch包的详细信息，包括版本号。

确保你使用的是正确的Python环境，特别是如果你使用了虚拟环境或Anaconda环境。如果你在一个特定的环境中工作，你需要激活那个环境然后再运行上述命令。

二、PyTorch如何安装

安装PyTorch通常很简单，可以通过Python的包管理工具pip或者使用conda，如果你使用的是Anaconda。以下是安装PyTorch的步骤：

使用pip安装

对于大多数用户，使用pip安装PyTorch是最简单的方法。打开你的命令行工具，然后运行以下命令之一：

# 对于CUDA支持的版本，需要指定CUDA的版本，例如CUDA 10.2
pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu102

# 对于不需要CUDA支持的CPU-only版本
pip install torch torchvision torchaudio

请注意，PyTorch官方网站提供了一个非常方便的工具来生成适合你系统和需求的安装命令。你可以访问PyTorch的官方网站，选择合适的配置选项（比如操作系统、包管理工具、Python版本、CUDA版本等），然后复制并运行生成的命令。

我本机安装的命令是

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

使用conda安装

如果你使用的是Anaconda，可以使用conda命令安装PyTorch。同样，打开你的命令行工具，然后运行以下命令：

# 对于CUDA支持的版本，需要指定CUDA的版本，例如CUDA 10.2
conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

# 对于不需要CUDA支持的CPU-only版本
conda install pytorch torchvision torchaudio cpuonly -c pytorch

注意事项

CUDA版本：如果你的机器上有NVIDIA GPU并且想要使用GPU加速，你需要安装支持CUDA的版本。确保安装的CUDA版本与你的NVIDIA驱动程序兼容。
Python版本：安装PyTorch前，请确保你的Python版本与PyTorch兼容。PyTorch通常支持较新的Python版本。
虚拟环境：建议在虚拟环境中安装PyTorch，这样可以避免依赖冲突，并使得环境管理更加简单。
系统权限：如果你没有系统级权限，可能需要在pip命令中添加--user选项来安装PyTorch到用户目录。
网络问题：在一些地区，由于网络问题，可能需要额外的步骤，如使用镜像源或VPN来成功安装PyTorch。

安装完成后，你可以按照之前提到的方法验证PyTorch是否成功安装。

三、pip install 包下载到哪个路径

在Python中，使用pip install安装的包通常会被放置在Python的site-packages目录中。这个目录的具体位置取决于你使用的是系统Python、用户安装的Python，还是虚拟环境中的Python。以下是如何找到site-packages目录的方法：

对于系统Python或用户安装的Python

打开命令提示符或终端。
输入以下命令并回车：
```
python -m site
```
这个命令会列出所有的site-packages目录。其中，USER_SITE对应用户级别的安装（如果使用了--user标志），而SITE_PACKAGES通常对应系统级别的安装。

对于虚拟环境

如果你在虚拟环境中使用pip install，包将被安装在该虚拟环境的site-packages目录中。你可以通过激活虚拟环境，然后使用相同的python -m site命令来找到该目录。

激活虚拟环境的命令通常如下：

在Windows上：
```
\path\to\env\Scripts\activate
```
在Unix或macOS上：
```
source /path/to/env/bin/activate
```

然后运行：

python -m site

这样你就可以看到虚拟环境中的site-packages目录。

示例

例如，在Unix系统上，系统级Python的site-packages目录可能类似于：

/usr/local/lib/python3.8/site-packages

而用户级别的site-packages目录可能类似于：

/home/username/.local/lib/python3.8/site-packages

在Windows系统上，路径可能会是：

C:\Users\username\AppData\Roaming\Python\Python38\site-packages

或者对于系统级安装：

C:\Python38\Lib\site-packages

请根据你的Python版本和操作系统调整路径中的数字和目录名。

Python学习之Pytorch - https://www.cnblogs.com/tianqing/p/18015525