2.3 PyTorch自动求梯度_深度学习自然语言处理实战-QQ阅读男频历史网

上QQ阅读APP看书，第一时间看更新

2.3 PyTorch自动求梯度

深度学习的过程中，在对代价函数（loss）进行优化时需要计算梯度（gradient），Py-Torch提供的autograd（自动求梯度）包能够根据输入的数据和前向传播过程自动构建计算图，并执行反向传播。

2.3.1 基本概念

在PyTorch中，torch.Tensor是autograd包的核心类，如果将其属性.requires_ grad设置为True，它将开始追踪对Tensor的所有操作，即可以利用链式法则（Chain Rule）进行梯度传播（Gradient Propagation）。完成计算后，可以调用.backward()来自动完成所有梯度的计算。这个Tensor的梯度将累积到.grad属性中。例如，如果x是一个Tensor，x.requires_grad=True，然后x.grad是另一个Tensor，x.grad将累计x的所有的梯度。

如果在后期需要停止对Tensor历史记录的追踪，可以调用.detach()函数，它会将Tensor与其计算的历史记录做分离，并防止将来的计算被继续追踪，此时，梯度就不会进行传播了。如果需要设置一些操作代码使其不被跟踪，可以用with torch.no_grad()将具体的代码块包装起来。这种方法在评估（Evaluate）模型时用处很大，这是因为在评估模型的阶段不需要用到可训练参数（require_grad = True）部分的梯度。

Function也是autograd包中很重要的一个类。通过将Tensor和Function进行连接可以构建一个保存整个计算过程历史信息的有向无环图（Directed Acyclic Graph，DAG）。每个Tensor都会有一个.grad_fn属性，这个属性会保存创建该Tensor的Function，即说明这个Tensor是否由某些运算得到。如果是用户自己创建的Tensor，那么.grad_fn属性将是None。