My notes on mathematics for physicists

From Zheyong Fan
Revision as of 19:30, 24 July 2020 by Brucefan (talk | contribs) (Created page with "=数学基础回顾= ==一元微积分== ===导数与微分=== * 考虑一个函数 <math>y(x)</math>,如果在 <math>x=a</math> 处极限 <math>\lim_{h\to 0}{\frac {y(a...")
(diff) ← Older revision | Latest revision (diff) | Newer revision → (diff)
Jump to navigation Jump to search

数学基础回顾

一元微积分

导数与微分

  • 考虑一个函数 <math>y(x)</math>,如果在 <math>x=a</math> 处极限 <math>\lim_{h\to 0}{\frac {y(a+h)-y(a)}{h}}</math> 存在,就称该函数在该点可导,并称该极限为函数在该点的导数 (derivative),记为:

$$ y'(a) = \lim_{h\to 0}{\frac {y(a+h)-f(a)}{h}} $$ 如果函数在一段定义域内都可导,就可以将该定义域内的所有导数的集合称为一个新的函数,叫做导函数 <math>y'(x)</math>。所以 <math>y'(a)</math> 既可以看作函数 <math>y(x)</math> 在 <math>x=a</math> 的导数,也可以看作导函数 <math>y'(x)</math> 在 <math>x=a</math> 的取值,即: $$ y'(a) = y'(x)|_{x=a} $$ 我们以后都采用第二种看法。

  • 上述导数的记号是拉格朗日记号。导数还有一个莱布尼茨(Leibniz)记号

$$ \frac{dy}{dx} = y'(x) $$ 从物理学的角度来说,莱布尼茨记号有一个好处,那就是它清楚地表明导数 <math>\frac{dy}{dt}</math> 的量纲就是函数 <math>y</math> 的量纲除以自变量 <math>x</math> 的量纲。


  • 历史上,莱布尼茨记号 <math> \frac{dy}{dx}</math> 最初的含义是指 <math>dy</math> 与 <math> dx</math> 的比值,只不过 <math>dy</math> 和 <math>dx</math> 都要理解为无穷小量。它们被称为 <math>y</math> 和 <math>x</math> 的微分 (differential)。相应地,导数 <math>\frac{dy}{dx}</math> 也被称为微分的商,简称微商 (differential quotient)。虽然按照我们上面关于导数的定义,<math>\frac{dy}{dx}</math> 只是一个极限的记号,不代表 <math>dy</math> 与 <math>dx</math> 的比值,但是莱布尼茨记号是如此地精妙,以至于很多时候它就表现为一个商。至少在这本书讨论的各种问题中,将 <math> \frac{dy}{dx}</math> 理解为微分 <math>dy</math> 与 微分 <math>dx</math> 的比值是不会引起任何问题的。
  • 根据

\begin{equation} \frac{dy}{dx} = y'(x) \end{equation} 我们可以将函数的微分 <math>dy</math> 用自变量的微分 <math>dx</math> 表达: \begin{equation} dy = y'(x)dx. \end{equation} 当然,如果我们再将此式中的 <math>y'(x)</math> 换成 <math>\frac{dy}{dx}</math> 也未尝不可: \begin{equation} dy = \frac{dy}{dx} dx. \end{equation} 这里,即使我们将 <math>\frac{dy}{dx}</math> 看成 <math>dy</math> 与 <math>dx</math> 比值也不会出现任何逻辑上的问题,因为这只不过导致一个恒等式 <math>dy=dy</math>。这就是莱布尼茨记号的神奇之处。在不追求数学上的严谨时,<math>\frac{dy}{dx}</math> 既可以看做是一个整体的导数记号,也可以看做是两个微分的比值。比如,我们有时候会将 <math>\frac{dy}{dx}</math> 写成 <math>dy/dx</math> 或者 <math>\frac{d}{dx} y</math>。

  • 从导数的定义出发,可以推导出几个求导数的规则:
    • 求导操作是线性 (linear) 操作。如果有 <math>N</math> 个常数 <math>c_i</math> 和 <math>N</math> 个变量都是 <math>x</math> 的函数<math> f_i(x)</math>,我们有

\begin{equation} \frac{d}{dx}\left(\sum_i c_i f_i\right) = \sum_i c_i\frac{df_i}{dx}. \end{equation}

    • 乘法规则。对于两个函数 <math>f(x)</math> 和 <math> g(x)</math>,我们有

\begin{equation} \frac{d}{dx}(f(x)g(x)) = \frac{d}{dx}f(x) g(x) + f(x) \frac{d}{dx}g(x). \end{equation}

    • 复合函数导数的链式规则 (Chain rule)。对于复合函数 <math>z=z(y(x))</math>。该函数对 <math>x</math> 的导数为:

\begin{equation} \frac{dz(x)}{dx} = \frac{dz(y)}{dy} \frac{dy(x)}{dx}. \end{equation}

    • 由乘法规则和链式规则可以推导出如下除法规则(如果记不住除法规则,不如直接用乘法规则和链式规则):

$$ \frac{d}{dx} \left(\frac{f(x)}{g(x)}\right) =\frac{\frac{d}{dx}f(x) g(x) - f(x) \frac{d}{dx} g(x)}{[g(x)]^2}. $$

  • 反函数的导数。如果 <math>x=x(y)</math> 是 <math>y=y(x)</math> 的反函数,则在<math>\frac{dy(x)}{dx} \neq 0</math> 时我们有如下公式:

\begin{equation} \frac{d x(y)}{dy} = \frac{1}{\frac{d y(x)}{dx} }. \end{equation} 此时很容易直观地理解,也可利用求导的链式规则加以证明。

初等函数可由常数函数、幂函数、指数函数、对数函数、三角函数复合而成的函数。这里就来计算一些初等函数的导数。

  • 常数函数的导数为零。如果 <math>c</math> 是常数函数,那么把它看成变量 <math>x</math> 的函数时,它对变量 <math>x</math> 的导数处处为零。这是可以很容易地理解的:常数函数对应于一条斜率为零的直线。
  • 幂函数。对于一般幂函数<math> y=x^a</math> (<math>a</math> 为任意实数),直接运用导数的定义可得

\begin{align} \frac{d (x^a)}{dx} =& \lim_{\Delta\rightarrow 0} \frac{(x+\Delta x)^a - x^a}{\Delta x} = x^{a-1}\lim_{\Delta\rightarrow 0}\frac{(1+\Delta x/x)^a - 1}{\Delta x/x} \nonumber \\ =& x^{a-1} a = a x^{a-1}. \end{align}

  • 指数函数。运用导数的定义,我们有

\begin{align} \frac{d a^x}{dx} =& \lim_{\Delta x\rightarrow 0} \frac{a^{x+\Delta x}-e^x}{\Delta x} \nonumber \\ =& a^x \lim_{\Delta x\rightarrow 0} \frac{a^{\Delta x}-1}{\Delta x} = a^x \ln a. \end{align} 特别地,当 <math>a=e</math> 时,我们有如下重要的公式: \begin{equation} \frac{d e^x}{dx} = e^x. \end{equation}

  • 对数函数。从指数函数的导数与反函数的求导规则求出对数函数的导数:

\begin{align} \frac{d \log_a x}{d x} = \frac{1}{x \ln a}. \end{align} 特别地,当 <math>a=e</math> 时,我们有如下简单又重要的公式: \begin{equation} \frac{d \ln x}{d x} = \frac{1}{x}. \end{equation}

  • 正弦函数与余弦函数。我们有以下两式:

\begin{equation} \label{equation:d_sin_dx} \frac{d}{dx} \sin x = \cos x, \end{equation} \begin{equation} \label{equation:d_cos_dx} \frac{d}{dx} \cos x = -\sin x. \end{equation}

  • 一类在物理中比较常用的初等函数是双曲函数。常用的双曲函数有双曲正弦函数

\begin{equation} \sinh x = \frac{1}{2}\left(e^x-e^{-x}\right), \end{equation} 双曲余弦函数 \begin{equation} \cosh x = \frac{1}{2}\left(e^x+e^{-x}\right), \end{equation} 和双曲正切函数 \begin{equation} \tanh x = \frac{\sinh x}{\cosh x} = \frac{e^x-e^{-x}}{e^x+e^{-x}}. \end{equation} 从正弦函数和余弦函数的导数出发,可以很容地推导出如下公式: \begin{equation} \frac{d}{dx}\sinh x = \cosh x, \end{equation} \begin{equation} \frac{d}{dx}\cosh x = \sinh x, \end{equation} \begin{equation} \frac{d}{dx}\tanh x = \frac{1}{\cosh^2 x}. \end{equation}

如果对一个导函数再求导数,就得到原来函数的二阶导数: \begin{equation} \frac{d \left(\frac{dx}{dt}\right)}{dt} = \frac{d}{dt} \frac{dx}{dt} = \frac{d}{dt} \frac{d}{dt} x \end{equation} \begin{equation} = \frac{d^2}{(dt)^2}x = \frac{d^2 }{dt^2} x = \frac{d^2 x}{dt^2} \end{equation} 其中,最后一个式子是二阶导数的标准的莱布尼茨记号,但我们要搞清楚它代表什么意思。比如,我们要搞清楚的是分母中的 <math>dt^2</math> 指的是 <math>(dt)^2</math>,而不是<math>d(t^2)</math>。

正如一阶导数既有莱布尼茨记号,还有一个拉格朗日记号 <math>x'(t)</math>,二阶导数除了上面的莱布尼茨记号外,也有一个拉格朗日记号,即: \begin{equation} \frac{d^2 x}{dt^2} = x(t). \end{equation}

关于导数的记号,我还想说一点。对一个函数取导数就是对函数进行一个操作,让它变成另外一个函数。数学上,我们将“对函数进行一个操作”表达为对函数作用一个算符 (operator)。对于求导数的操作,我们定义一个求导算符 <math> \frac{d}{dt}</math>。将此算符作用一次在函数<math>x(t)</math> 上,就得到了一阶导数 <math>\frac{d}{dt} x(t)=\frac{dx}{dt}</math>;将此算符作用两次在函数 <math>x(t)</math> 上,就得到了二阶导数<math>\left(\frac{d}{dt}\right)^2 x(t)=\frac{d^2 x}{dt^2}</math>。

我们可以类似地定义更高阶的导数。假设<math> f(x)</math> 是一个一般的函数。我可以从它的二阶导数定义它的三阶导数: \begin{equation} \frac{d^3f}{dx^3} = \frac{d}{dx} \left(\frac{d^2f}{dx^2}\right), \end{equation} 或者更一般地从它的<math> (n-1)</math> 阶导数定义它的 <math>n</math> 阶导数: \begin{equation} \frac{d^nf}{dx^n} = \frac{d}{dx} \left(\frac{d^{n-1}f}{dx^{n-1}}\right). \end{equation} 对于三阶导数,我们依然可以将其表示为 <math>f(x)</math>,但对于四阶及以上的导数这样的记号就不方便了,正如汉字中的数从“四”起就不用四个横线表示了。

需要注意的是,虽然我们这样定义了函数 <math>f(x)</math> 的高阶导数,它们是否存在就要具体问题具体分析了。如果一个函数的任意阶导数都存在,那么我们称它为光滑函数 (smooth function)。

积分与微积分基本定理

前面节学习的导数让我们能够求出与任意位置函数~$x(t)$对应的速度函数~$v(t)$。然而,实际应用中,我们需要通过已知的速度函数求解位置函数。因为~$v(t)$ 是~$x(t)$ 的导函数,所以这里的问题就是如何由一个函数推知一个以该函数为导函数的函数。这样的过程叫做求一个函数的积分。

求函数的积分与求曲线与坐标轴围成的面积是紧密相连的。通过高中的学习,我们知道,通过速度函数与坐标轴所围成的面积可以求出位移~$\delta x$。如图所示。对于简单的曲线,我们有一些特殊的办法计算其对应的面积,但我们更关心的是如何计算一般的曲线与坐标轴围成的区域的面积。历史上,这正是发明积分的原始动力。

与研究函数的导数时所采用的方法类似,我们先尝试找到一个能够近似地计算这个面积的方法。 \textbf{Riemann 和}就是这样一个近似,它将这个面积近似为~$N$ 块长方形区域的面积的和。每个长方形区域的宽度为 ~$\Delta t = (t_2-t_1)/N$。第~$i$ 个块的高度为~$v(t_i)$,其中~$t_i$ 是第~$i$ 个块的中间点。这些长方形的面积总和约等于位移: \begin{equation} \sum_{i=1}^N v(t_i)\Delta t \approx \Delta x. \end{equation} 如果这些长方形足够窄,我们期望~$R$ 是~$\Delta x$ 的一个足够好的近似。这暗示如下等式: \begin{equation} \Delta x = \lim_{\Delta t\rightarrow 0} \sum_{i=1}^N v(t_i)\Delta t. \end{equation} 求和和求极限是可以交换的,故 \begin{equation} \label{equation:integral_sum} \Delta x = \sum_{i=1}^N \lim_{\Delta t\rightarrow 0} v(t_i)\Delta t. \end{equation} 这就是函数$v(t)$ 在区间~$[t_1,t_2]$ 的\textbf{积分}(integral)的定义。Leibniz 发明了一个更好记的记号: \begin{equation} \label{equation:integral_leibniz} \Delta x = \int_{t_1}^{t_2} v(t) dt. \end{equation} 从公式~(\ref{equation:integral_sum}) 到公式~(\ref{equation:integral_leibniz}),有如下对应: \begin{itemize} \item 求和符号~$\Sigma$ 被积分符号~$\int$ 替换。求和符号~$\Sigma$ 是与拉丁字母``S"对应的希腊字母,代表``sum",而积分符号~$\int$ 就像一个拉长的``S。所以,积分和求和基本上就是一回事。 \item 求和下限~$i=1$ 和上限~$i=N$ 被积分下限~$t_1$ (积分符号中的下标)和积分上限~$t_2$ (积分符号中的上标)替换。积分上下限定义了积分区间。 \item 极限~$\lim_{\Delta\rightarrow 0}v(t_i)\Delta t$ 被~$v(t) dt$ 替换,这与在定义导数时将~$\lim_{\Delta t\rightarrow 0} \frac{\Delta x}{\Delta t}$ 替换为~$\frac{dx}{dt}$ 具有异曲同工之妙。 \item 关于积分记号还有一点要说明。因为~$v(t_i)\Delta t$ 代表~$v(t_i)$ 和~$\Delta t$ 的乘积,也可写成~$\Delta t v(t_i)$,故我们也可以将~$v(t) dt$ 写成~$dt v(t)$,从而有

   \begin{equation}
       \int_{t_1}^{t_2} v(t) dt = \int_{t_1}^{t_2} dt v(t).
   \end{equation}
   也就是说,我们可以将~$dt$ 紧放在积分符号后面。不管把它放在哪里,$dt$ 都告诉我们积分是对变量~$t$ 作的。这里的~$t$ 叫做积分变量。

\end{itemize}

上面,我们将位移表达成了速度函数的积分。下面,我们根据这个结果作进一步思考。一方面,我们知道位移只不过是两个位置之差,$\Delta x =x(t_2) - x(t_1)$。 所以,我们得到了如下等式: \begin{equation} \label{equation:x_integral} \Delta x = x(t_2) - x(t_1) = \int_{t_1}^{t_2} v(t) dt. \end{equation} 另一方面,我们知道上式中的速度函数~$v(t)$ 是坐标函数的导数,故有: \begin{equation} \Delta x = x(t_2) - x(t_1) = \int_{t_1}^{t_2} \frac{dx}{dt} dt. \end{equation}

上式是微积分中一个非常重要的公式(可以说是最重要的),叫做微积分基本定理。为了显示该定理的重要性,我们用更一般的符号表述\textbf{微积分基本定理}:

如果函数~$F(x)$ 是一个定义在区间~$[a, b]$ 的可微函数,$f(x)$ 是函数~$F(x)$ 的导数,即~$F'(x)=f(x)$,则 \begin{equation} \int_{a}^{b} f(x) dx = F(b) - F(a). \end{equation}


函数~$F(x)$ 叫做函数~$f(x)$ 的原函数(也叫反导数)。因此,要计算一个函数~$f(x)$ 的积分,我们需要先找到被积函数的原函数~$F(x)$,然后求原函数在上、下限的取值之差~$F(b) - F(a)$。该差值也常写为如下形式: \begin{equation} F(b) - F(a) = F(x)\Big|_a^b. \end{equation} 用这个记号,也可以将微积分基本定理表达为: \begin{equation} \int_{a}^{b} f(x) dx = F(x)\Big|_a^b. \end{equation}

我们知道一个函数的导数一般来说也是一个函数。那么,积分是否也有类似的性质呢?为了回答这个问题,我们将积分上限的符号~$b$ 换成一个新的符号~$y$,得到 \begin{equation} F(y) = \int_{a}^{y} f(x) dx - F(a). \end{equation} 如果我们将积分上限~$y$ 看做一个变量,但仍将积分下限~$a$ 看做常数(因此~$F(a)$ 也是一个常数),那么上式就定义了一个变量~$y$ 的函数~$F(y)$。注意:函数~$F$ 并不依赖变量~$x$,因为~$x$ 在该式中是一个哑变量(积分变量)。我们可以将哑变量换为另外的符号,例如~$t$。作了这个替换后,我们还可以将上式中的两个~$y$ 都换~$x$,从而得到 \begin{equation} \label{equation:F(x)} F(x) = \int_{a}^{x} f(t) dt - F(a). \end{equation} 所以,我们得到了一个由积分定义的函数~$F(x)$。让我们来计算该函数的导数: \begin{equation} \frac{d}{dx} \left(\int_a^x f(t)dt\right) = \frac{d}{dx} \left( F(x) - F(a) \right) = F'(x) - 0 = f(x). \end{equation} 去掉上式的中间推导步骤,有 \begin{equation} \frac{d}{dx} \left(\int_a^x f(t)dt\right) = f(x). \end{equation} 该式说明,如果我们对一个函数先积分、再求导,得到的就是原来的函数。这说明,积分和求导是“互逆”的运算。上式可以被认为是微积分基本定理的第二种表述。


我们首先总结上一节的结果。如果要计算积分 \begin{equation} \int_a^b f(x) dx \end{equation} 我们只需要如下两个步骤: \begin{enumerate} \item 找到函数~$f(x)$ 的原函数~$F(x)$。 \item 计算原函数在上、下极限的取值之差~$F(b)-F(a)$ \end{enumerate} 显然,第二个步骤是很容易的,所以第一个步骤(找原函数)才是最关键的。通常形式地将原函数与一个 不定积分(indefinite integral)$\int f(x) dx$ 联系起来: \begin{equation} \int f(x) dx = F(x) + c, \end{equation} 不定积分指的是个不指定上下限的积分。相比之下,指定了上下限的积分叫做定积分(definite integral)。原函数不能唯一地被确定,因为任何函数加上一个常数~$c$ 都不会改变其导数。


根据以上定义,求一个不定积分就是找到被积函数的原函数,即找到一个函数,使得它的导数等于被积函数。因为我们之前研究了基本初等函数的导函数,那么我们就可以直接写出这些导函数的原函数。


因为求导和积分是对应的,所以一个求导运算规则往往对应着一个积分运算规则。

线性规则


\begin{equation} \int (a f'(x) + b g'(x)) dx = a f(x) + b g(x) + C. \end{equation}

换元法

复合函数求导的链式规则对应积分的换元法。


\begin{equation} \int f'(g(x)) g'(x) dx = f(g(x)) + C \end{equation} \begin{equation} \int f'(g) \frac{dg}{dx}dx = \int f'(g) \frac{dg}{dx} = f(g) + C = f(g(x)) + C \end{equation} First $g(x) \rightarrow g$ and then $g \rightarrow g(x)$

分部积分

求导的乘法规则对应积分的分部积分。


反常积分

我们上面讲的~Riemann 积分的定义排除了积分上下限有无穷大以及积分函数有无穷大的情形。然而,在很多情况下,我们需要计算这样的积分。所以有必要想办法使得这样的积分有意义。这种类型的积分被称为\textbf{反常积分} (improper integral)。 我们先来看一个积分的上限为无穷大的例子。 \begin{equation} I = \int_0^{\infty} dx \frac{1}{1+x^2} \end{equation} 也许你认为根据我们已经讲过的规则,很容易计算这个积分: \begin{equation} I = \int_0^{\infty} dx \frac{1}{1+x^2} = \arctan x \Big|_0^{\infty} =\frac{\pi}{2} - 0 = \frac{\pi}{2}. \end{equation} 这样计算确实给出了正确的结果,但严格地说,按照~Riemann 积分的定义,上面的积分是没有意义的!对这样的反常积分,更为严谨的做法是作如下定义与计算 \begin{equation} \int_0^{\infty} \frac{dx}{1+x^2} =\lim_{b\rightarrow \infty} \int_0^{b} \frac{dx}{1+x^2} = \lim_{b\rightarrow \infty} \arctan (b) = \frac{\pi}{2}. \end{equation} 我们再来看一个被积函数在积分区域内出现无穷大的情形: \begin{equation} I = \int_0^{1} dx \frac{1}{\sqrt{x}} \end{equation} 对这样的反常积分,我们作如下定义与计算 \begin{equation} \int_0^{1} \frac{dx}{\sqrt{x}} = \lim_{a\rightarrow 0} \int_a^{1} \frac{dx}{\sqrt{x}} = \lim_{a\rightarrow 0} 2\sqrt{x} \Big|_a^1 = 2-0 = 2. \end{equation} 用来定义反常积分的极限的收敛性决定了积分的收敛性。当极限不收敛(趋近于无穷大)时,积分就是发散的。一个典型的例子如下: \begin{equation} \int_0^{1} dx \frac{1}{x} = \lim_{a\rightarrow 0} \int_a^{1} dx \frac{1}{x} = \lim_{a\rightarrow 0} \ln x \Big|_a^1 = 0-(-\infty) = \infty. \end{equation} 下面计算几个在物理中非常重要的反常积分。 \begin{equation} I = \int_0^{\infty} e^{-x^2} dx \end{equation}

Fourier变换

本讲会多次用到Fourier变换。这里简要回顾一下。一个函数$f(x)$可以展开为: \begin{equation} f(x) = \frac{1}{2\pi} \int_{-\infty}^{+\infty} dk e^{ikx} g(k). \end{equation} 这个展开就叫做Fourier变换。反过来,$g(k)$可以展开为: \begin{equation} g(k) = \int_{-\infty}^{+\infty} dx e^{-ikx} f(x). \end{equation} 这个展开叫做逆Fourier变换。当然,把哪个叫做Fourier 变换,哪个叫做逆Fourier变换是随意的。特别重要的是Dirac $\delta$函数$\delta(x)$的Fourier变换: \begin{equation} \delta(x) = \frac{1}{2\pi} \int_{-\infty}^{+\infty} dk e^{ikx}. \end{equation}

多元微积分

多元函数

我们知道,函数是用来表达变量间的依赖关系的。最简单的函数将一个变量与另一个变量联系起来。这样的函数叫做一元函数。然而,有些问题中,某个变量同时依赖于两个或多个变量,那么这就涉及到多元函数。例如,长方体的体积是长、宽、高的乘积,那么可以将体积~$V$ 表达为长 $a$、宽~$b$ 和高~$c$ 的三元函数:$V(a, b, c) = a b c$。 其中~$a$、 $b$ 和~ $c$ 是自变量, $V$ 是因变量,即函数值。

偏导数

一个两元函数~$z=z(x,y)$ 在其定义域内的某一点~$(x_0, y_0)$ 对其变量~$x$ 的\textbf{偏导数} (partial derivative)~$\left(\pd{z}{x}\right)_y$ 定义为: \begin{equation}

 \left(\pd{z}{x}\right)_y \Big|_{x_0,y_0}
 = \lim_{\Delta x \rightarrow 0} \frac{z(x_0 + \Delta x, y_0) - z(x_0, y_0)}{\Delta x}.

\end{equation} 其中偏导数符号~$\left(\pd{z}{x}\right)_y$ 中的下标~$y$ 表示在对变量~$x$ 求偏导数的过程中将变量~$y$ 视作常数。类似地,我们可以定义函数~$z=z(x,y)$ 在点~$(x_0, y_0)$ 对变量~$y$ 的偏导数: \begin{equation}

 \left(\pd{z}{y}\right)_x\Big|_{x_0,y_0}
 = \lim_{\Delta y \rightarrow 0} \frac{z(x_0, y_0 + \Delta y) - z(x_0, y_0)}{\Delta y}.

\end{equation} 此时,我们将变量~$x$ 视作常数。 对于有更多变量的函数,其偏导数可以类似地定义。例如,一个三元函数~$w=w(x,y,z)$ 在其定义域内的某一点~$(x_0, y_0, z_0)$ 对其变量~$x$ 的偏导数~$\left(\pd{w}{x}\right)_{y,z}$ 定义为: \begin{equation} \left(\pd{w}{x}\right)_{y,z}\Big|_{x_0,y_0,z_0} = \lim_{\Delta x \rightarrow 0} \frac{w(x_0 + \Delta x, y_0,z_0) - w(x_0, y_0,z_0)}{\Delta x}. \end{equation} 这里,偏导数符号~$\left(\pd{w}{x}\right)_{y,z}$ 中的下标~$y,z$ 表示在对变量~$x$ 求偏导数的过程中将变量~$y$ 和~$z$ 都视作常数。在很多情况下,我们很清楚在求一个偏导数的过程中哪个或哪些量被当作常数。因此,为了简洁,在不引起误解的情况下我将省略偏导数符号中的下标。 与一元函数的情形类似,我们可以将一个多元函数在定义域中各点的偏导数集合起来构成一个新的函数。这个新的函数严格地说叫做偏导函数,但为了简洁,我们就叫它偏导数。例如,两元函数~$z=z(x,y)$ 对变量~$x$ 的偏导(函)数可以写为~$\pd{z}{x}$。一般来说,该偏导数仍然是~$x$ 和~$y$ 的函数。 与一元函数的情形类似,我们也可以定义高阶偏导数。例如,函数~$z=z(x,y)$ 对变量~$x$ 的二阶偏导数可以写成如下等价的形式: \begin{equation} \pd{}{x}\left(\pd{z}{x}\right) =\pd{^2z}{x^2}. \end{equation} 除了可以对同一个变量定义高阶偏导数之外,还可对不同的变量定义混合的高阶偏导数。例如,将函数~$z=z(x,y)$ 先对变量~$x$ 求偏导数,再对变量~$y$ 求偏导数,得到的函数可以写成如下等价的形式: \begin{equation} \pd{}{y}\left(\pd{z}{x}\right) =\pd{^2z}{y\partial x}. \end{equation} 一个很重要的结果是函数的二阶混合偏导数与求偏导的次序无关,即: \begin{equation} \pd{^2z}{y\partial x}=\pd{^2z}{x\partial y}, \end{equation} 只要该二阶混合偏导数是连续函数。证明如下。

全微分

我们知道,一个一元函数的微分可以写成它的导数和自变量的微分的乘积。类似地,一个偏导数与相应的自变量的微分的乘积也定义了一个函数的微分,叫做\textbf{偏微分}。以两元函数~$z=z(x,y)$ 为例,我们可以定义两个偏微分:$\pd{z}{x} dx$ 和~$\pd{z}{y} dy$。这两个偏微分中的任何一个都不能完全地反映函数~$z=z(x,y)$ 随变量的变化而变化的情况。能够做到这一点的是函数的\textbf{全微分}(total differential)~$dz$,它定义为各个偏微分的和: \begin{equation} dz = \pd{z}{x}dx + \pd{z}{y}dy. \end{equation} 正如一个一元函数~$y=y(x)$ 通常有一个反函数~$x=x(y)$,我们也经常可以将两元函数~$z=z(x,y)$ 理解为另外的函数,例如~$x=x(y,z)$ 和~$y=y(z,x)$。我们可以据此推导出几个非常有用的关系式: 对函数~$x=x(y,z)$ 和~$y=y(z,x)$ 取全微分可得: \begin{equation} dx = \pd{x}{y}dy + \pd{x}{z}dz, \quad dy = \pd{y}{z}dz + \pd{y}{x}dx. \end{equation} 将~$dy$ 的表达式代入~$dx$ 的表达式并整理可得: \begin{equation} dx \left(1- \pd{x}{y}\pd{y}{x}\right)= dz \left(\pd{x}{y}\pd{y}{z} + \pd{x}{z}\right). \end{equation} 如果注意到微分~$dx$ 和~$dz$ 可以取为独立的变量。取~$dx\neq 0$,$dz=0$ 便得到 \begin{equation} 1- \pd{x}{y}\pd{y}{x} = 0. \end{equation} 我们可以将它写为 \begin{equation} \pd{x}{y} = \frac{1}{\pd{y}{x}}. \end{equation} 该式被称为\textbf{倒数关系} (reciprocal relation)。取~$dx= 0$,$dz\neq 0$ 便得到 \begin{equation} \pd{x}{y}\pd{y}{z} + \pd{x}{z} = 0. \end{equation} 运用倒数关系,我们有~$\pd{x}{z} = \frac{1}{\pd{z}{x}}$。将此代入上式即得 \begin{equation} \pd{x}{y}\pd{y}{z}\pd{z}{x} = -1. \end{equation} 该式被称为\textbf{循环关系}(cyclic relation)。 在此说明两点:(1)在以上公式中,所有的偏导数符号都省略了表示固定某个变量的下标,因为对于两元函数,我们很清楚在求一个偏导数时哪个变量被固定;(2)倒数关系似乎暗示我们可以简单地将~$\pd{x}{y}$ 理解为~$\partial x$ 与~$\partial y$ 的比值,但循环关系立即告诉我们这样想是错的。事实上,单独的~$\partial x$ 或~$\partial y$ 是没有任何意义的。

Legendre 变换

一个多元函数~$f(x, y)$ 相对于其中一个变量~ $x$ 的~Legendre 变换定义为 \begin{equation}

 g(u, y) = f(x, y) - ux,

\end{equation} 其中 \begin{equation}

 u = \left( \frac{\partial f}{\partial x} \right)_y.

\end{equation}

可以验证,新的函数~$g(u, y)$ 确实是变量~$u$ 和~$y$ 的函数: \begin{align}

 dg =& df - d(ux)
    = u dx + \left( \frac{\partial f}{\partial y} \right)_x dy - u dx - x du \nonumber \\
    &= \left( \frac{\partial f}{\partial y} \right)_x dy - x du.

\end{align}


从函数到场

我们这里关心的是一种特殊的多元函数:它是坐标分量~$x$、$y$、$z$ 的函数。这样的函数叫做场~(field)。确切地说,叫做标量场,因为函数值是一个标量(一个数值)。一个典型的标量场是质点在地球引力作用下具有的势能场~$U(x,y,z)$。

也可以定义矢量场,它的每个分量都是~$x$、$y$、$z$ 的函数。所以,一个矢量场$\vect{A}(x,y,z)$ 是一个从三个变量~$x$、$y$、$z$ 到另外三个变量~$A_1$、$A_2$、$A_3$ 的对应。也可以这样理解:一个矢量场~$\vect{A}(x,y,z)$ 由三个标量场~$A_1(x,y,z)$、$A_2(x,y,z)$、$A_3(x,y,z)$ 构成。当然,不是随便三个标量场都可以构成一个矢量场;构成矢量场的标量场必须要满足矢量变换规律。

标量场的梯度

观察一个标量场~$f=f(x,y,z)$ 的全微分: \begin{equation} df = \frac{\partial f}{\partial x} dx + \frac{\partial f}{\partial y} dy + \frac{\partial f}{\partial z} dz \end{equation} 可知,标量场~$f=f(x,y,z)$ 的全微分好像是两个矢量的标量积,其中一个矢量的分量为~$\frac{\partial f}{\partial x}$、$\frac{\partial f}{\partial y}$、$\frac{\partial f}{\partial z}$,另一个矢量的分量为~$dx$、$dy$、$dz$。至于它们为什么一定构成矢量是可以严格证明的。第一个矢量常记为 \begin{equation} \nabla f = \pd{f}{x} \vect{e}_1 + \pd{f}{y} \vect{e}_2 + \pd{f}{z} \vect{e}_3

= \sum_{i=1}^3 \pd{f}{x_i} \vect{e}_i.

\end{equation} 第二个矢量记为 \begin{equation} d\vect{x} = dx \vect{e}_1 + dy \vect{e}_2 + dz \vect{e}_3 = \sum_{i=1}^3 dx_i \vect{e}_i. \end{equation} 这里,我们定义~$x_1=x,x_2=y,x_3=z$。矢量场~$\nabla f$ 叫做标量场~$f$ 的梯度场,简称梯度(gradient)。矢量场~$d\vect{x}$ 似乎没有特别的名字,姑且叫它微分坐标场。总结:标量场~$f$ 的全微分可以表达为梯度场~$\nabla f$ 和微分坐标场~$d\vect{x}$ 的标量积,即 \begin{equation} d f = \nabla f \cdot d \vect{x}. \end{equation}

如果有另一个标量场~$g=g(x,y,z)$,我们也可以很快写出它的梯度场:$\nabla g = \pd{g}{x} \vect{e}_1 + \pd{g}{y} \vect{e}_2 + \pd{g}{z} \vect{e}_3$。这就暗示我们,可以定义一个通用的算符: \begin{equation} \nabla = \pd{}{x} \vect{e}_1 + \pd{}{y} \vect{e}_2 + \pd{}{z} \vect{e}_3

= \sum_{i=1}^3 \pd{}{x_i} \vect{e}_i,

\end{equation} 它作用在一个标量场上就得到一个相应的梯度场。从一个具体的梯度场中抽象出一个算符~$\nabla$ 来是很有用的。算符~ $\nabla$ 发音为~nabla,原指一种酷似倒三角的竖琴。


矢量场的散度和璇度

散度

$\nabla$ 算符除了是个算符,还是个矢量(可以严格证明)。我们知道一个矢量可以和另一个矢量点乘或者叉乘。那么,$\nabla$ 算符也可以和一个矢量点乘或者叉乘,只不过一般来说,这里的矢量不是常矢量,而是矢量场。$\nabla$算符与一个矢量场~$\vect{A}(\vect{x})$点乘的结果是一个标量场,叫做该矢量场的散度(divergence): \begin{equation} \nabla \cdot \vect{A} = \pd{A_1}{x_1} + \pd{A_2}{x_2} + \pd{A_3}{x_3}

= \sum_i \pd{A_i}{x_i}.

\end{equation}


旋度

$\nabla$ 算符与一个矢量场~$\vect{A}(\vect{x})$ 叉乘的结果是一个矢量场,叫做该矢量场的旋度(curl): \begin{align} \nabla \times \vect{A} =& \left(\pd{A_3}{x_2}-\pd{A_2}{x_3}\right)\vect{e}_1 \nonumber \\ +& \left(\pd{A_1}{x_3}-\pd{A_3}{x_1}\right)\vect{e}_2 \nonumber \\ +& \left(\pd{A_2}{x_1}-\pd{A_1}{x_2}\right)\vect{e}_3. \end{align} 上式可以简写为 \begin{equation} \nabla \times \vect{A} = \sum_i \sum_j \sum_k \varepsilon_{ijk}\pd{A_k}{x_j} \vect{e}_i. \end{equation}

求导的乘法规则

可以证明如下等式(其中,$f$ 和~$g$ 是标量场,$\vect{A}$ 和~$\vect{B}$ 是矢量场): \begin{equation} \nabla(fg) = f(\nabla g) + (\nabla f) g, \end{equation} \begin{equation} \nabla \cdot (f\vect{A}) = f (\nabla \cdot \vect{A}) + (\nabla f) \cdot \vect{A}, \end{equation} \begin{equation} \nabla \times (f\vect{A}) = f (\nabla \times \vect{A}) + (\nabla f) \times \vect{A}, \end{equation} \begin{equation} \nabla \times (\nabla f) = 0, \end{equation} \begin{equation} \nabla \cdot (\nabla \times \vect{A}) = 0, \end{equation} \begin{equation} \nabla \cdot (\vect{A} \times \vect{B}) = \vect{B} \cdot (\nabla \times \vect{A}) -\vect{A} \cdot (\nabla \times \vect{B}), \end{equation} \begin{equation} \nabla(\vect{A} \cdot \vect{B}) =\vect{A} \times (\nabla \times \vect{B}) + \vect{B} \times (\nabla \times \vect{A}) +(\vect{A} \cdot \nabla)\vect{B} +(\vect{B} \cdot \nabla)\vect{A}, \end{equation} \begin{equation} \nabla \times (\vect{A} \times \vect{B}) =(\nabla \cdot \vect{B}) \vect{A} - (\nabla \cdot \vect{A}) \vect{B} +(\vect{B} \cdot \nabla) \vect{A} - (\vect{A} \cdot \nabla) \vect{B}. \end{equation}

Laplace算符

$\nabla$ 算符还可以和自己点乘,结果是一个新的标量算符,叫做~Laplace 算符,常简记为~$\Delta$: \begin{equation} \Delta = \nabla \cdot \nabla=\pd{^2}{x_1^2}+\pd{^2}{x_2^2}+\pd{^2}{x_3^2} = \sum_i \pd{^2}{x_i^2}. \end{equation} 正如常将~$\vect{A} \cdot \vect{A}$ 简记为~$\vect{A}^2$,也常将~Laplace 算符~$\nabla \cdot \nabla$简记为$\nabla^2$。 可以证明,对标量场~$f$ 和矢量场~$\vect{A}$ 有: \begin{equation} \nabla \cdot (\nabla f) = \nabla^2 f. \end{equation} \begin{equation} \nabla \times (\nabla \times \vect{A}) = \nabla(\nabla \cdot \vect{A}) - \nabla^2 \vect{A}. \end{equation}


多元函数的积分

线积分(line integral)

顾名思义,线积分是沿着一条(曲)线的积分。矢量场~$\vect{A}(\vect{x})$ 沿着路径~$P$ 的线积分表示为: \begin{equation} I = \int_{P} \vect{A}(\vect{x}) \cdot d\vect{l}. \end{equation} 其中,$I$代表积分值,而~$d\vect{l}=dx\vect{e}_1+dy\vect{e}_2+dz\vect{e}_3$ 为上一讲提到过的微分位置矢量。线积分也可称为路径积分 (path integral)。如果路径是闭合的,即终点与起点重合,得到的积分叫做闭曲线积分。


练习。计算矢量场~$\vect{A}(\vect{x}) = y^2\vect{e}_1 + 2xy \vect{e}_2$ 沿着下面三个路径的线积分:

(1) 从点(1,1,0)到点(2,2,0)的直线段;

(2)从点(1,1,0)到点(2,1,0)的直线段加上从点(2,1,0)到(2,2,0)的直线段;

(3)路径(2)再加上从(2,2,0)回到出发点(1,1,0)的直线段。

[答案:(1) 10;(2) 10; (3) 0]

面积分(surface integral)

同样地顾名思义,面积分是沿着一个(曲)面的积分。矢量场~$\vect{A}(\vect{x})$ 对曲面~$S$ 的面积分表示为: \begin{equation} I = \int_{S} \vect{A}(\vect{x}) \cdot d\vect{a}. \end{equation} 其中,$d\vect{a}$ 是曲面~$S$ 在~$\vect{x}$ 处的微分面积矢量。如果曲面是闭合的,那么得到的积分叫做闭曲面积分,也叫做通量 (flux)。


体积分(volume integral)

同样地顾名思义,体积分是对一个空间体积的积分。一般应用中只考虑标量函数的体积分。标量场~$f(\vect{x})$ 对体积区域~$\Omega$的体积分表示为: \begin{equation} \int_{\Omega} f(\vect{x}) dv. \end{equation} 其中,$dv=dxdydz$ 是~$\vect{x}$ 处的微分体积。体积分也叫三重积分。


微积分基本定理

单变量函数的微积分基本定理

微积分学中最重要的内容是微积分基本定理。该定理可以表达为如下形式: \begin{equation} \int_a^b \frac{df}{dx} dx = f(b)-f(a). \end{equation} 该定理的实质是:导数$f'(x)=\frac{df}{dx}$在一个区域的积分由(导数的原)函数$f(x)$在区域边界处的值确定。

下面三个定理是该定理的直接推广:


关于梯度的微积分基本定理

关于梯度的微积分基本定理可以表达为如下形式: \begin{equation} \int_{\vect{p}_1}^{\vect{p}_2} (\nabla f(\vect{x})) \cdot d\vect{l} = f(\vect{p}_2)-f(\vect{p}_1). \end{equation} 该定理的实质依然是:导数在一个区域的积分由函数在区域边界处的值确定,只不过这里的导数是梯度,函数是标量场。

推论1:$\int_{\vect{p}_1}^{\vect{p}_2} (\nabla f(\vect{x})) \cdot d\vect{l} = f(\vect{p}_2)-f(\vect{p}_1)$与积分路径无关,因为该积分只与边界点有关。

推论2:$\oint (\nabla f(\vect{x})) \cdot d\vect{l} = 0$,因为闭曲线没有边界。

关于散度的微积分基本定理

关于散度的微积分基本定理可以表达为如下形式: \begin{equation} \int_{\Omega} (\nabla \cdot \vect{A}(\vect{x})) dv = \oint_{S} \vect{A}(\vect{x}) \cdot d\vect{a}. \end{equation} 该定理的实质依然是:导数在一个区域的积分由函数在区域边界处的值确定,只不过这里的导数是散度,函数是矢量场。


关于旋度的微积分基本定理

关于旋度的微积分基本定理可以表达为如下形式: \begin{equation} \int_{S} (\nabla \times \vect{A}(\vect{x})) \cdot d\vect{a} = \oint_{P} \vect{A}(\vect{x}) \cdot d\vect{l}. \end{equation} 该定理的实质依然是:导数在一个区域的积分由函数在区域边界处的值确定,只不过这里的导数是旋度,函数是矢量场。

推论1:$\int_{S} (\nabla \times \vect{A}(\vect{x})) \cdot d\vect{a} = \oint_{P} \vect{A}(\vect{x}) \cdot d\vect{l}$ 与积分曲面~$S$ 无关,因为它只与边界线~$P$ 有关。

推论2:$\oint (\nabla \times \vect{A}(\vect{x})) \cdot d\vect{a} = 0$,因为闭曲面没有边界。


无旋场与无源场

\subsection{无旋场}

旋度处处为零的矢量场叫做无旋场。可以证明,一个无旋场总可以表示为一个标量场的梯度。又因为梯度的旋度一定为零,我们有如下结论: \begin{equation} \nabla \times \vect{F}(\vect{x}) = 0 \Leftrightarrow \vect{F}(\vect{x}) = - \nabla V(\vect{x}). \end{equation}

\subsection{无源场}

散度处处为零的矢量场叫做无源场。可以证明,一个无源场总可以表示为一个矢量场的旋度。又因为旋度的散度一定为零,我们有如下结论: \begin{equation} \nabla \cdot \vect{F}(\vect{x}) = 0 \Leftrightarrow \vect{F}(\vect{x}) = \nabla \times \vect{A}(\vect{x}). \end{equation}

\subsection{矢量场的分解} 可以证明,一个矢量场一定可以分解为一个梯度和一个旋度的和: \begin{equation} \vect{F}(\vect{x}) = -\nabla V(\vect{x}) + \nabla \times \vect{A}(\vect{x}). \end{equation}

另外,Helmholtz定理(证明比较复杂)说,只要给定一个矢量场的散度和旋度,再加上合适的边界条件,就可以完全确定该矢量场。


Dirac delta 函数

引子

请计算矢量场~$\frac{\vect{x}}{|\vect{x}|^3}$ 的散度。你是否得到~$\nabla \cdot \frac{\vect{x}}{|\vect{x}|^3}=0$?

接着,请计算矢量场~$\frac{\vect{x}}{|\vect{x}|^3}$ 对半径为1且中心在原点的球面(由里向外为曲面的正方向)的面积分。结果应该是: \begin{equation} \oint \frac{\vect{x}}{|\vect{x}|^3} \cdot d\vect{a} = 4 \pi. \end{equation} 于是,我们有 \begin{equation} \oint \frac{\vect{x}}{|\vect{x}|^3} \cdot d\vect{a} \neq \int \left( \nabla \cdot \frac{\vect{x}}{|\vect{x}|^3} \right) dv \end{equation} 是不是觉得上面的结果与上一讲的关于散度的微积分基本定理矛盾?


一维Dirac delta~函数

一维~Dirac $\delta$ 函数记为~$\delta(x)$,定义如下: \begin{equation} \delta(x) = 0, ~\text{if} ~x \neq 0, \end{equation} \begin{equation} \delta(x) = \infty, ~\text{if} ~x = 0, \end{equation} \begin{equation} \int_{-\infty}^{\infty} \delta(x) dx = 1. \end{equation}

可以稍加推广得到函数~$\delta(x-a)$,其中~$a$ 为任意常数: \begin{equation} \delta(x-a) = 0, ~\text{if} ~x \neq a, \end{equation} \begin{equation} \delta(x-a) = \infty, ~\text{if} ~x = a, \end{equation} \begin{equation} \int_{-\infty}^{\infty} \delta(x-a) dx = 1. \end{equation}


一个连续函数~$f(x)$ 与~$\delta(x-a)$ 的乘积有如下性质: \begin{equation} f(x) \delta(x-a) = f(a) \delta(x-a). \end{equation} 两边积分得 \begin{equation} \int_{-\infty}^{\infty} dx f(x) \delta(x-a) = f(a). \end{equation} 这是一个很重要的性质。

含有~$\delta$ 函数的表达式的等价性的证明。

要证明两个含有~$\delta$ 函数的表达式~$E_1(x)$ 和~$E_2(x)$ 等价,只要证明下式即可: \begin{equation} \int_{-\infty}^{\infty} f(x) E_1(x) dx = \int_{-\infty}^{\infty} f(x) E_2(x) dx. \end{equation} 其中,$f(x)$是一个任意的连续函数。


练习1。证明: \begin{equation} \delta(ax) = \frac{1}{|a|}\delta(x). \end{equation} 其中~$a$ 是任意非零实数。

练习2。证明: \begin{equation} \frac{d\theta(x)}{dx} = \delta(x). \end{equation} 其中~$\theta(x)$ 是阶跃函数(step function),定义如下: \begin{equation} \theta(x) = 0, ~ \text{if} ~x \leq 0, \end{equation} \begin{equation} \theta(x) = 1, ~ \text{if} ~x > 0. \end{equation}

三维~Dirac delta 函数

三维~Dirac $\delta$ 函数定义为 \begin{equation} \delta(\vect{x}) = \delta(x)\delta(y)\delta(z). \end{equation} 它具有如下性质: \begin{equation} \int_{\text{all space}} \delta(\vect{x}) dv = 1, \end{equation} \begin{equation} \int_{\text{all space}} f(\vect{x}) \delta(\vect{x}-\vect{a}) dv = f(\vect{a}). \end{equation}

回到引子

其实,在计算矢量场~$\frac{\vect{x}}{|\vect{x}|^3}$ 的散度时,我们忘了考虑~$\vect{x}=0$ 的情况。虽然~$\vect{x} \neq 0$ 时~$\nabla \cdot \frac{\vect{x}}{|\vect{x}|^3}=0$,但~$\vect{x}=0$ 时~$\nabla \cdot \frac{\vect{x}}{|\vect{x}|^3}\rightarrow \infty$。 所以散度~$\nabla \cdot \frac{\vect{x}}{|\vect{x}|^3}$ 应该是一个三维~Dirac $\delta$ 函数。可以验证,只要令 \begin{equation} \nabla \cdot \frac{\vect{x}}{|\vect{x}|^3} = 4 \pi \delta(\vect{x}), \end{equation} 即可得 \begin{equation} \int \left( \nabla \cdot \frac{\vect{x}}{|\vect{x}|^3} \right) dv = 4 \pi = \oint \frac{\vect{x}}{|\vect{x}|^3} \cdot d\vect{a}. \end{equation} 这就挽救了关于散度的微积分基本定理!

还可以将上述结果换一种形式表达。可以证明: \begin{equation} \nabla \left( \frac{1}{|\vect{x}|} \right) = - \frac{\vect{x}} {|\vect{x}|^3}. \end{equation} 于是有: \begin{equation} \nabla^2 \left( \frac{1}{|\vect{x}|} \right) = - 4 \pi \delta(\vect{x}). \end{equation} 最后这个结果非常重要。


Gauss积分

统计力学中常常用到如下形式的Gauss积分: \begin{equation} I_n(a) = \int_{-\infty}^{+\infty} dx x^n e^{-ax^2}. \end{equation} 其中,$a$为正的常数,$n$为非负整数。下面只介绍本讲需要用到的几个公式。

先看最简单的$n=0$和$a=1$的情形: \begin{equation} I_0(1) = \int_{-\infty}^{+\infty} dx e^{-x^2}. \end{equation} 我们可以先在极坐标中求$[I_0(1)]^2$: \begin{equation} [I_0(1)]^2 = \int_{-\infty}^{+\infty} dx \int_{-\infty}^{+\infty} dy e^{-(x^2+y^2)} = \int_{0}^{2\pi} d\theta \int_{0}^{+\infty} rdr e^{-r^2} = \pi. \end{equation} 所以 \begin{equation} I_0(1) = \int_{-\infty}^{+\infty} dx e^{-x^2} = \sqrt{\pi}. \end{equation} 用换元法马上可以求得 \begin{equation} I_0(a) = \int_{-\infty}^{+\infty} dx e^{-ax^2} = \frac{\sqrt{\pi}}{\sqrt{a}}. \end{equation}

本讲还要用到$I_2(a)$。显然,它可以将$I_0(a)$对参数$a$求导得到: \begin{equation} \frac{dI_0(a)}{da} = -I_2(a). \end{equation} 于是, \begin{equation} I_2(a) = \int_{-\infty}^{+\infty} dx x^2 e^{-ax^2} = -\frac{dI_0(a)}{da} = \frac{1}{2} \frac{\sqrt{\pi}}{\sqrt{a^3}}. \end{equation}


概率论基础

概率的定义

概率论的中心对象是\textbf{随机变量}~$x$。它可以取一系列可能的值,如~$x_1, x_2, \cdots$。这些可能的取值构成一个集合,记为~ $S=\{x_1, x_2, \cdots\}$。 这些值可以是\textbf{离散}的,也可以是\textbf{连续}的。这个集合的一个子集~$E \subset S$ 被称为一个\textbf{事件},它指随机变量的一个或多个\textbf{结果}。该事件有一确定的\textbf{概率}~$\textmd{prob}(E)$。概率需满足如下条件 \begin{enumerate}

  \item 正定(positive),即~$\textmd{prob}(E)\geq 0$。也就是说,某个事件发生的概率是一个非负的实数。
  \item 可加(additive),即~$\textmd{prob}(E_1 \cup E_2)= \textmd{prob}(E_1) + \textmd{prob}(E_2)$, 如果~ $E_1 \cap E_2 = \emptyset$。
  \item 归一(normalized),即~$\textmd{prob}(S)= 1$。也就是说,该随机变量的值肯定在集合~$S$ 中。
\end{enumerate}

我们最关心的是如何确定随机变量取一特定结果的概率。主要有两个方法。第一个是\textbf{客观法},它将一个结果~$A$ 的概率定义为 \begin{equation} \textmd{prob}(A) = \lim_{N\rightarrow \infty} \frac{N_A}{N}. \end{equation} 其中,$N_A$ 是实验中得到结果$A$ 的次数,$N$ 是总的实验次数。第二个是\textbf{主观法},它从理论上对一个事件发生的概率进行推断或者假定。至于这样做是否正确,只能通过将一些由此而得到的预言与实验结果对比才可知晓。


单个连续随机变量的概率密度

对于一个连续随机变量~$x$,我们定义一个\textbf{概率密度}~(probability density) [也叫做\textbf{概率分布函数}~(probability distribution function),简称\textbf{概率分布}~(probability distribution)]~$\rho(x)$, 它与随机变量的微分~$dx$ 的乘积代表变量在区间~$[x, x+dx]$ 取值的概率。用集合的语言可表示为 \begin{equation} \rho(x)dx = \text{prob}([x, x+dx]). \end{equation} 由概率的归一化条件~$\text{prob}((-\infty, +\infty))=1$ 可以推知概率密度的归一化条件: \begin{equation} \int_{-\infty}^{\infty} \rho(x) dx = 1. \end{equation} 虽然概率密度满足上述归一化条件,它本身可以取任何非负实数。例如,Dirac $\delta$函数 $\delta(x)$ 就可以是一个合理的概率密度,因为 \begin{equation} \int_{-\infty}^{\infty} \delta(x) dx = 1. \end{equation} 这个函数在$x=0$处是正无穷大的。注意,如果~$x$ 代表一个物理量~(比如速度),则~$\rho(x)$~的量纲是~$x$ 的量纲的倒数。

练习1。对于在区间$[0, 1]$均匀分布随机变量,其概率密度怎么写?

练习2。如果一个随机变量不是连续的而是离散的,它可以取两个值$x_1$和$x_2$,概率分别为0.4和0.6。请问,如果将这个随机变量看作连续变量,其概率密度如何表达?


由概率密度可以定义一个\textbf{累积概率分布函数} $P(x)$: \begin{equation} P(x) = \int_{-\infty}^{x} \rho(x') dx'. \end{equation} 显然,该函数的值从负无穷处的~0 单调递增为正无穷处的~1。用集合的语言,我们有 \begin{equation} P(x) = \text{prob}((-\infty, x]). \end{equation} 根据微积分可知, \begin{equation} \rho(x) = \frac{d P(x)}{dx}. \end{equation}

\subsection{平均值和标准差}

对于一个具有概率密度$\rho(x)$的连续随机变量$x$,其平均值(mean value)定义为 \begin{equation} \langle x \rangle = \int_{-\infty}^{+\infty} dx \rho(x) x. \end{equation} 如果$f=f(x)$是随机变量$x$的函数,我们称$f(x)$是一个随机函数,它的平均值有类似的定义: \begin{equation} \langle f(x) \rangle = \int_{-\infty}^{+\infty} dx \rho(x) f(x). \end{equation} 特别重要的随机函数是$x$的幂函数$f(x)=x^n$。我们称$x^n$的平均值为$n$阶矩(moment): \begin{equation} \langle x^n \rangle = \int_{-\infty}^{+\infty} dx \rho(x) x^n. \end{equation} 显然,一阶矩就是平均值。

练习3。证明随机函数$x-\langle x \rangle$的平均值为零。

练习4。证明随机函数$(x-\langle x \rangle)^2$的平均值为$\langle x^2 \rangle - \langle x \rangle^2$ 。

通过二阶矩和一阶矩的组合可以定义一个非常重要的量,叫做方差(variance)$(\Delta x)^2$: \begin{equation} (\Delta x)^2 = \langle x^2 \rangle - \langle x \rangle^2 = \langle (x-\langle x \rangle)^2 \rangle \end{equation} 可以这样记忆:“方差等于平方的平均值减去平均值的平方”。之所以将方差记为$(\Delta x)^2$,是因为我们通常更常用方差的平方根$\sqrt{(\Delta x)^2}=\Delta x$,叫做标准差(standard deviation),也叫作方均根偏差(root mean square deviation)。

练习5。对于在区间$[0, 1]$均匀分布随机变量$x$,求其平均值$\langle x \rangle$和标准差$\Delta x$。


特征函数

将概率密度作一个Fourier变换,就得到一个特征函数$\chi(k)$: \begin{equation} \chi(k) = \int_{-\infty}^{+\infty} dx \rho(x) e^{-ikx} = \langle e^{-ikx} \rangle. \end{equation} 正如第二个等号所表达的,这个Fourier变换也可以看做随机函数$e^{-ikx}$的平均值。于是,概率密度可以写成特征函数的逆Fourier变换 \begin{equation} \rho(x) = \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{ikx} \chi(k) . \end{equation} 如果概率密度$\rho(x)$的任意阶矩都存在,则可以将特征函数展开为 \begin{equation} \chi(k) = \sum_{n=0}^{\infty} \frac{(-ik)^n}{n!} \langle x^n \rangle. \end{equation} 综上,我们可以将概率密度$\rho(x)$表达为 \begin{equation} \rho(x) = \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{ikx} \sum_{n=0}^{\infty} \frac{(-ik)^n}{n!} \langle x^n \rangle. \end{equation} 后面的推导将不止一次用到该式。

还有另外一种展开特征函数的方法: \begin{equation} \chi(k) = e^{\sum_{n=1}^{\infty} \frac{(-ik)^n }{n!} C_n }. \end{equation} 将这个展开与上面的展开对比,令各个$k^n$的系数相等,就可以将各个$C_n$用$\langle x^n \rangle$的组合表达。例如,展开至$k^2$,可以得到: \begin{equation} 1 - ik \langle x \rangle - \frac{1}{2}k^2 \langle x^2 \rangle = 1 - ik C_1 - \frac{1}{2}k^2 (C_1^2 + C_2). \end{equation} 对比可得 \begin{equation} C_1 = \langle x \rangle, \end{equation} \begin{equation} C_2 = (\Delta x)^2. \end{equation} 于是,在展开到$k^2$的近似下,特征函数为 \begin{equation} \chi(k) = e^{-ik \langle x \rangle - \frac{1}{2} k^2 (\Delta x)^2}. \end{equation} 这个结果后面要用到。


随机函数的概率密度

随机函数$y=f(x)$本身也可以看做一个新的随机变量;它也有一个对应的概率密度。我们记这个概率密度为$\sigma(y)$。因为当随机变量$x$从$x$变到$x+dx$时,随机变量$y$从$y$变到$y+dy$,所以必须有 \begin{equation} \rho(x)dx = \sigma(y)dy. \end{equation} 这就是概率密度的变换公式。这个公式很有用(后面会用到),但在后面的推导中我们还需要用到另一个关于$\sigma(y)$的表达式: \begin{equation} \sigma(y) = \int_{-\infty}^{+\infty} dx \rho(x) \delta(f(x) - y). \end{equation}

我们来证明上式。利用前一小节的一个公式,有 \begin{equation} \sigma(y) = \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{iky} \sum_{n=0}^{\infty} \frac{(-ik)^n}{n!} \langle y^n \rangle. \end{equation} 另一方面,我们可以将$\langle y^n \rangle$用概率密度$\rho(x)$表达: \begin{equation}

\langle y^n \rangle = \int_{-\infty}^{+\infty} dx \rho(x) [f(x)]^n.

\end{equation} 结合上面两式可得 \begin{align} \sigma(y) =& \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{iky} \sum_{n=0}^{\infty} \frac{(-ik)^n}{n!} \int_{-\infty}^{+\infty} dx \rho(x) [f(x)]^n \nonumber \\ =& \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{iky} \int_{-\infty}^{+\infty} dx \rho(x) e^{-ikf(x)} . \end{align} 上式中对$k$的积分就等于$\delta(f(x) - y)$。于是有$\sigma(y) = \int dx \rho(x) \delta(f(x) - y)$。证毕。

练习6。设$y= f(x) = a x$($a>0$),证明可以从公式$\sigma(y) = \int dx \rho(x) \delta(f(x) - y)$ 导出公式$\rho(x)dx = \sigma(y)dy$。

多个连续随机变量的概率密度

如果有$N$个随机变量$\{x_i\}_{i=1}^N$,我们可以定义一个联合概率密度(joint probability density)$\rho(x_1, x_2, \cdots, x_N)$,它与各个随机变量的微分$dx_i$的乘积代表这些随机变量在体积为$dx_1dx_2\cdots dx_N$的超立方元(hypercubic element)取值的概率。它的归一化条件为: \begin{equation} \int_{-\infty}^{\infty} dx_1 \int_{-\infty}^{\infty} dx_2 \cdots \int_{-\infty}^{\infty} dx_N \rho(x_1, x_2, \cdots, x_N) = 1. \end{equation} 通常将$\rho(x_1, x_2, \cdots, x_N)$简写为$\rho(x)$,并将$dx_1dx_2\cdots dx_N$简写为$dx$。简写之后上式与单个连续随机变量的概率密度的归一化表达式没有区别,但大家要明白这其中的区别。任何一个关于随机变量$\{x_i\}_{i=1}^N$的函数$f(x_1, x_2, \cdots, x_N)$的平均值定义为 \begin{align} &\langle f(x_1, x_2, \cdots, x_N) \rangle \nonumber \\ &= \int_{-\infty}^{\infty} dx_1 \int_{-\infty}^{\infty} dx_2 \cdots \int_{-\infty}^{\infty} dx_N \rho(x_1, x_2, \cdots, x_N)f(x_1, x_2, \cdots, x_N). \end{align}

可以将上一小节关于随机函数的公式从单个随机变量的情形推广到多个随机变量的情形。设有一个函数$y=f(x_1, x_2, \cdots, x_N)$,若将$y$视作一个新的随机变量,则其概率密度可以写成 \begin{align} &\sigma(y) = \nonumber \\ &\int_{-\infty}^{+\infty} dx_1 \int_{-\infty}^{+\infty} dx_2 \cdots \int_{-\infty}^{+\infty} dx_N \rho(x_1, x_2, \cdots, x_N) \delta(f(x_1, x_2, \cdots, x_N) - y). \end{align} 后面将用到这个等式。


对于有多个连续随机变量的情形,可以定义随机变量之间的关联(correlation)。随机变量$x_i$与随机变量$x_j$ 的关$K_{ij}$定义如下: \begin{align} K_{ij} =& \langle (x_i - \langle x_i \rangle) (x_j - \langle x_j \rangle) \rangle \nonumber \\ =& \int_{-\infty}^{\infty} dx_1 \int_{-\infty}^{\infty} dx_2 \cdots \int_{-\infty}^{\infty} dx_N \rho(x_1, x_2, \cdots, x_N)(x_i - \langle x_i \rangle) (x_j - \langle x_j \rangle). \end{align} 这个量反映的是随机变量$x_i$的涨落(fluctuations)$x_i - \langle x_i \rangle$与随机变量$x_j$的涨落$x_j - \langle x_j \rangle$之间的关联程度。

如果各个随机变量之间是独立的(independent),即无关联的(uncorrelated),那么联合概率密度可以写成各个独立的随机变量的概率密度$\rho_i(x_i)$的乘积(这其实就是中学学习的乘法原理): \begin{equation} \rho(x_1, x_2, \cdots, x_N) = \rho_1(x_1)\rho_2(x_2) \cdots \rho_N(x_N). \end{equation}

练习7。证明:对于两个独立的随机变量$x_i$与$x_j$,它们之间的关联为零。

中心极限定理

考虑$N$个相互独立且具有相同的概率密度的随机变量$\{x_i\}_{i=1}^N$。说它们具有相同的概率密度,指的是: \begin{equation} \rho_1(x_1) = \rho(x_1);~ \rho_2(x_2) = \rho(x_2);~ \cdots ~ \rho_N(x_N) = \rho(x_N). \end{equation} 这里,$\rho$就是所指的那个唯一的(相同的)概率密度。又因为各个随机变量是独立的,联合概率密度可以写成 \begin{equation} \rho(x_1, x_2, \cdots, x_N) = \rho(x_1) \rho(x_2) \cdots \rho(x_N). \end{equation} 根据所给条件可知,各个随机变量的平均值相等。记这个共同的平均值为$\langle x \rangle $,则有 \begin{equation} \langle x_1 \rangle = \langle x_2 \rangle = \cdots = \langle x_N \rangle = \langle x \rangle. \end{equation} 同理可知,这些随机变量有一个共同的方差,记为$(\Delta x)^2$。


下面我们提出一个问题:当$N\rightarrow \infty$时,这$N$个随机变量的和的概率分布是什么?中心极限定理(The central limit theorem)能够告诉我们答案。这个定理在统计力学中具有相当重要的地位。下面我们来推导这个定理。

我们要求的是随机函数 \begin{equation} y=\sum_{i=1}^N x_i \end{equation} 的概率分布。不妨记这个概率分布为$\sigma(y)$。为了方便,我们先引入另一个随机函数 \begin{equation} z=\frac{y-N \langle x \rangle}{\sqrt{N}}. \end{equation} 我们可以先求随机函数$z$的概率分布$\pi(z)$,再根据$\sigma(y)dy = \pi(z)dz$求出$\sigma(y)$。


例子。测量$N$个相同的原子体系的能量。$x_i$是第$i$ 个原子的能量在某次测量中的值。$y=\sum_{i=1}^N x_i$ 是所有原子在某次测量中得到的能量的和(即系统的总能量在某次测量中的值)。


利用上一小节推广的一个等式,我们有 \begin{align} \pi(z) = & \int_{-\infty}^{+\infty} dx_1 \int_{-\infty}^{+\infty} dx_2 \cdots \int_{-\infty}^{+\infty} dx_N \rho(x_1) \rho(x_2) \cdots \rho(x_N) \nonumber \\ &\delta \left( z - \frac{x_1 + x_2 + \cdots + x_N - N\langle x \rangle}{\sqrt{N}} \right). \end{align} 将Dirac $\delta$函数作Fourier展开得 \begin{align} &\pi(z) = \nonumber \\ &\int \frac{dk}{2\pi} e^{ikz+ik\sqrt{N}\langle x \rangle} \int dx_1 \int dx_2 \cdots \int dx_N \rho(x_1) \rho(x_2) \cdots \rho(x_N) e^{ - ik\frac{x_1 + x_2 + \cdots + x_N}{\sqrt{N}} }. \end{align} 根据前面对特征函数的定义可知, \begin{equation} \pi(z) = \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{ikz+ik\sqrt{N}\langle x \rangle} \left[ \chi \left( \frac{k}{\sqrt{N}} \right) \right]^N. \end{equation} 再根据前面关于特征函数展开的近似公式可得 \begin{equation} \chi \left[ \left( \frac{k}{\sqrt{N}} \right) \right] ^N = \left[ e^{-i \frac{k}{\sqrt{N}} \langle x \rangle - \frac{1}{2} \left(\frac{k}{\sqrt{N}}\right)^2 (\Delta x)^2 } \right]^N = e^{-i k \sqrt{N} \langle x \rangle - \frac{1}{2} k^2 (\Delta x)^2 }. \end{equation} 于是, \begin{equation} \pi(z) = \int_{-\infty}^{+\infty} \frac{dk}{2\pi} e^{ikz - \frac{1}{2} k^2 (\Delta x)^2}. \end{equation} 根据本讲开头的公式可得 \begin{equation} \pi(z) = \frac{1}{\sqrt{2\pi} \Delta x} e^{-\frac{z^2}{2 (\Delta x)^2} }. \end{equation} 再换回随机变量$y$就得到了我们想要推导的最终结果: \begin{equation} \sigma(y) = \frac{\pi(z)dz}{dy} = \frac{1}{\sqrt{2\pi N} \Delta x} e^{-\frac{(y-N\langle x \rangle) ^2}{2 N(\Delta x)^2} }. \end{equation} 这个概率密度叫做Gauss分布(Gaussian distribution)。所以中心极限定理可以表述为:无论$N$个相互独立且具有相同的概率密度的随机变量的概率密度是何种形式的函数,当$N\rightarrow \infty$时,这些随机变量的和构成的随机函数都满足Gauss分布。

练习8。证明$\sigma(y)$是归一化的,即: \begin{equation} \int_{-\infty}^{+\infty} dy \sigma(y) = 1. \end{equation}

练习9。证明 \begin{equation} \langle y \rangle = N \langle x \rangle. \end{equation}

练习10。证明 \begin{equation} \Delta y = \sqrt{N} \Delta x. \end{equation}

于是,可以将概率密度$\sigma(y)$写成: \begin{equation} \sigma(y) = \frac{1}{\sqrt{2\pi} \Delta y} e^{-\frac{(y-\langle y \rangle) ^2}{2 (\Delta y)^2} }. \end{equation}

从上述练习的结果来看,随机函数$y$的标准差随着$N$的增大而增大。这似乎是说,一个量的不确定度随着$N$的增大而增大。然而,描述一个像$y$那样的量的不确定度的最佳量不是标准差,而是相对偏差(relative deviation),它定义为如下表达式(好像没有一个专门的符号来表示相对偏差): \begin{equation} \frac{\Delta y}{\langle y \rangle } = \frac{1}{\sqrt{N}} \frac{\Delta x} { \langle x \rangle }. \end{equation} 可见,$y$的相对偏差随着$N$的增大而减小。当$N$很大,例如$N=10^{20}$时,而且假设$x$的相对偏差等于1,$y$的相对偏差都仅有$10^{-10}$。这就是统计力学能够精确地预言宏观物理量的数学根源。当我们测量一个粒子数约为$N=10^{20}$的宏观体系的某个热力学量时,实验的相对误差(假设在$10^{-5}$的数量级)将远远大于理论的相对偏差,故根本感觉不到统计涨落。当然,在小尺度体系,例如纳米尺度体系,涨落可能是很明显而且很重要的。