ラグランジュの未定乗数法の解説と直感的な証明

ある関数 f(x,y)f(x,y) を束縛条件 g(x,y)=0g(x,y)=0 の元で最大化あるいは最小化する (x,y)(x,y) を求める際に用いられるのがラグランジュの未定乗数法(Lagrange Multipliers)です。 ラグランジュの未定乗数法の式

L(x,y)=f(x,y)λg(x,y)L(x,y)=f(x,y)-\lambda g(x,y) Lx=Ly=Lλ=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

は一見複雑な見た目をしており特に L(x,y)L(x,y) が何を意味しているのかが分かりにくいと思います。 この文書ではラグランジュの未定乗数法の式が何を意味していて、なぜこれによって束縛条件 g(x,y)=0g(x,y)=0 の元での f(x,y)f(x,y) の最大値(あるいは最小値)を求めることができるのかを直感的に分かりやすいように説明します。

ただし微分、ベクトルに関して高校レベルの数学を理解している必要があります。

ラグランジュの未定乗数法

2次元の場合

(x,y)(x,y) が束縛条件 g(x,y)=0g(x,y)=0をみたす条件下で、ある関数 f(x,y)f(x, y) を最大化(最小化)することを考える。 変数λ\lambdaを導入して関数L(x,y,λ)L(x,y,\lambda)を次のように定義する。

L(x,y,λ)=f(x,y)λg(x,y)L(x,y,\lambda)=f(x,y)-{\lambda}g(x,y)

λ\lambdaのことをラグランジュ乗数(Lagrange multiplier)、L(x,y,λ)L(x,y,\lambda)をラグランジュ関数(Lagrange function)と呼ぶ。 ある (x0,y0)(x_0, y_0) が束縛条件 g(x,y)=0g(x,y)=0 を満たし f(x,y)f(x, y) を最大化または最小化するならば、あるλ0\lambda_0が存在し、 (x0,y0,λ0)(x_0,y_0,\lambda_0)において

Lx=Ly=Lλ=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

が成立する。

nn次元の場合

nn個の変数x1,x2,,xnx_1,x_2,\ldots,x_n が 束縛条件 g(x1,x2,,xn)=0g(x_1,x_2,\ldots,x_n)=0 をみたしている場合に、 関数f(x1,x2,,xn)f(x_1,x_2,\ldots,x_n)を最大化する(x1,x2,,xn)(x_1,x_2,\ldots,x_n)を求めたい。

L(x0,x1,,xn,λ)=f(x1,x2,,xn)λg(x1,x2,,xn)L(x_0,x_1,\ldots,x_n,\lambda)=f(x_1,x_2,\ldots,x_n)-\lambda g(x_1,x_2,\ldots,x_n)

で定義されるLL対して、ffが束縛条件g=0g=0の元で最大化される時

Lx0=Lx1==Lxn=Lλ=0\frac{\partial L}{\partial x_0}=\frac{\partial L}{\partial x_1}=\ldots=\frac{\partial L}{\partial x_n}=\frac{\partial L}{\partial \lambda}=0

が成立する。

式の意味の解説と直感的な証明

2次元の場合で考えましょう。ラグランジュの未定乗数法で使われる等式を確認のためにもう一度書いておきます。

Lx=Ly=Lλ=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

(1) Lλ=0\frac{\partial L}{\partial \lambda}=0の意味

まず初めにLλ=0\frac{\partial L}{\partial \lambda}=0の部分ですが、これは単にg(x,y)=0g(x,y)=0を難しく書きなおしたものに過ぎません。

Lλ=(f(x,y)λg(x,y))λ=f(x,y)λ(λg(x,y))λ=g(x,y)=0\frac{\partial L}{\partial \lambda}=\frac{\partial({f(x,y)-{\lambda}g(x,y)})}{\partial \lambda}=\frac{\partial{f(x,y)}}{\partial \lambda}-\frac{\partial(\lambda g(x,y))}{\partial \lambda}=-g(x,y)=0

Lλ=0\frac{\partial L}{\partial \lambda}=0は束縛条件g(x,y)=0g(x,y)=0を別の方法で表現したものに過ぎないので、(x,y)(x,y)を解析的に求める上では特に役にはたちません。

(2) Lx=Ly=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0の意味

ラグランジュ未定乗数法において本当に意味のある部分は

Lx=Ly=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0

です。この部分はλ\lambdaの場合と異なりxx, yy をまとめて解釈すると分かりやすいです。 LLを展開して、変形すると

f(x,y)xλg(x,y)x=0\frac{\partial f(x,y)}{\partial x}-\lambda \frac{\partial g(x,y)}{\partial x}=0 f(x,y)yλg(x,y)y=0\frac{\partial f(x,y)}{\partial y}-\lambda \frac{\partial g(x,y)}{\partial y}=0

λ-\lambdaの項をそれぞれ右辺に持っていけば、

f(x,y)x=λg(x,y)x\frac{\partial f(x,y)}{\partial x}=\lambda \frac{\partial g(x,y)}{\partial x} f(x,y)y=λg(x,y)y\frac{\partial f(x,y)}{\partial y}=\lambda \frac{\partial g(x,y)}{\partial y}

f(x,y)f(x,y)ffとして省略して書きつつ、ベクトルで2つの式をまとめると

(fxfy)=λ(gxgy)\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) =\lambda \left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right)

これはどういう意味でしょうか? 2つのベクトルa\vec{a}, b\vec{b}がある実数kkに対して a=kb\vec{a}=k\vec{b}が成り立っているというのは、2つのベクトルa\vec{a}, b\vec{b}が平行であることを意味します。 つまりラグランジュ未定乗数法の

Lx=Ly=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0

はベクトル (fxfy)\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) とベクトル (gxgy)\left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right) は平行であるということを意味しているのです。

つまりラグランジュ未定乗数法はf(x,y)f(x,y)を最大化する点(x,y)(x,y)において、 f(x,y)f(x,y), g(x,y)g(x,y)を偏微分して得られるベクトル (fxfy)\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right), (gxgy)\left( \begin{array}{c} \frac{\partial g}{\partial x} \\ \frac{\partial g}{\partial y} \end{array} \right) は平行になるといういうことを難解に表現したものに過ぎません。後は偏微分で得られるベクトル (fxfy)\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) が何を意味しているかを理解すればラグランジュの未定乗数法が何を意味していて何故それを使ってf(x,y)f(x,y)を最大化する(x,y)(x, y)を求めることができるのかが理解できます。

勾配 (gradient),法線ベクトル

(fxfy)\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) のことを専門用語で勾配 (Gradient)と呼び、 f\nabla fと表記します。 つまりラグランジュの未定乗数法は、f(x,y)f(x,y)を最大化する点においてf(x,y)f(x,y), g(x,y)g(x,y)のそれぞれの勾配f\nabla f, g\nabla gが平行になるということを意味しています。 では勾配f\nabla f, g\nabla gはどのようなベクトルなのでしょうか。

ある一定値 cc に対して f(x,y)=cf(x,y)=c をみたす(x,y)(x,y)について考えます。 この(x,y)(x,y)(x,y)(x,y) 平面上の曲線となり、ff を山の高さだと思うと関数 f(x,y)f(x,y) の等高線に相当するものになります。

曲線f(x,y)=cf(x,y)=c上のある点(x,y)(x,y)から、(x,y)(x,y)を微小に(Δx,Δy)(\Delta x,\Delta y)だけ変化させたることを考えます。 (x,y)(x,y)を微小に変化させた場合のffの変化は偏微分に比例するので

f(x+Δx,y+Δy)f(x,y)+fxΔx+fyΔy=c+fxΔx+fyΔyf(x+\Delta x,y+\Delta y)\simeq f(x,y)+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=c+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y

いま (Δx,Δy)(\Delta x,\Delta y) が曲線 f(x,y)=cf(x,y)=c の接線方向のベクトルだとすると、(Δx,Δy)(\Delta x,\Delta y)だけ移動した点 (x+Δx,y+Δy)(x+\Delta x,y+\Delta y)も曲線上の点になるのでf(x+Δx,y+Δy)=cf(x+\Delta x,y+\Delta y)=c。そのため

f(x+Δx,y+Δy)=c+fxΔx+fyΔy=cf(x+\Delta x,y+\Delta y)=c+\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=c

となります。両辺からccを引いて

fxΔx+fyΔy=0\frac{\partial f}{\partial x}\Delta x+\frac{\partial f}{\partial y}\Delta y=0

ベクトルの内積で表現すると

(fxfy)(ΔxΔy)=f(ΔxΔy)=0\left( \begin{array}{c} \frac{\partial f}{\partial x} \\ \frac{\partial f}{\partial y} \end{array} \right) \cdot \left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right) = \nabla f \cdot \left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right)=0

(ゼロではない) 2つのベクトルの内積が0になるのは、2つのベクトルが直交する時です。 そして(ΔxΔy)\left( \begin{array}{c} \Delta x \\ \Delta y \end{array} \right) は曲線 f(x,y)=cf(x,y)=c の接線方向の微小なベクトルです。その接線方向のベクトルと直交する勾配f\nabla fは、すなわち、 f(x,y)=cf(x,y)=c法線ベクトルに他なりません。

そしてラグランジュ未定乗数法のLx=Ly=0f=λg\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0\Leftrightarrow\exists\nabla f=\lambda \nabla gff の等高線 f(x,y)=cf(x,y)=c と束縛条件の曲線 g(x,y)=0g(x,y)=0 のそれぞれの法線ベクトルが平行であることを意味しています。 つまりは2つの曲線が接しているということです。

なぜ f(x,y)=cf(x,y)=c, g(x,y)=0g(x,y)=0 が接する必要があるか

以上より、ラグランジュの未定乗数法が述べていることは言い換えれば、束縛条件 g(x,y)g(x,y) の元で f(x,y)f(x,y) が最大値(あるいは最小値)となる点(x,y)(x,y)において曲線 g(x,y)=0g(x,y)=0f(x,y)=cf(x,y)=cccは点(x,y)(x,y)におけるf(x,y)f(x,y)の値)が接するということです。

これは逆に考えて(対偶を考えて)、g(x,y)=0g(x,y)=0f(x,y)=cf(x,y)=c が点(x,y)(x,y)において交差しているならばその点で f(x,y)f(x,y) は最大・最小にはならないと考えれば、直感的に理解できます。

f(x,y)=cf(x,y)=cで分割された2つの領域の片側はf(x,y)>cf(x,y)>cとなるエリア、もう片側は f(x,y)<cf(x,y)<c となるエリアです。 上の図のようにもし点(x,y)(x,y)g(x,y)=0g(x,y)=0f(x,y)=cf(x,y)=c が交差しているのならば、g(x,y)=0g(x,y)=0の曲線上に f(x,y)>cf(x,y) > c となる点と f(x,y)<cf(x,y) < c となる点が必ず存在することになります。つまり束縛条件 g(x,y)=0g(x,y)=0 をみたしつつ、 f(x,y)f(x,y)cc よりも大きくする点と小さくする点が存在するわけですから、その点においては f(x,y)f(x,y) は最大・最小いずれにもなることはありません。

解説・証明まとめ

ラグランジュ未定乗数法の式

Lx=Ly=Lλ=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=\frac{\partial L}{\partial \lambda}=0

Lλ=0\frac{\partial L}{\partial \lambda}=0の部分は単に束縛条件g(x,y)=0g(x,y)=0を言い換えたものです。 Lx=Ly=0\frac{\partial L}{\partial x}=\frac{\partial L}{\partial y}=0の部分はff, ggの勾配(gradient)f\nabla f, g\nabla gが平行であることと意味しています。 勾配f\nabla ff(x,y)f(x,y)の等高線の法線ベクトルであるので、f\nabla f, g\nabla gが平行であるというのは要するにf(x,y)f(x,y)の等高線とg(x,y)g(x,y)の等高線が接していることと同義です。

最終更新: 1/7/2019