본문 바로가기
Mathematics/선형대수

(선형대수학) 5.7 Gâteaux Derivative, Fréchet Derivative, Euler-Lagrange Equation

by 피그티 2018. 8. 13.

이번 포스팅에서는 Hilbert space에 정의되는 미분을 간략히 소개할 것이다. 이하에서 정의되는 미분은 norm이 정의된 Banach space에서 정의되지만, Hilbert space는 Banach space의 일종이므로 여기에서 등장하는 norm은 inner product로부터 유도된 norm으로 해석하면 된다.

 

 

Gâteaux Derivative

 

미적분학에서 다변수 함수 \(f:\mathbb{R}^n \to \mathbb{R}^m\)

$$ f(\mathbf{x})=f(x_1,x_2,\cdots,x_n) = (y_1,y_2,\cdots,y_m) $$

에 대하여, 방향 \(\mathbf{v}=(v_1,v_2,\cdots,v_n)\)으로의 \(f\)의 directional derivative \(\nabla _\mathbf{v} f(\mathbf{x})\)는

$$ \nabla _\mathbf{v} f(\mathbf{x}) = \lim _{h\to 0} \frac{ f(\mathbf{x}+h\mathbf{v})-f(\mathbf{x})}{h} $$

로 정의된다.

 

Directional derivative를 Banach space로 일반화한 개념을 Gâteaux Derivative라고 한다.

 

DEFINITION            Gâteaux Derivative

 

Banach space \(X\), \(Y\)에 대하여, \(X\)로부터 \(Y\)로의 함수 \(F:X \to Y\)를 가정하자. \(X\)의 점 \(u\), \(\psi\)에 대하여,

$$ \lim _{\tau \to 0} \frac{F(u+\tau \psi)-F(u)}{\tau} $$

가 존재하는 경우, 이를 \(u\)에서 \(\psi\)방향으로의 Gâteaux differential이라고 부르고, \(dF(u;\psi)\)로 표현한다.

 

만약 모든 \(\psi \in X\)에 대하여 limit가 존재하는 경우, \(u\)에서 Gâteaux differentiable하다고 부른다.

 

만약 \(X\)가 Euclidean space \(\mathbb{R}^n\), \(Y\)가 \(\mathbb{R}^m\)이면 Gâteaux Derivative는 directional derivative가 된다.

 

미적분학에서 directional derivative는 linearlity를 만족한다.

$$ \nabla_\mathbf{v} (c \cdot f+g) = c \cdot \nabla_\mathbf{v} f + \nabla_\mathbf{v} g $$

그러나 무한차원에서 정의되는 Gâteaux Derivative는 directional derivative와는 달리, 위와 같은 linearlity를 반드시 만족하는 것은 아니다.

 

미적분학에서 자주 사용되는 chain rule은 Gâteaux derivative에서도 사용할 수 있다. Gâteaux differentiable한 함수 \(F:X \to Y\), \(G:Y \to Z\)에 대하여

$$ d(G\circ F)(u;x) = dG(F(u);dF(u;x)) $$

를 만족한다.

 

 

Fréchet Derivative

 

Gâteaux derivative를 directional derivative가 일반화된 개념이라고 한다면, 다변수함수의 differential(또는 gradient)가 일반화된 개념은 Fréchet derrivative이다.

 

DEFINITION            Fréchet Derivative

 

Banach space \(V\)와 \(W\)에 대하여, 함수 \(f:V \to W\)가 \(V\)의 vector \(x\)에 대하여

$$ \lim _{h\to 0} \frac{ \left\| f(x+h) - f(x) - Ah \right\| }{ \left| h \right| } =0 $$

를 만족하는 bounded linear operator \(A:V\to W\)가 존재하는 경우 \(f\)를 \(x\)에서 Fréchet differentiable이라고 부르고 bounded linear operator \(A\)를 \(x\)에서 \(f\)의 Fréchet derivative라고 부르고 \(Df(x)\)라고 표현한다.

 

만약 \(X\)가 Euclidean space \(\mathbb{R}^n\), \(Y\)가 \(\mathbb{R}^m\)이면 Fréchet derivative는 differential(또는 gradient)이 되고, 행렬 표현은 Jacobian matrix가 된다.

 

Fréchet derivative는 gradient와 마찬가지로 linearlity를 만족한다.

$$ D(r\cdot f+s \cdot g)(x) = r\cdot Df(x) + s \cdot Dg(x) $$

또한 Fréchet differentiable한 함수 \(f:V \to W\), \(g:W \to U\)에 대하여 chain rule을 만족한다.

$$ D(g \circ f)(x) = Dg(f(x)) \circ Df(x) $$

 

함수 \(f\)가 Fréchet differentiable하면, 모든 방향으로 Gâteaux differentiable이다. 그러나 모든 방향으로 Gâteaux differentiable하다고 해서 반드시 Fréchet differentiable인 것은 아니다. (미적분학에서 함수가 모든 방향으로 directional derivative한다고 해서, 즉 Jacobian matrix가 존재한다고 해서 반드시 differentiable한 것은 아닌 것과 비슷하다.)

 

 

Example: Euler-Lagrange Equation

 

Lagrangian mechanics의 핵심이 되는 calculus of variation의 functional derivative는 Fréchet derivative로 정의된다. 다만, Fréchet differentiable이면 Gâteaux differentiable이므로, 본 포스팅에서는 이해하기 좀 더 간단한 Gâteaux derivative로 설명한다.

 

 

1차원 선상을 움직이는 입자의 움직임을 표현하기 위해서는 시간에 대한 위치 함수 \(x(t)\)를 알아내야 한다. Newton의 제 2법칙에 의하면, 입자에 작용하는 힘 \(F\)는 입자의 가속도 \(a\)(위치 함수의 시간에 대한 2차 미분)에 비례한다. 즉, 비례상수를 입자의 질량 m이라고 하면,

$$ F=ma = m \frac{d^2 x}{dt^2} $$

의 2차 미분방정식으로 표현되고, 이 2차 미분방정식을 풀어서 \(x(t)\)를 구할 수 있다.

 

 

\(x(t)\)를 구하는 다른 방식으로는 the principle of least action을 이용하는 방법이 있다. 물리시스템과 입자의 위치 함수 \(x(t)\)가 주어지면 \(x(t)\)와 \(\dot{x}(t)\)에 의해 Lagrangian \(L(t)\)가 계산되는데, the principle of least action에 의하면, 값

$$ S = \int _{t_0} ^{t_1} L(t) ~dt $$

가 최소가 값이 되는 \(x(t)\)를 선택해서 입자가 움직인다. 값 \(S\)를 action이라고 부르기 때문에 이 법칙을 the principle of least action이라고 한다.

 

이 때 Lagangian \(L(t)\)가 \(x(t)\)과 \(\dot{x}(t)\)에 explicit하게 dependent하기 때문에, action \(S\)도 \(x(t)\)에 dependent 한다. 이러한 dependent를 표시하기 위해 \(L(x,\dot{x})\), \(S[x]\)로 표현하기로 하자. 여기에서는 계산상의 편의를 위하여 추가로 운동의 시작점과 끝점을 알고 있다고 가정한다. (\(x(t_0)=a\), \(x(t_1)=b\)는 고정된 숫자)

 

Action \(S[x]\)는 변수로 함수 \(x\)를 받아서 실수값으로 보내주는 함수이다. 상식적으로 입자의 움직임은 시간에 대하여 연속적이므로, 함수 \(x\)는 countinous라고 가정할 수 있다. 따라서

$$ S:C^0 \to \mathbb{R} $$

이다.

 

이제 \(S\)가 최소가 되는 \(x \in C^0\)를 찾기 위하여, 임의의 \(x\)에서 임의의 방향 \(\psi\)으로의 Gâteaux derivative

$$ \begin{eqnarray} dS(x;\psi) & = & \lim _{\tau \to 0} \frac{S[x+\tau \psi]-S[x]}{\tau} = \lim _{\tau \to 0} \left( \frac{1}{\tau} \int _{t_0} ^{t_1} L(x+\tau \psi,\dot{x}+\tau \dot{\psi}) - L(x,\dot{x}) ~dt \right) \\ \\ & = & \lim _{\tau \to 0} \left( \frac{1}{\tau} \int _{t_0} ^{t_1} \tau\psi \frac{\partial L}{\partial x} + \tau \dot{\psi} \frac{\partial L}{\partial \dot{x}}+ \tau^2 \psi^2 \frac{\partial^2 L}{\partial x^2} + \tau^2 \dot{\psi}^2 \frac{\partial^2 L}{\partial \dot{x}^2} + \tau^2 \psi \dot{\psi} \frac{\partial^2 L}{\partial x \partial \dot{x}} + \cdots ~dt \right) \\ \\ & = & \int _{t_0} ^{t_1} \psi \frac{\partial L}{\partial x} + \dot{\psi} \frac{\partial L}{\partial \dot{x}} ~dt \end{eqnarray} $$

두번째 항을 integration by parts를 이용해,

$$ dS(x;\psi) = \int _{t_0} ^{t_1} \psi \left( \frac{\partial L}{\partial x} - \frac{d}{dt}\frac{\partial L}{\partial \dot{x}} \right)~dt + \left[ \psi \frac{\partial L}{\partial \dot{x}} \right] _{t_0} ^{t_1} $$

우리는 \(C^0\)에서도 \(x(t_0) = a\), \(x(t_1)=b\) 를 만족하는 subspace에서 다루고 있으므로 \(\psi(t_0) = \psi(t_1)=0\) 이다. 따라서 \(x\)에서 임의의 방향 \(\psi\)으로의 \(S\)의 Gâteaux derivative 

$$ dS(x;\psi) = \int _{t_0} ^{t_1} \psi \left( \frac{\partial L}{\partial x} - \frac{d}{dt}\frac{\partial L}{\partial \dot{x}} \right)~dt $$

를 얻는다. 최소값을 찾기위해, 모든 \(\psi\)에 대하여 \(dS(x;\psi)=0\) 이면, \(x(t)\)는

$$ \frac{\partial L}{\partial x} - \frac{d}{dt}\frac{\partial L}{\partial \dot{x}} = 0 $$

을 만족해야 한다. 이 식을 Euler-Lagrange equation이라고 한다. Lagrangian과 Euler-Lagrange equation을 이용해 물체의 운동을 기술하는 것은 --classical, lagrangian--에서 자세히 다룬다.