10. 연쇄법칙(Chain Rule)

연쇄법칙

소개

우리는 8장에서 기본적인 미분 공식(사칙연산과 미분, \(x^n\)의 도함수)에 대해서 살펴보았고, 9장에서 삼각함수와 지수, 로그함수의 미분에 대해서 알아보았다. 그렇다면 이들을 이용해서 아래 함수들을 미분할 수 있을까?

$$ f(x)=\sqrt{x^2+1} \qquad g(x)=\cos(x^2) \qquad h(x)=\ln(\sin x) $$

위 함수들의 공통점은 두 함수의 합성함수 꼴로 이루어져 있다는 것이다. \(f(x)\)는 \(x^2+1\)과 \(\sqrt{x}\)의 합성이고, \(g(x)\)는 \(x^2\)과 \(\cos x\)의 합성, 그리고 \(h(x)\)는 \(\sin x\)와 \(\ln x\)를 합성한 것이다. 이러한 함수들은 일반적으로 8장과 9장에서 다루었던 기본적인 미분 공식들로는 도함수를 구하지 못한다.

이 글에서 소개할 연쇄법칙(chain rule)은 일반적인 합성함수의 미분법을 다룬다. 따라서 연쇄법칙을 사용한다면 위 \(f(x), g(x), h(x)\)와 같은 합성함수들을 미분할 수 있다.

진술

연쇄법칙은 아래와 같이 진술된다.

두 함수 \(y=f(u)\), \(u=g(x)\)에 대해, \(g\)가 \(x\)에서 미분가능하고 \(f\)가 \(g(x)\)에서 미분가능할 때 합성함수

$$ y=F(x):=(f\circ g)(x)=f(g(x)) $$

는 \(x\)에서 미분가능하고, \(F\)의 도함수는

$$ F'(x)=(f\circ g)'(x)=f'(g(x))g'(x) $$

즉 합성함수를 미분하기 위해서는, 제일 바깥쪽에 있는 함수를 통째로 미분한 것을 안쪽에 있는 함수를 미분한 것과 곱해주면 된다는 이야기이다. 이를 분수 표기법으로 아래와 같이 쓰기도 한다.

$$ \frac{dy}{dx}=\frac{dy}{du}\cdot\frac{du}{dx} $$

위 진술에서 \(F(x):=(f\circ g)(x)\)는 \(F(x)\)를 \((f\circ g)(x)\)로 정의하겠다는 뜻이다.

예제

예제 1

위에서 나왔던 함수 \(f(x)=\sqrt{x^2+1}\)의 도함수를 구해보자. 우선 \(f\)는 다음과 같이 두 개의 함수가 합성되어 있는 꼴이다.

$$ f(x)=(f_1\circ f_2)(x); \qquad f_1(x)=\sqrt{x}, \quad f_2(x)=x^2+1 $$

우리는 \(f(x)\)의 도함수가 \(f_1′(f_2(x))\cdot f_2′(x)\)인 걸 알기 때문에 \(f_1′(f_2(x))\)와 \(f_2′(x)\)만 구해 주면 된다. 우선 8장에서 다루었던 \(x^n\)의 미분 공식에 의해

$$ f_1′(x)=\frac{d}{dx}\sqrt{x}=\frac{d}{dx}x^{1/2}=\frac{1}{2}x^{-1/2}=\frac{1}{2\sqrt{x}} $$

이고, 여기에 \(x\) 대신 \(x^2+1\)을 대입해주면

$$ f_1′(f_2(x))=f_1′(x^2+1)=\frac{1}{2\sqrt{x^2+1}} $$

이 된다. 또한 \(f_2′(x)=2x\)이므로

$$ f'(x)=f_1′(f_2(x))\cdot f_2′(x)=\frac{1}{2\sqrt{x^2+1}}\cdot2x=\frac{x}{\sqrt{x^2+1}} $$

이다.

연쇄법칙을 이용하여 함수 \(f(x)=1/2\sqrt{x^2+1}\)을 미분하는 과정. 우선 루트 안에 있는 걸 살린 채로 루트 통째로 미분한 후, 거기에 루트 안에 있는 걸 미분해주면 된다.

위 그림은 연쇄법칙이 작동하는 매커니즘을 나타낸 것이다. \(f_1′(f_2(x))\)는 \(f_1\) 안에 있는 \(f_2\)는 그대로 살린 채로 \(f_1\)을 통째로 미분하는 것과 같고, \(f_2′(x)\)는 \(f_2\)를 미분한 것이므로 이 둘을 곱해 주면 합성함수의 도함수가 나온다. 이 경우에는 가장 바깥에 있는 함수 \(f_1\)이 루트\((\sqrt{\cdot})\)이므로 루트 안에 있는 건 살린 채로 투르 통째로 미분해준 후, 루트 안에 있는 것의 도함수를 곱해주면 된다.

예제 2

이번에는 \(g(x)=\cos(x^2)\)의 도함수를 구해 보자. \(g(x)\)는 아래와 같이 두 함수를 합성한 것이다.

$$ g(x)=(g_1\circ g_2)(x)\; \qquad g_1(x)=\cos x, \quad g_2(x)=x^2 $$

가장 바깥쪽에 있는 함수\((g_1)\)가 \(\cos\)이고 안쪽에 있는 함수가 \(x^2\)이므로, 우선 \(x^2\)은 그대로 살린 채 \(\cos\)를 통째로 미분하자.

$$ g_1′(g_2(x))=-\sin(x^2) $$

여기에 안쪽에 있는 \(x^2\)을 미분한 \(2x\)를 곱해주면 된다.

$$ g'(x)=(g_1\circ g_2)'(x)=g_1′(g_2(x))\cdot g_2′(x)=-\sin(x^2)\cdot2x=-2x\sin(x^2) $$

예제 3

\(h(x)=\ln(\sin x)\)를 미분해 보자. 가장 바깥쪽에 있는 함수는 \(\ln\)이고, 그 안에는 \(\sin\)이 들어 있다. \(\ln x\)의 도함수는 \(1/x\)이고 \(\sin x\)의 도함수는 \(\cos x\)이므로 똑같은 방법으로 해 주면

$$ h'(x)=\frac{1}{\sin x}\cdot\cos x=\cot x $$

가 된다.

연쇄법칙의 확장

이번에는 아래 함수

$$ i(x)=\sqrt{\ln(x^2+x)} $$

를 미분해 보자. 이 함수가 지금까지 봤던 것과 다른 점은, 아래와 같이 함수 3개를 합성한 함수라는 것이다.

$$ i(x)=(i_1\circ i_2\circ i_3)(x);\qquad i_1(x)=\sqrt{x}, \quad i_2(x)=\ln x, \quad i_3(x)=x^2+x $$

이렇게 3개의 함수가 합성된 함수는 어떻게 미분할 수 있을까? 우선 \(i_{23}(x)=(i_2\circ i_3)(x)=\ln(x^2+x)\)라고 하면 다음을 얻는다.

$$ i(x)=(i_1\circ i_2\circ i_3)(x)=(i_1\circ(i_2\circ i_3))(x)=(i_1\circ i_{23})(x) $$

이 상태에서 연쇄법칙에 의해

$$ i'(x)=i_1′(i_{23}(x))\cdot i_{23}'(x) $$

가 되고, 여기에서 \(i_{23}'(x)\)에 연쇄법칙을 한 번 더 써주면

$$ i'(x)=i_1′(i_{23}(x))\cdot i_2′(i_3(x))\cdot i_3′(x)=i_1′(i_2(i_3(x)))\cdot i_2′(i_3(x))\cdot i_3′(x) $$

가 된다. 즉

  1. 가장 바깥쪽에 있는 함수를 (그 안에 있는 걸 모두 그대로 살려둔 채로) 미분하고,
  2. 가운데에 있는 함수를 (그 안에 있는 걸 살려둔 채로) 미분하고,
  3. 가장 안쪽에 있는 함수를 미분한 것

들을 모두 곱하면 된다. 따라서 다음을 얻는다.

$$ \begin{align}i'(x)&=i_1′(i_2(i_3(x)))\cdot i_2′(i_3(x))\cdot i_3′(x)\\&=\frac{1}{2\sqrt{\ln(x^2+x)}}\cdot\frac{1}{x^2+x}\cdot(2x+1)\\&=\frac{2x+1}{2(x^2+x)\sqrt{\ln(x^2+x)}}\end{align} $$

\(y=i(x)\)를 미분하는 과정에서 연쇄법칙이 작동하는 매커니즘. \(i(x)\)는 3개의 함수가 합성된 함수이므로 가장 바깥쪽에 있는 함수부터 차근차근 미분해주면 된다.

일반적으로 세 함수

$$ y=f(v), \qquad v=g(u), \qquad u=h(x) $$

가 합성된 함수

$$ y=F(x):=(f\circ g\circ h)(x)=f(g(h(x))) $$

의 도함수는 아래와 같이 구할 수 있다.

$$ y’=F'(x)=f'(g(h(x)))\cdot g'(h(x))\cdot h'(x) $$

분수 표기법으로는 아래와 같이 쓸 수 있다.

$$ \frac{dy}{dx}=\frac{dy}{dv}\cdot\frac{dv}{du}\cdot\frac{du}{dx} $$

연쇄법칙은 일반적으로 2, 3개뿐 아니라 자연수 \(n\)개가 합성된 함수에 대해서도 비슷하게 성립한다.

증명

잘못된 증명

고등학교 교육과정에서나 일부 책에서는 연쇄법칙을 아래와 같이 증명한다.

정리 진술에서처럼 \(y=f(u), u=g(x)\)로 쓰고 \(F=f\circ g\)라 하자. 그리고 \(x\) 값이 \(x\)에서 \(x+\Delta x\)(델타 \(x\)라고 읽는다)까지 변화할 때

  • \(u\)값의 증가량을 \(\Delta u=g(x+\Delta x)-g(x)\)라 하고,
  • \(y\)값의 증가량을 \(\Delta y=F(x+\Delta x)-F(x)\)라 하자.

그러면 미분계수의 정의에 의해

$$ \begin{align}\frac{dy}{dx}&=\lim_{\delta x\rightarrow0}\frac{F(x+\Delta x)-F(x)}{\Delta x}=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta x}\\\frac{dy}{du}&=\lim_{\Delta u\rightarrow0}\frac{f(u+\Delta u)-F(u)}{\Delta u}=\lim_{\Delta u\rightarrow0}\frac{\Delta y}{\Delta u}\\\frac{du}{dx}&=\lim_{\Delta x\rightarrow0}\frac{g(x+\Delta x)-g(x)}{\Delta x}=\lim_{\Delta x\rightarrow0}\frac{\Delta u}{\Delta x}\end{align} $$

가 된다. 한편 \(g\)는 미분가능이므로 연속이고, 따라서

$$ \lim_{\Delta x\rightarrow0}\Delta u=\lim_{\Delta x\rightarrow0}[g(x+\Delta x)-g(x)]=g(x)-g(x)=0 $$

즉 \(\Delta x\rightarrow0\)일 때 \(\Delta u\rightarrow0\)이다. 따라서

$$ \begin{align}\frac{dy}{dx}&=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta x}\\&=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta u}\cdot\frac{\Delta u}{\Delta x}\\&=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta u}\cdot\lim_{\Delta x\rightarrow0}\frac{\Delta u}{\Delta x}\\&=\lim_{\Delta u\rightarrow0}\frac{\Delta y}{\Delta u}\cdot\lim_{\Delta x\rightarrow0}\frac{\Delta u}{\Delta x}\\&=\frac{dy}{du}\cdot\frac{du}{dx}\end{align} $$

왜 틀렸는가?

이 증명은 그럴싸하지만 틀렸다. \(\Delta x\)가 0에 가까워지는 도중에 \(\Delta u\)가 완전히 0이 되어

$$\lim_{\Delta{x}\rightarrow0}\frac{\Delta{y}}{\Delta{u}}$$

가 존재하지 않는 상황이 있을 수 있기 때문이다. 예를 들어

$$f(u)=\sin{u},\qquad{g(x)}=\left\{\begin{array}{ll}(x-1)^2&(x\geq1)\\0&(x<1)\end{array}\right.$$

로 놓으면 \(g\)는 \(x=0\)에서 미분가능하며, \(f\)도 \(u=g(0)=0\)에서 미분가능하다. 즉 연쇄법칙의 전제가 모두 성립한다. 또한 \(g'(0)=0\)이므로

$$f'(g(0))\cdot{g}'(0)=0$$

이 된다.

\(y=(f\circ g)(x)\)의 그래프. \(x=0\)에서 접선의 기울기가 0으로 존재하므로 \(x=0\)에서 \((f\circ g)(x)\)는 미분가능하다.

한편, 위 \(y=(f\circ g)(x)\)의 그래프에서 \(x=0\)일 때 접선의 기울기가 0임을 알 수 있고, 이는 \(f\circ g\)가 0에서 미분가능하며

$$(f\circ g)'(0)=0$$

임을 보여 준다. 즉 이 경우에도 연쇄법칙이 실제로 성립한다는 사실을 알 수 있다.

하지만 \(|\Delta x|\leq1\)일 때

$$\Delta u=g(0+\Delta x)-g(0)=0$$

이므 식 \(\displaystyle\frac{\Delta y}{\Delta u}\)가 정의될 수 없다. 따라서 극한값

$$\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta u}$$

도 존재하지 않고, 위 증명 과정에서

$$\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta u}\cdot\frac{\Delta u}{\Delta x}=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta u}\cdot\lim_{\Delta x\rightarrow0}\frac{\Delta u}{\Delta x}$$

로 넘어가는 것이 불가능하다.

미분가능 \(\Longleftrightarrow\) 국소적 선형

연쇄법칙을 제대로 증명하기 위해서는 함수가 미분가능하다는 것에 대한 다른 표현을 알아야 한다. 우선 미분가능성의 정의를 살펴보자. 함수 \(f\)가 \(x\)에서 미분가능하다는 것은

$$ f'(x)=\lim_{\Delta x\rightarrow0}\frac{f(x+\Delta x)-f(x)}{\Delta x}\tag{1} $$

이 존재한다는 이야기이다. \(\Delta x\)에 관한 함수

$$ p=\frac{f(x+\Delta x)-f(x)}{\Delta x}-f'(x) $$

를 생각하자. \(p\)는 \(\Delta x=0\)을 제외(분모에 \(\Delta x\)가 있기 때문)한 0 근처에서 정의된 함수이지만, 연쇄법칙을 제대로 증명하기 위해서는 이 \(p\)를 \(\Delta x=0\)에 대해서도 정의해 주어야 한다. 식 (1)에 의해

$$ \lim_{\Delta x\rightarrow0}p=0 $$

이 되므로, \(p\)를 새롭게

$$ p=\left\{\begin{array}{ll} \frac{f(x+\Delta x)-f(x)}{\Delta x}-f'(x) & (\Delta x\neq0) \\ 0 & (\Delta x=0) \end{array}\right. $$

로 정의하면 0 근처의 모든 \(\Delta x\)에 대해

$$ f(x+\Delta x)-f(x)=f'(x)\Delta x+p\Delta x $$

를 만족하는 \(\Delta x\)에 대한 연속함수가 된다. 여기서 미분가능의 다른 정의가 등장한다.

다음 두 명제는 동치이다.

  1. 함수 \(f\)가 \(x\)에서 미분가능하다.
  2. 0 근처의 \(\Delta x\)에 대해 $$ f(x+\Delta x)-f(x)=f'(x)\Delta x+p\Delta x\tag{2}, \qquad\lim_{\Delta x\rightarrow0}p=0 $$을 만족하는 \(\Delta x\)의 연속함수 \(p\)가 존재한다.

이 정의를 조금 더 자세히 들여다보자. 우변에서 \(\Delta x\)가 0으로 갈 때 \(p\)도 0으로 가므로, 식 (2)의 우변은 \(\Delta x\)의 일차함수\((f'(x)\Delta x)\)와 (\(\Delta x\)가 0으로 갈 때 빠르게 0에 수렴하는) 오차항 \((p\Delta x)\)의 합으로 볼 수 있을 것이다.

\(\Delta x\)에 대한 \(f\)의 선형 근사식을 나타낸 그림. 오차항 \(p\Delta x\)는 \(\Delta x\)가 0으로 갈 때 빠르게 0으로 가므로, 식 (2)는 좋은 선형 근사식이 된다.

즉 위 그림과 같이 \(x, f(x)\)에서 접선(파란색)을 그으면 이는 \(\Delta x\)가 충분히 작을 때 원래 함수의 그래프(빨간색)를 잘 나타내 준다. 따라서

  • \(\Delta x\)에 대해 \(f(x)\)의 증가량 식 (2)는 함수 \(f\)에 대한 선형 근사(linear approximation)인 것이고,
  • 미분가능하다는 의미는 해당 점에서의 접선이 해당 곡선을 잘 나타내어 준다, 즉 (2)와 같은 선형 근사가 잘 먹힌다는 의미이다.

이런 의미에서 미분가능함(differentiable)을 국소적 선형(locally linear)이라고 하기도 한다.

올바른 증명

이제 제대로 된 증명을 해 보자. 맨 위에서 정리를 진술할 때 사용했던 기호들을 그대로 빌려 오면, \(g\)가 \(x\)에서, \(f\)가 \(g(x)\)에서 미분가능하므로

$$ \Delta u=g(x+\Delta x)-g(x)=g'(x)\Delta x+p\Delta x; \qquad \lim_{\Delta x\rightarrow0}p=0 \\ \Delta y=f(u+\Delta u)-f(u)=f'(u)\Delta u+q\Delta u; \qquad \lim_{\Delta u\rightarrow0}q=0 $$

을 만족하는 \(\Delta x\)의 연속함수 \(p\), \(\Delta u\)의 연속함수 \(q\)가 존재한다. 이들을 연립하여 \(\Delta y\)를 다음과 같이 \(\Delta x\)의 식으로 쓸 수 있다.

$$ \Delta y=[f'(u)+q]\Delta u=[f'(u)+q][g'(x)+p]\Delta x \\ \frac{\Delta y}{\Delta x}=[f'(u)+q][g'(x)+p] $$

\(u=g(x)\)는 연속이므로 \(\Delta x\rightarrow0\)일 때 \(\Delta u\rightarrow0\), 따라서 이때 \(p\)와 \(q\)도 모두 0으로 간다. 따라서

$$ \frac{dy}{dx}=\lim_{\Delta x\rightarrow0}\frac{\Delta y}{\Delta x}=\lim_{\Delta x\rightarrow0}[f'(u)+q][g'(x)+p]=f'(u)g'(x)=f'(g(x))g'(x) $$

이다.

Leave a Comment