Hesse-mátrix

[ 2 f x 1 2 2 f x 1 x 2 2 f x 1 x n 2 f x 2 x 1 2 f x 2 2 2 f x 2 x n 2 f x n x 1 2 f x n x 2 2 f x n 2 ] {\displaystyle {\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\\\\vdots &\vdots &\ddots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}}}

Egy n-változós függvény Hesse-mátrixa

A matematikában, közelebbről a matematikai analízisben Hesse-féle mátrixnak (ejtsd: hessze) egy többváltozós valós függvény másodrendű parciális deriváltjaiból alkotott négyzetes mátrixát nevezzük.

Legyen

f ( x 1 , x 2 , , x n ) , {\displaystyle f(x_{1},x_{2},\dots ,x_{n}),\,\!}

n-változós valós függvény. Ha mindegyik másodrendű parciális deriváltja létezik az f értelmezés tartományának egy x belső pontjában, akkor a Hesse-mátrix mátrixelemei a

[ H f ( x ) ] i j = i j 2 f ( x ) {\displaystyle [\mathbf {H} ^{f}(x)]_{ij}=\partial _{ij}^{2}f(x)\,\!}

számok, ahol x = (x1, x2, …, xn), i, j tetszőleges számok 1-től n-ig, ∂2ij pedig a másodrendű parciális deriválás jele.[1]

A Hesse-féle mátrix determinánsa a Hesse-determináns. A Hesse-determináns elnevezést először James Joseph Sylvester használta, Ludwig Otto Hesse tiszteletére, aki először vezette be és „függvénydeterminánsnak” nevezte.[2]

Hesse-mátrix szimmetrikussága

A Hesse-mátrix főátlóján kívüli elemei a vegyes másodrendű parciális deriváltak. Young tétele értelmében ha az f függvény az u pont egy környezetében mindenütt kétszer parciálisan differenciálható és az u pontban a második deriváltak folytonosak, akkor a parciális deriválás nem függ a deriválás sorrendjétől, azaz a vegyes deriváltak egyenlők. Ez pontosan azt jelenti, hogy a Hesse-mátrix szimmetrikus. Például kétváltozós f függvénynél (u-ban f kétszer folytonosan differenciálható)

[ H f ( u ) ] 21 = 2 f ( u ) y x = 2 f ( u ) x y = [ H f ( u ) ] 12 {\displaystyle [\mathbf {H} ^{f}(u)]_{21}={\frac {\partial ^{2}f(u)}{\partial y\partial x}}={\frac {\partial ^{2}f(u)}{\partial x\partial y}}=[\mathbf {H} ^{f}(u)]_{12}} .

A Hesse-mátrix mint a deriválttenzor mátrixa

Ha az f függvény az U halmazon értelmezett n-változós valós függvény és az U halmazon létezik az f gradiense, és a grad(f) : U {\displaystyle \to } Rn leképezés totálisan differenciálható az uU pontban, akkor a gradiensfüggvény differenciáljának mátrixa a sztenderd bázisra vonatkozólag éppen a Hesse-mátrix:

[ d ( g r a d f ) ( u ) ] = H f ( u ) {\displaystyle [\mathrm {d\,(grad\,} f)(u)]=\mathbf {H} ^{f}(u)\,}

A d (grad f)(u) tenzor tekinthető úgy, mint az f másodrendű differenciálja az u-ban és teljesül rá, hogy minden xU-ra :

f ( x ) = f ( u ) + g r a d f ( u ) ( x u ) + 1 2 ( x u ) H f ( u ) ( x u ) + ε ( x ) | | x u | | 2 {\displaystyle f(x)=f(u)+\mathrm {grad} \,f(u)\cdot (x-u)+{\frac {1}{2}}(x-u)\mathrm {H} ^{f}(u)(x-u)+\varepsilon (x)||x-u||^{2}}

ahol ε folytonos u-ban és ott eltűnik.

Stacionárius pont és szélsőérték létezése

Ha a többváltozós valós f kétszer folytonosan differenciálható, és g r a d f ( u ) = 0 {\displaystyle \mathrm {grad} \,f(u)=0} , akkor értelmezési tartományának u pontját stacionárius pontnak nevezzük. Ha a Hesse-determináns u-ban nulla, akkor ez degenerált kritikus pont.

A Hesse-mátrix segítségével megfogalmazható a többváltozós valós értékű függvények másodikderivált-próbája. Tegyük fel, hogy az u pontban az f-nek stacionárius pontja és legyen

Q u f ( v ) = v H f ( u ) v {\displaystyle Q_{u}^{f}(\mathbf {v} )=\mathbf {v} \mathrm {H} ^{f}(u)\mathbf {v} \,}

a Hf(u)-hoz asszociált kvadratikus leképezés.

Ha a Qfu(v) kifejezés pozitív minden nemnulla v vektorra, azaz ha Qfu pozitív definit, akkor f-nek u-ban lokális minimuma van. Ez a tulajdonság Sylvester tétele alapján azt jelenti, hogy Hf(u) mátrixának bal felső kvadratikus aldeterminánsai csupa pozitív értékeket felvevő sorozatot alkotnak:

11 f ( u ) > 0 , det 1 = i , j 2 [ i j f ( u ) ] > 0 , det H f ( u ) > 0 {\displaystyle \partial _{11}f(u)>0,\quad {\underset {\scriptstyle {1=i,j\leq 2}}{\det }}[\partial _{ij}f(u)]>0,\quad \dots \quad \det \,\mathrm {H} ^{f}(u)>0}

Ha a Qfu(v) kifejezés negatív minden nemnulla v vektorra, azaz ha Qfu negatív definit, akkor f-nek u-ban lokális maximuma van. Ekkor az aldeterminánsok előjelváltóak:

11 f ( u ) < 0 , det 1 = i , j 2 [ i j f ( u ) ] > 0 , det 1 = i , j 3 [ i j f ( u ) ] < 0 , det H f ( u ) < > 0 {\displaystyle \partial _{11}f(u)<0,\quad {\underset {\scriptstyle {1=i,j\leq 2}}{\det }}[\partial _{ij}f(u)]>0,\quad {\underset {\scriptstyle {1=i,j\leq 3}}{\det }}[\partial _{ij}f(u)]<0,\quad \dots \quad \det \,\mathrm {H} ^{f}(u){\underset {>}{<}}0}

Indefinit esetben vagyis amikor Q felvesz pozitív és negatív értékeket is, a próba állítása szerint biztosan nincs szélsőérték. Szemidefinit esetben, amikor van olyan nemnulla v, amire Qfu(v)=0, a próba nem jár sikerrel.[3]

Kétváltozós függvény szélsőértékei

Speciálisan kétváltozós függvények esetén a próba konkrétan a következők ellenőrzését jelenti:

  1. ha det Hf(u) > 0 és ∂11f(u) > 0, akkor u-ban lokális minimum van,
  2. ha det Hf(u) > 0 és ∂11f(u) < 0, akkor u-ban lokális maximum van,
  3. ha det Hf(u) < 0, akkor u-ban nincs lokális szélsőérték (valamilyen típusú nyeregpontról beszélünk)
  4. ha det Hf(u) = 0, akkor a próba nem járt sikerrel.[4]

Megjegyzés. Ha a Hesse-mátrix elemei

H f ( u ) = ( A B B C ) {\displaystyle \mathrm {H} ^{f}(u)={\begin{pmatrix}A&B\\B&C\end{pmatrix}}}

akkor a Hesse-determinánsa D = AC – B2 és így olyan eset nincs, hogy ∂11f(u) = 0 lenne, miközben D > 0.

Példák

Az f(x,y) = x2 + xy + y2 leképezés szélsőértékének keresése esetén célravezető a Hesse-féle determináns vizsgálata.

Definit eset

Legyen

f ( x , y ) = x 2 + x y + y 2 {\displaystyle f(x,y)=x^{2}+xy+y^{2}\,}

Ekkor grad f = ( 2x + y , 2y + x ), vagyis az elsőderivált próba szerint a

2x + y = 0
2y + x = 0

egyenletrendszer megoldásai közül kerülhetnek ki a szélsőértékek. A megoldás: (x, y) = (0, 0).

A második parciális deriváltakat kiszámítva, a Hesse-mátrix minden pontban

H f ( x , y ) = ( 2 1 1 2 ) {\displaystyle \mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&1\\1&2\end{pmatrix}}}

azaz det Hf = 4 - 1 = 3 > 0 és ∂11f = 2 > 0 miatt (0, 0) szélsőértékhely és minimumpont.

Indefinit eset

Az f(x,y) = x2 + xy - y2 leképezés szélsőértékének keresése esetén célravezet a Hesse-féle determináns vizsgálata.

Legyen

f ( x , y ) = x 2 + x y y 2 {\displaystyle f(x,y)=x^{2}+xy-y^{2}\,}

Ekkor grad f = ( 2x + y , -2y + x ), melynek zérushelye a (0, 0) pont.

A Hesse-mátrix minden pontban

H f ( x , y ) = ( 2 1 1 2 ) {\displaystyle \mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&1\\1&-2\end{pmatrix}}}

innen det Hf = -4 – 1 = -5 < 0, így a próba megint sikeres, éspedig állíthatjuk, hogy (0, 0) biztosan nem szélsőértékhely. Ebben a pontban a függvények úgynevezett nemdegenerált nyeregpontja van. Egy stacionárius pont nem degenerált, ha abban a pontban a Hesse-féle determináns nem nulla értékű.

Szemidefinit eset

Az f(x,y) = x2 + 2xy + y2 leképezés esetén a Hesse-féle determináns vizsgálata nem vezet célra

Legyen

f ( x , y ) = x 2 + 2 x y + y 2 {\displaystyle f(x,y)=x^{2}+2xy+y^{2}\,}

Ekkor grad f = ( 2x + 2y , 2y + 2x ), így a gradiens zérushelye minden olyan (x, y) pont, amire x = - y. Ezekben a pontokban a Hesse-mátrix:

H f ( x , y ) = ( 2 2 2 2 ) {\displaystyle \mathrm {H} ^{f}(x,y)={\begin{pmatrix}2&2\\2&2\end{pmatrix}}}

azaz det Hf = 4 – 4 = 0, azaz a próba nem járt sikerrel. De tudjuk, hogy

f ( x , y ) = x 2 + 2 x y + y 2 = ( x + y ) 2 {\displaystyle f(x,y)=x^{2}+2xy+y^{2}=(x+y)^{2}\,}

ami pontosan akkor minimális, ha x + y = 0, és ezeken a helyeken valóban szélsőértéke van, mert itt a függvény a lehető legkisebb, azaz 0 értéket veszi föl.

Implicit módon megadott görbe szinguláris pontjai

Azt mondjuk, hogy az

F ( x , y ) = 0 {\displaystyle F(x,y)=0\,}

egyenlettel megadott görbének szinguláris pontja az ( x 0 {\displaystyle x_{0}} , y 0 {\displaystyle y_{0}} ) pont, ha ebben a pontban az F függvénynek nincs intervallumon értelmezett differenciálható implicit függvénye egyik változóra vonatkozólag sem (azaz egyik változó sem fejezhető ki lokálisan a másikkal). Szinguláris pont szükséges feltétele az

F ( x 0 , y 0 ) = 0 , 1 F ( x 0 , y 0 ) = 0 , 2 F ( x 0 , y 0 ) = 0 {\displaystyle F(x_{0},y_{0})=0,\qquad \partial _{1}F(x_{0},y_{0})=0,\qquad \partial _{2}F(x_{0},y_{0})=0\qquad }

egyenletek egyidejű fennállása.

Ha F kétszer folytonosan differenciálható függvény és az origóra a fenti egyenlőségek teljesülnek, akkor az F függvény (0, 0)-beli Hesse-determinánsa vizsgálatával a görbe néhány jellegzetes vonására következtethetünk.[5] Az F-et másodrenden közelítő kvadratikus leképezés számára a D = AC - B2 Hesse-determináns ellentettje egyfajta diszkriminánsként működik. Három eset lehet. D < 0 esetén a kvadratikus leképezéshez nincs olyan irány, amely mentén az mindenhol nulla lenne. D = 0 esetén egy ilyen irány van, D > 0 esetén két különböző ilyen irány van.

  1. Ha det HF(0, 0) > 0, akkor (0, 0) izolált pontja a görbének (pl.: (x2 + y2)(1 – y) = 0 az origóban). Ez azzal indokolható, hogy ekkor az F leképezésnek (0, 0)-ban szigorú lokális szélsőértéke van, így annak egy környezetében az F függvény az (0, 0)-t kivéve sehol sem nulla. Így az (0, 0)-beli implicit függvény egyedül az egyelemű {x0} halmazon értelmezett y (x0) = y0 függvény.
  2. Ha det HF(0, 0) < 0, akkor (0, 0)-ban a görbe átmetsző (pl.: az x3 + y3 – 3xy = 0 Descartes-féle levélnél). Hiszen ekkor a (0, 0) pont nyeregpont, így a felület biztosan legalább két különböző irányban átmetszi az [xy] síkot.
  3. Ha det HF(0, 0) = 0, akkor a görbe számos módon viselkedhet; az egyik például, hogy saját magával érintkezik első rendben, azaz két ágának ugyanaz az érintőegyenese (pl.: x2y4 = 0). De átmetsző is lehet, például az x2y2 = 0 egyenletnél.

A feltételes szélsőérték-probléma Hesse-mátrixa

Ha az

f ( x 1 , x 2 , , x n ) , {\displaystyle f(x_{1},x_{2},\dots ,x_{n}),}

függvény

g ( x 1 , x 2 , , x n ) = c , {\displaystyle g(x_{1},x_{2},\dots ,x_{n})=c,}

korlátozásnak alávetett megszorításának szélsőértékeit keressük, akkor ezt az

f + λ ( g c ) {\displaystyle f+\lambda (g-c)\,}

függvény szabad szélsőértékeinél kell keresnünk. Ha elégségességi vizsgálatokat is szándékozunk végezni, akkor felírhatjuk az f + λg feladat Hesse-mátrixát, a λ új változóval kiegészítve:

H f + λ g ( x 1 , x 2 , , x n , λ ) = [ 2 f x 1 2 2 f x 1 x 2 2 f x 1 x n g x 1 2 f x 2 x 1 2 f x 2 2 2 f x 2 x n g x 2 2 f x n x 1 2 f x n x 2 2 f x n 2 g x n g x 1 g x 2 g x n 0 ] {\displaystyle H^{f+\lambda g}(x_{1},x_{2},\dots ,x_{n},\lambda )={\begin{bmatrix}{\frac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}&{\frac {\partial g}{\partial x_{1}}}\\\\{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}&{\frac {\partial g}{\partial x_{2}}}\\\\\vdots &\vdots &\ddots &\vdots &\vdots \\\\{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{n}^{2}}}&{\frac {\partial g}{\partial x_{n}}}\\\\{\frac {\partial g}{\partial x_{1}}}&{\frac {\partial g}{\partial x_{2}}}&\cdots &{\frac {\partial g}{\partial x_{n}}}&0\end{bmatrix}}}

Világos, hogy ez a mátrix soha sem lesz definit, mert a (0, 0, …, 1) nemnulla vektoron a z {\displaystyle \mapsto } z'Hz leképezés a 0-t veszi föl. Ám ha már az n × n-es bal felső blokk definit, akkor már kijelenthetjük, hogy szigorú, lokális szélsőértékről beszélhetünk (pozitív definit esetben minimumról, negatív esetben maximumról).

Ez amiatt van, hogy a z'Hz kvadratikus leképezést a feltételi egyenletnek megfelelő alakban kell felírni, azaz ha ( z 1 {\displaystyle z_{1}} , z 2 {\displaystyle z_{2}} , …, z n {\displaystyle z_{n}} ) tetszőleges vektorok, akkor a

z H f z {\displaystyle z'H^{f}z\,}

kvadratikus alakot a feltételi egyenlet differenciálásával adódó

g x 1 z 1 + g x 2 z 2 + + g x n z n = 0 {\displaystyle {\frac {\partial g}{\partial x_{1}}}z_{1}+{\frac {\partial g}{\partial x_{2}}}z_{2}+\dots +{\frac {\partial g}{\partial x_{n}}}z_{n}=0}

egyenletben szereplő valamely alkalmas változót kell kifejezni a többi függvényében és az így adódó z'Hz kvadratikus leképezést kell tovább vizsgálni.

Jegyzetek

  1. Serge Lang, Undergraduate calculus p 486, Springer 2nd ed 1997
  2. Jeff Miller & all Earliest Known Uses of Some of the Words of Mathematics
  3. Kristóf János, Az analízis elemei. II. ELTE jegyzet. 175. o. pdf Archiválva 2004. október 13-i dátummal a Wayback Machine-ben
  4. Balázs Márton – Kolumbán József,Matematikai analízis[halott link] 205. o., Ed. Dacia, Cluj-Napoca 1979.
  5. A. F. Bermant, Matematikai analízis II.[halott link], Tankönyvkiadó, Bp. 1951., 93. o.

Külső hivatkozások

  • Hessian matrix a PlanetMath lapon Archiválva 2010. március 30-i dátummal a Wayback Machine-ben
  • matematika Matematikaportál • összefoglaló, színes tartalomajánló lap