Skip to main content

Nutné a postačující podmínky optimality

\xdef\scal#1#2{\langle #1, #2 \rangle} \xdef\norm#1{\left\lVert #1 \right\rVert} \xdef\dist{\rho} \xdef\and{\&}\xdef\brackets#1{\left\{ #1 \right\}} \xdef\parc#1#2{\frac {\partial #1}{\partial #2}} \xdef\mtr#1{\begin{pmatrix}#1\end{pmatrix}} \xdef\bm#1{\boldsymbol{#1}} \xdef\mcal#1{\mathcal{#1}} \xdef\vv#1{\mathbf{#1}}\xdef\vvp#1{\pmb{#1}} \xdef\ve{\varepsilon} \xdef\l{\lambda} \xdef\th{\vartheta} \xdef\a{\alpha} \xdef\Tagged#1{(\text{#1})} \xdef\tagged*#1{\text{#1}} \xdef\tagEqHere#1#2{\href{#2\#eq-#1}{(\text{#1})}} \xdef\tagDeHere#1#2{\href{#2\#de-#1}{\text{#1}}} \xdef\tagEq#1{\href{\#eq-#1}{(\text{#1})}} \xdef\tagDe#1{\href{\#de-#1}{\text{#1}}} \xdef\T#1{\htmlId{eq-#1}{#1}} \xdef\D#1{\htmlId{de-#1}{\vv{#1}}} \xdef\conv#1{\mathrm{conv}\, #1} \xdef\cone#1{\mathrm{cone}\, #1} \xdef\aff#1{\mathrm{aff}\, #1} \xdef\lin#1{\mathrm{Lin}\, #1} \xdef\span#1{\mathrm{span}\, #1} \xdef\O{\mathcal O} \xdef\ri#1{\mathrm{ri}\, #1} \xdef\rd#1{\mathrm{r}\partial\, #1} \xdef\interior#1{\mathrm{int}\, #1} \xdef\proj{\Pi} \xdef\epi#1{\mathrm{epi}\, #1} \xdef\grad#1{\mathrm{grad}\, #1} \xdef\gradT#1{\mathrm{grad}^T #1} \xdef\gradx#1{\mathrm{grad}_x #1} \xdef\hess#1{\nabla^2\, #1} \xdef\hessx#1{\nabla^2_x #1} \xdef\subdif#1{\partial #1} \xdef\co#1{\mathrm{co}\, #1} \xdef\iter#1{^{[#1]}} \xdef\str{^*} \xdef\spv{\mcal V} \xdef\civ{\mcal U}

Obecný úvod

Úlohou matematického programování nazveme f(x)min,xX(4.1) f(x) \to \min, \quad x \in X \tag{\T{4.1}} kde přípustná množina XX je zadána systém rovností a nerovností X:={xPRngi(x)0,  gj(x)=0,  i=1,,k,  j=k+1,,m}(4.2) X := \set{x \in P \subseteq \R^n \mid g_i(x) \leq 0, \; g_j(x) = 0, \; i = 1, \dots, k, \; j = k+1, \dots, m} \tag{\T{4.2}}

Zde je důležité podotknout, že vždy chceme nerovnostní omezení pouze tvaru gi(x)0\bm{g_i(x) \leq 0}

Je dobré si zapatovat, že

  • mm - počet omezení
  • kk - počet nerovností (tzn. g1,,gkg_1, \dots, g_k jsou nerovnosti, zbytek rovnosti)

Omezení zakomponovaná v PP se nazývají přímá, naopak omezení ve formě glg_l se nazývají funkcionální. Dále definujme

  • množinu přípustných vektorů
    V(x,X):={hLinXα0>0:x+thX pro t(0,α0)}\spv(x^* , X) := \set{h \in \lin X \mid \exists \, \a_0 > 0 : x^* + th \in X \text{ pro } \forall t \in (0, \a_0)}
    • je to kužel
  • množinu spádových vektorů (kužel zlepšujících vektorů)
    U(x,f):={hLinXα0>0:x+thD(f)  &  f(x+th)<f(x) pro t(0,α0)}\civ(x^* , f) := \set{h \in \lin X \mid \exists \, \a_0 > 0 : x^* + th \in D(f) \; \and \; f(x^* + th) < f(x^* ) \text{ pro } \forall t \in (0, \a_0)}
Lemma 4.1.1\D{4.1.1}

Nechť XRX \subseteq \R a f:XRf: X \to \R jsou dány. Je-li bod xXx^* \in X lokálním řešením úlohy (4.1)\tagEq{4.1}, potom V(x,X)U(x,f)= \spv (x^* , X) \cap \civ (x^* , f) = \emptyset

Definice 4.1.2\D{4.1.2} (Stacionární bod)

Nechť množina XRnX \subseteq \R^n je konvexní a funkce f:XRf: X \to \R je diferencovatelná na (nějaké otevřené množině obsahující) XX. Řekneme, že bod xXx^* \in X je stacionárním bodem úlohy (4.1)\tagEq{4.1} (nebo také stacionárním bodem funkce ff na množině XX), jestliže gradf(x),xx0,(4.1.2) \scal {\grad f(x^* )} {x - x^* } \geq 0 \tag{\T{4.1.2}}, pro každé xXx \in X.

Výraz v (4.1.2)\tagEq{4.1.2} je směrová derivace xx^* do libovolného bodu v XX - v těchto směrech musí být ff rostoucí

Pro X=RnX = \R^n je podmínka (4.1.2)\tagEq{4.1.2} splněna pouze v případě gradf(x)=0\grad f(x^* ) = 0

Dále ukažme, že stacionární bod ve smyslu Definice 4.1.2\tagDe{4.1.2} má vlastnosti, které od něj očekáváme.

Věta 4.1.3\D{4.1.3} (Vlastnosti stacionárniho bodu)

Nechť f:XRf: X \to \R je diferencovatelná na (nějaké otevřené množině obsahující konvexní množinu) XRnX \subseteq \R^n.

  1. Je-li xXx^* \in X lokálním extrémem funkce ff na XX (tj. lokálním řešením úlohy (4.1)\tagEq{4.1}), pak xx^* je stacionárním bodem funkce ff na XX
  2. Naopak, je-li ff (ostře) konvexní na XX a xXx^* \in X je stacionárním bodem ff na XX, pak xx^* je (jediným) řešením úlohy (4.1)\tagEq{4.1}, tj. (jediným) globálním minimem ff na XX.

Pokud avšak ff není konvexní, potřebujeme o rozhodnutí "extrémnosti" stacionárního bodu další nástroje

Nutná podmínka pro (4.1)\tagEq{4.1}

Je-li xXx^* \in X lokálním minimem funkce f:XR,  fC2f: X \to \R, \; f \in C^2, na konvexní množině XRnX \subseteq \R^n, pak (xx)T2f(x)(xx)0 (x - x^* )^T \hess f(x^* )(x - x^* ) \geq 0 pro všechna xXx \in X taková, že gradTf(x)(xx)=0\gradT f(x^* )(x - x^* ) = 0, tj. pro vektory (xx)kergradTf(x)(x - x^* )\in \ker\gradT f(x^* )

Postačující podmínka pro (4.1)\tagEq{4.1}

Bod xx^* je lokálním minimem funkce f:XR,fC2f: X \to \R, f \in C^2, na konvexní množině XRnX \subseteq \R^n, jestliže gradTf(x)(xx)0,  xX, \gradT f(x^*) (x - x^*) \geq 0, \; \forall x \in X, (tj. je to stacionární bod ve smyslu Definice 4.1.2\tagDe{4.1.2}), množina XX je polyedr a platí (xx)T2f(x)(xx)>0 (x - x^*)^T \hess f(x^*) (x - x^*) > 0 pro všechna xXx \in X taková, že xxx \neq x^* a (xx)kergradTf(x)(x - x^* ) \in \ker \gradT f(x^* )

Je-li XX polyedr, pak je V(x,X)\spv (x^* , X) uzavřená

Nutné a postačující podmínky optimality

Uvažujme přidruženou Lagrangeovu funkci L:P×R×RmRL: P \times \R \times \R^m \to \R k úloze (4.1)  &  (4.2)\tagEq{4.1} \; \and \; \tagEq{4.2} definovanou jako L(x,y0,y):=y0f(x)+i=1myigi(x),,(4.1.2) L(x, y_0, y) := y_0 f(x) + \sum_{i = 1}^m y_i g_i(x), \tag{\T{4.1.2}}, přičemž v případě y0=1y_0 = 1 bude L(x,1,y):=L(x,y)L(x, 1, y) := L(x,y). Navíc čísla y0,,ymy_0, \dots, y_m nazyváme Lagrangeovými multiplikátory.

Omezení nazveme aktivní, pokud se realizuje jako rovnost

Dále ještě zaveďme následující Q:={y=(y1,,ym)Ty1,,yk0} Q := \set{y = (y_1, \dots, y_m)^T \mid y_1, \dots, y_k \geq 0} a dvě další množiny:

  • Množinu aktivních omezení v bodě xx \str
    I(x):={i{1,,k}gi(x)=0},xXI(x \str) := \set{i \in \set{1, \dots, k} \mid g_i(x \str) = 0}, \quad x \str \in X
  • Množinu indexů všech funkcí, které se v bodě xx\str realizují jako rovnost S(x):=I(x){k+1,,m},xXS(x \str) := I(x\str) \cup \set{k+1, \dots, m}, \quad x \str \in X
Věta 4.2.1\D{4.2.1} (Lagrangeův princip)

Nechť množina PRnP \subseteq \R^n je konvexní, funkce f,g1,,gk:PRf, g_1, \dots, g_k : P \to \R jsou diferencovatelné v bodě xXx^* \in X a gk+1,,gmg_{k+1}, \dots, g_m jsou spojitě diferencovatelné na nějakém okolí bodu xx^* . Je-li bod xXx^* \in X lokálním řešením úlohy (4.1)  &  (4.2)\tagEq{4.1} \; \and \; \tagEq{4.2}, pak existují Lagrangeovy multiplikátory y0>0y_0\str > 0 a yQy\str \in Q takové, že ne všechna y0,,ymy_0 \str, \dots, y_m \str jsou nulová a platí gradxL(x,y0,y),xx0xP(4.2.3) \scal {\gradx L(x\str, y_0\str, y\str)} {x - x\str} \geq 0 \quad \forall x \in P \tag{\T{4.2.3}} yigi(x)=0,i=1,,m(4.2.4) y_i\str g_i(x\str) = 0, \quad i = 1, \dots, m \tag{\T{4.2.4}}


Podmínka (4.2.3)\tagEq{4.2.3} znamená, že xx\str musí být stacionárním bodem funkce L(x,y0,y)L(x, y_0\str, y\str) (podmínka stacionarity). Dále podmínka (4.2.4)\tagEq{4.2.4} se nazývá podmínka komplementarity a požadavek y1,,yk>0y_1\str, \dots, y_k\str > 0 jako podmínka duality.

Jistě y0,y1,,yk0y_0 \str, y_1 \str, \dots, y_k \str \geq 0, yk+1,,ymR    y0>0y_{k+1} \str, \dots, y_m \str \in \R \iff y_0\str > 0 a yQy\str \in Q

Jelikož situace s y0=0y_0\str = 0 je problematická, existují podmínky na zaručení y00y_0\str \neq 0, což je ekvivalentní s y0=1y_0\str = 1. Tyto podmínky se nazývají podmínky kvalifikovaného omezení:

  • Regulárnost bodu xx\str, tj, bod xx\str je regulární, pokud jsou gradgi(x)\grad g_i(x\str) pro iS(x)i \in S(x\str) lineárně nezávislé (tj. gradienty aktivních omezení jsou LNZ)
  • afinní omezení - funkce g1,,gmg_1, \dots, g_m jsou afinní
  • Slaterova podmínka - g1,,gkg_1, \dots, g_k jsou konvexní, gk+1,,gmg_{k+1}, \dots, g_m jsou afinní, pokračuje,konstantní ale vizvektory $\tagDe{4.2.3}grad g_i$ jsou lineárně nezávislé pro $i \in \set{k+1, \dots, m}aexistuje a existuje \bar x \in Ptakoveˊ,zˇe takové, že g_i(\bar x) < 0pro pro i \in \set{1, \dots, k}a a g_j(\bar x) = 0pro pro j \in \set{k+1, \dots, m}$
Důsledek 4.2.2\D{4.2.2}

Nechť PRnP \subseteq \R^n je konvexní množina, funkce f,g1,,gmf, g_1, \dots, g_m jsou diferencovatelné na (nějaké otevřené množině obsahující) PP a pro xXx\str \in X existují multiplikátory yQy\str \in Q takové, že platí (4.2.3)\tagEq{4.2.3} & (4.2.4)\tagEq{4.2.4} s y0=1y_0\str = 1. Nechť je dále splněn (alespoň) jeden z následujících předpokladů:

  1. funkce L(x,y)L(x, y\str) je konvexní na množině PP
  2. úloha (4.1)\tagEq{4.1} & (4.2)\tagEq{4.2} je úlohou konvexního programování, tj. na konvexní množině PP jsou funkce f,g1,,gkf, g_1, \dots, g_k konvexní a gk+1,,gmg_{k+1}, \dots, g_m afinní

Pak bod xx\str je globálním řešením úlohy (4.1)\tagEq{4.1} & (4.2)\tagEq{4.2}.

Teoreticky stačí pouze kvazikonvexní g1,,gkg_1, \dots, g_k

Věta 4.2.3\D{4.2.3} (Karushova-Kuhnova-Tuckerova v diferenciálním tvaru)

Nechť PRnP \subseteq \R^n je konvexní množina, funkce f,g1,,gkf, g_1, \dots, g_k konvexní a diferencovatelné na (nějaké otevřené množině obsahující) PP, funkce gk+1,,gmg_{k+1}, \dots, g_m afinní na PP a nechť platí (alespoň) jedna z následujících podmínek:

  1. (LNZ) množina PP je otevřená, vektory gradgi(x),iS(x)\grad g_i(x), i \in S(x) jsou lineárně nezávislé pro každé xXx \in X.
  2. (Slaterova) funkcionální omezení jsou pouze tvaru nerovností, tj. k=mk = m, a existuje bod xˉP\bar x \in P takový, že gi(xˉ)<0g_i(\bar x) < 0 pro i{1,,k}i \in \set{1, \dots, k}
  3. (lineární) množina PP je polyedr a funkce g1,,gkg_1, \dots, g_k jsou afinní

Pak xx\str je řešením úlohy (4.1)\tagEq{4.1} & (4.2)\tagEq{4.2} právě tehdy, když existuje yQy\str \in Q takové, že platí (4.2.3)\tagEq{4.2.3} & (4.2.4)\tagEq{4.2.4} s y0=1y_0\str = 1.

Věta 4.2.4\D{4.2.4}

Nechť funkce f,g1,,gmf, g_1, \dots, g_m jsou dvakrát spojitě diferencovatelné v bodě xx\str a xintPx\str \in \interior P je takový, že existují multiplikátory yQy\str \in Q splňující (4.2.3)\tagEq{4.2.3} & (4.2.4)\tagEq{4.2.4} s y0=1y_0\str = 1 a současně yi>0y_i\str > 0 pro iI(x)i \in I(x\str) (tzv. podmínka ostré komplementarity), tj. gradxL(x,y)=0, \gradx L(x\str, y\str) = 0, gi(x)0 pro i{1,,k},gi(x)=0 pro i{k+1,,m}, g_i(x\str) \leq 0 \text{ pro } i \in \set{1, \dots, k}, \qquad g_i(x\str) = 0 \text{ pro } i \in \set{k+1, \dots, m}, yi>0 pro iI(x),yi=0 pro i{1,,k}I(x), y_i\str > 0 \text{ pro } i \in I(x\str), \qquad y_i\str = 0 \text{ pro } i \in \set{1, \dots, k} \setminus I(x\str), yiR pro i{k+1,,m} y_i\str \in \R \text{ pro } i \in \set{k+1, \dots, m} Jestliže x2L(x,y)>0 na ker(gradTgi(x))iS(x), \hessx L(x\str, y\str) > 0 \text{ na } \ker (\gradT g_i(x\str))_{i \in S(x\str)}, tj. hTx2L(x,y)h>0h^T \hessx L(x\str, y\str) h > 0 pro všechna hRn{0}h \in \R^n \setminus \brackets{0} taková, že gradgi(x),h=0\scal {\grad g_i(x\str)} h = 0 pro iS(x)i \in S(x\str), pak bod xx\str je ostré lokální minimum funkce ff na množině XX.