专栏文章汇总 文章结构如下: 1: 原始问题 2: 对偶问题 3: 原始问题和对偶问题的关系 4: 参考文献 在约束最优化问题中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转为对偶问题,通过解决对偶问题而得到原始问题的解。 对偶问题有非常良好的性质,以下列举几个:
1: 原始问题假设 f \left( x \right), c_{i} \left( x \right), h_{j} \left( x \right) 是定义在 R^{n} 上的连续可微函数。 \begin{align*} \\& \min_{x \in R^{n}} \quad f \left( x \right) \\ & s.t. \quad c_{i} \left( x \right) \leq 0, \quad i = 1,2, \cdots, k \\ & \quad \quad h_{j} \left( x \right) = 0, \quad j=1,2, \cdots, l\end{align*} \\ 为原始最优化问题或原始问题。 首先引入拉格朗日函数(generalized Lagrange function) \begin{align*} \\& L \left( x, \alpha, \beta \right) = f \left( x \right) + \sum_{i=1}^{k} \alpha_{i} c_{i} \left( x \right) + \sum_{j=1}^{l} \beta_{j} h_{j}\left( x \right) \end{align*} \\ 构建关于 x 的函数 \begin{align*} \\& \theta_{P} \left( x \right) = \max_{\alpha, \beta; \alpha_{i} \geq 0} L \left( x, \alpha, \beta \right) \end{align*} \\ \begin{align*} \\& \theta_{P} \left( x \right) = \max_{\alpha, \beta; \alpha_{i} \geq 0} \left[ f \left( x \right) + \sum_{i=1}^{k} \alpha_{i} c_{i} \left( x \right) + \sum_{j=1}^{l} \beta_{j} h_{j}\left( x \right)\right] = +\infty \end{align*}\\ 假设给定某个符合原始问题约束条件的 x ,即 c_{i} \left( x \right) \leq 0 且 h_{j} \left( x \right) = 0 , \begin{align*} \\& \theta_{P} \left( x \right) =\max_{\alpha, \beta; \alpha_{i} \geq 0} \left[ f \left( x \right) + \sum_{i=1}^{k} \alpha_{i} c_{i} \left( x \right) + \sum_{j=1}^{l} \beta_{j} h_{j}\left( x \right)\right]= f \left( x \right) \end{align*} \\ \begin{align*} \theta_{P} \left( x \right) = \left\{ \begin{aligned} \ & f \left( x \right), x满足原始问题约束 \\ & +\infty, 否则 \end{aligned} \right.\end{align*} \\ \begin{align*} \\& \min_{x} \theta_{P} \left( x \right) = \min_{x} \max_{\alpha, \beta; \alpha_{i} \geq 0} L \left( x, \alpha, \beta \right)\end{align*} \\ \begin{align*} \\& \min_{x} \max_{\alpha, \beta; \alpha_{i} \geq 0} L \left( x, \alpha, \beta \right)\end{align*}\\ 称为广义拉格朗日函数的极小极大问题。 定义原始问题的最优值 \begin{align*} \\& p^{*} = \min_{x} \theta_{P} \left( x \right) \end{align*} \\ 2: 对偶问题构建关于 \alpha, \beta 的函数 \begin{align*} \\& \theta_{D} \left( \alpha, \beta \right) = \min_{x} L \left( x, \alpha, \beta \right)\end{align*} \\ \begin{align*} \\& \max_{\alpha,\beta;\alpha_{i} \geq 0} \theta_{D} \left( \alpha, \beta \right) = \max_{\alpha,\beta;\alpha_{i} \geq 0} \min_{x} L \left( x, \alpha, \beta \right) \end{align*} \\ 将广义拉格朗日函数的极大极小问题表示为约束最优化问题 \begin{align*} \\& \max_{\alpha,\beta;\alpha_{i} \geq 0} \theta_{D} \left( \alpha, \beta \right) = \max_{\alpha,\beta;\alpha_{i} \geq 0} \min_{x} L \left( x, \alpha, \beta \right) \\ & \quad s.t. \quad \alpha_{i} \geq 0, \quad i =1,2, \cdots, k \end{align*} \\ 定义对偶问题的最优值 \begin{align*} \\& d^{*} = \max_{\alpha, \beta;\alpha_{i} \geq 0} \theta_{D} \left( \alpha, \beta \right) \end{align*} \\ 3: 原始问题和对偶问题的关系若原始问题与对偶问题都有最优解,则 \begin{align*} \\& d^{*} = \max_{\alpha,\beta;\alpha_{i} \geq 0} \min_{x} L \left( x, \alpha, \beta \right) \leq \min_{x} \max_{\alpha, \beta; \alpha_{i} \geq 0} L \left( x, \alpha, \beta \right) = p^{*}\end{align*}\\ 与弱对偶性相对应的有一个强对偶性(strong duality) ,强对偶即满足: d^{*}=p^{*}\\ Slater条件:对于原始问题及其对偶问题,假设函数 f \left( x \right) 和 c_{i} \left( x \right) 是凸函数, h_{j} \left( x \right) 是仿射函数,且不等式约束 c_{i} \left( x \right) 是严格可行的,即存在 x ,对所有 i 有 c_{i} \left( x \right) < 0 ,则存在 x^{*}, \alpha^{*}, \beta^{*} ,使 x^{*} 是原始问题的解, \alpha^{*}, \beta^{*} 是对偶问题的解,并且 \begin{align*} \\& p^{*}=d^{*} = L \left( x^{*}, \alpha^{*}, \beta^{*} \right) \end{align*}\\ KKT条件:对于原始问题及其对偶问题,假设函数 f \left( x \right) 和 c_{i} \left( x \right) 是凸函数, h_{j} \left( x \right) 是仿射函数,且不等式约束 c_{i} \left( x \right) 是严格可行的,即存在 x ,对所有 i 有 c_{i} \left( x \right) < 0 ,则存在 x^{*}, \alpha^{*}, \beta^{*} ,使 x^{*} 是原始问题的解, \alpha^{*}, \beta^{*} 是对偶问题的解的充分必要条件是 x^{*}, \alpha^{*}, \beta^{*} 满足下面的Karush-Kuhn-Tucker(KKT)条件: \begin{align*} \\& \nabla _{x} L \left( x^{*}, \alpha^{*}, \beta^{*} \right) = 0 \\ & \alpha_{i}^{*} c_{i} \left( x^{*} \right) = 0,\quad i= 1, 2, \cdots, k \\ & c_{i} \left( x^{*} \right) \leq 0, \quad i=1,2, \cdots, k \\ & \alpha_{i}^{*} \geq 0, \quad i=1,2, \cdots, k \\ & h_{j} \left( x^{*} \right) = 0, \quad j=1,2, \cdots, l\end{align*}\\ KKT详见:Karush-Kuhn-Tucker (KKT)条件 小结:本文介绍了对偶的基本概念,对于一个约束优化问题,找到其对偶问题,当弱对偶成立时,可以得到原始问题的一个下界。而如果强对偶成立,则可以直接求解对偶问题来解决原始问题。 SVM 就是这样的。对偶问题由于性质良好一般比原始问题更容易求解,在 SVM 中通过引入对偶问题可以将问题表示成数据的内积形式从而使得 kernel trick 的应用更加自然)。 4: 参考文献李航. 统计学习方法[M]. 北京:清华大学出版社,2012 支持向量机:Duality " Free Mind |