正则化 (数学)

数学计算机科学中,尤其是在机器学习逆问题领域中,正则化(英语:regularization)是指为解决适定性问题过拟合而加入额外信息的过程。[1]

在机器学习和逆问题的优化过程中,正则项往往被加在目标函数当中。

概述编辑

概括来讲,机器学习的训练过程,就是要找到一个足够好的函数 用以在新的数据上进行推理[2]为了定义什么是「好」,人们引入了损失函数的概念。一般地,对于样本 和模型 ,有预测值 。损失函数是定义在 上的二元函数 ,用来描述基准真相和模型预测值之间的差距。一般来说,损失函数是一个有下确界的函数;当基准真相和模型预测值足够接近,损失函数的值也会接近该下确界。

因此,机器学习的训练过程可以被转化为训练集 上的最小化问题。我们的目标是在泛函空间内,找到使得全局损失 最小的模型

由于损失函数只考虑在训练集上的经验风险,这种做法可能会导致过拟合。为了对抗过拟合,我们需要向损失函数中加入描述模型复杂程度的正则项 ,将经验风险最小化问题转化为结构风险最小化。

这里, 称为目标函数,它描述模型的结构风险; 是训练集上的损失函数; 是正则项,描述模型的复杂程度; 是用于控制正则项重要程度的参数。正则项通常包括对光滑度向量空间范数上界的限制。[3] -范数是一种常见的正则项。

贝叶斯学派的观点英语Bayesian_interpretation_of_kernel_regularization看来,正则项是在模型训练过程中引入了某种模型参数的先验分布。

Lp正则项编辑

所谓范数即是抽象之长度,通常意义上满足长度的三种性质:非负性、齐次性三角不等式

以函数的观点来看,范数是定义在 的函数;并且它和损失函数类似,也具有下确界。后一性质是由范数的非负性和齐次性保证的[4]。这一特性使得 -范数天然适合做正则项,因为目标函数仍可用梯度下降等方式求解最优化问题。 -范数作为正则项时被称为 -正则项。

L0和L1正则项编辑

机器学习模型当中的参数,可形式化地组成参数向量,记为 。不失一般性,以线性模型为例:

由于训练集当中统计噪声的存在,冗余的特征可能成为过拟合的一种来源。这是因为,对于统计噪声,模型无法从有效特征当中提取信息进行拟合,故而会转向冗余特征。为了对抗此类过拟合现象,人们会希望让尽可能多的 为零。为此,最直观地,可以引入 -正则项

通过引入 -正则项,人们实际上是向优化过程引入了一种惩罚机制:当优化算法希望增加模型复杂度(此处特指将原来为零的参数 更新为非零的情形)以降低模型的经验风险(即降低全局损失)时,在结构风险上进行大小为 的惩罚。于是,当增加模型复杂度在经验风险上的收益不足 时,整个结构风险实际上会增大而非减小。因此优化算法会拒绝此类更新。

引入 -正则项可使模型参数稀疏化,以及使得模型易于解释。但 -正则项也有无法避免的问题:非连续、非凸、不可微。因此,在引入 -正则项的目标函数上做最优化求解,是一个无法在多项式时间内完成的问题。于是,人们转而考虑 -范数的最紧凸放松—— -范数,令

和引入 -正则项的情况类似,引入 -正则项是在结构风险上进行大小为 的惩罚,以达到稀疏化的目的。

-正则项亦称LASSO-正则项。[5][6]

L2正则项编辑

图中左侧是训练集,右侧是验证集。训练集和验证集数据均是由线性函数加上一定的随机扰动生成的。图中橙色直线是以线性模型拟合训练集数据得到模型的函数曲线;绿色虚线则是以15-阶多项式模型拟合训练数据得到模型的函数曲线。由此可見,儘管多项式模型在训练集上的误差小于线性模型,但在验证集上的误差则显著大于线性模型。此外,多项式模型为了拟合噪声点,在噪声点附近进行了高曲率的弯折。这说明多项式模型过拟合了训练集数据。

在发生过拟合时,模型的函数曲线往往会发生剧烈的弯折,这意味着模型函数在局部的切线之斜率非常高。一般地,函数的曲率是函数参数的线性组合或非线性组合。为了对抗此类过拟合,人们会希望使得这些参数的值相对稠密且均匀地集中在零附近。于是,人们引入了 -范数,作为 -正则项。令

于是有目标函数

於是對於參數 取偏微分

因此,在梯度下降时,参数 的更新

注意到 通常是介于 之间的数[7] -正则项会使得参数接近零,从而对抗过拟合。

-正则项又称Tikhonov-正则项或Ridge-正则项。

提前停止编辑

提前停止可看做是时间维度上的正则化。直觉上,随着迭代次数的增加,如梯度下降这样的训练算法倾向于学习愈加复杂的模型。在时间维度上进行正则化有助于控制模型复杂度,提升泛化能力。在实践中,提前停止一般是在训练集上进行训练,而后在统计上独立的验证集上进行评估;当模型在验证集上的性能不再提升时,就提前停止训练。最后,可在测试集上对模型性能做最后测试。

参考文献编辑

  1. ^ Bühlmann, Peter; Van De Geer, Sara. Statistics for High-Dimensional Data. Springer Series in Statistics: 9. 2011. ISBN 978-3-642-20191-2. doi:10.1007/978-3-642-20192-9. If p > n, the ordinary least squares estimator is not unique and will heavily overfit the data. Thus, a form of complexity regularization will be necessary. 
  2. ^ Ron Kohavi; Foster Provost. Glossary of terms. Machine Learning. 1998, 30: 271–274 [2019-12-10]. (原始内容存档于2019-11-11). 
  3. ^ Bishop, Christopher M. Pattern recognition and machine learning Corr. printing. New York: Springer. 2007. ISBN 978-0387310732. 
  4. ^ 范数的非负性保证了范数有下界。当齐次性等式 中的 取零时可知,零向量的范数是零,这保证了范数有下确界。
  5. ^ Santosa, Fadil; Symes, William W. Linear inversion of band-limited reflection seismograms.. SIAM Journal on Scientific and Statistical Computing (SIAM). 1986, 7 (4): 1307–1330. doi:10.1137/0907087. 
  6. ^ Tibshirani, Robert. Regression Shrinkage and Selection via the lasso. Journal of the Royal Statistical Society. Series B (methodological) (Wiley). 1996, 58 (1): 267–88. JSTOR 2346178. 
  7. ^ 可通过恰当地调整学习率 与正则系数 来满足这一点。

外部链接编辑

🔥 Top keywords: Baike: 首页Special:搜索九龍城寨之圍城胖猫跳江事件Energy (組合)淚之女王背着善宰跑逆天奇案2金智媛习近平郭葦昀金秀賢 (男演員)不夠善良的我們九龍寨城邊佑錫伍允龍春色寄情人劉俊謙 (香港)張書偉怪獸8號虽然不是英雄葉乃文謝坤達神耆小子六四事件我的婆婆怎麼那麼可愛排球少年!!角色列表唐振剛2024年湯姆斯盃Seventeen (組合)蕭景鴻排球少年!!WIND BREAKER—防風少年—安東尼·愛德華茲 (籃球運動員)ILLIT中华人民共和国中華民國BABYMONSTER與鳳行張文傑BOYNEXTDOOR彭丽媛笑看風雲日本母亲节习明泽金惠奫徐巧芯從Lv2開始開外掛的前勇者候補過著悠哉異世界生活德雷克 (歌手)搜查班長1958支配物种乘風2024張員瑛承欢记嚴爵香港梅龍高速公路塌陷事故柯建銘葬送的芙莉蓮迷宮飯轉生貴族憑鑑定技能扭轉人生~繼承弱小領土後,招募優秀人才打造最強領土~为人民服务 (2022年电影)黃道十二宮IVE (組合)草榴社区歐倩怡沒有秘密周雨彤柯佳嬿無職轉生~到了異世界就拿出真本事~謝京穎埃马纽埃尔·马克龙破墓周處除三害 (電影)許瑋甯Twitter五月天打天下2逆天奇案李主儐大谷翔平家族榮耀之繼承者胡子彤郭晉安毛泽东Baike: 分類索引沈伯洋白紙運動文化大革命城市猎人 (2024年电影)2024年花蓮地震(G)I-DLE城市猎人朴成焄郭宁宁2024年優霸盃哥吉拉-1.0汤姆斯杯