中心新闻

当前位置:首页 > 首页 > 中心新闻 中心新闻

追逐效率的步伐——从主成分分析到特征值选择 ——记QuantFactory《机器学习》兴趣小组第六次研讨会

2017年5月21日13:30,QuantFactory《机器学习》兴趣小组第六次研讨会于知行楼503a讨论教室举行。本次研讨会的主讲人为王茜莹,是对外经济贸易大学2013级金融学本科生,即将进入哥伦比亚大学修读金融数学专业硕士,曾于中信建投股权投资部、光信资本和宝慈资产等担任实习生。王茜莹为参会者讲解的内容参考了周志华《机器学习》第十、十一章并运用了线性代数和matlab编程等知识,主要分为主成分分析(PCA)的核心思想、奇异值分解(SVD)、模型选择和特征值选择四个方面。

王茜莹首先提出了如何计算文档之间的相似度的问题,一般来说,我们可以用这样一种处理方法,就是把每个文本用高维向量表示,然后计算两个文档向量的夹角余弦,根据余弦数的大小差别来判断文档相似度。但是,这样一个看似十分有效的方法却无法查找出拼写不同但词义相近的文件。例如,study在向量表示中与learn完全不同,但是它们的意义相近。为了解决这个缺陷,我们需要寻找新的空间,将源文件投影于其上,再进行分析,这便是主成分分析(PCA)的直觉想法。

随后,她解释了降维的必要性。因为在机器学习或数据挖掘中,我们往往会获得大量的数据源,这些数据源往往又有很多维度来表示它的属性,而我们在实际处理中只需要其中几个主要的属性,其他的属性则被当成噪声处理掉。因此,样本的特征之间可能存在的只是较强的正相关性而非完全的线性关系。

例如,上图的投影结果中,u1曲线反映了特征的主要变化,u2曲线代表噪声。PCA的任务就是找到u1和u2,也就是在给定m个样本点的情况下,将n维的样本点变换成k维数据(k<n)以达到降噪降维的目的。通过均值中心化和方差归一化方法处理数据,然后通过使样本点在最佳主轴上投影最分散来找到最佳主轴的特点。经过分析我们发现,该最佳主轴向量就是样本的协方差矩阵的特征向量。因此,我们可以选取协方差矩阵的k个最大特征值所对应的特征向量组成的新k维子空间来描述样本数据。并且k越大,也就是说原来空间中特征向量越多,导致的降噪误差就越小,反之亦然。

解释了PCA的原理和计算方法后,王茜莹又介绍了一种快速且稳定获取特征向量的方法--奇异值分解(SVD)。对于任意的 2 x 2 矩阵,通过SVD可以将一个相互垂直的网格(orthogonal grid)变换为另外一个相互垂直的网格。

用u1和u2分别表示Mv1和Mv2的单位向量:

(σ1和σ2分别表示这不同方向向量上的模,也称作为矩阵M的奇异值)

这样我们得到计算特征向量U的方法:

u矩阵的列向量分别是u1,u2,也就是我们想求得的降噪矩阵。Σ是一个对角矩阵,对角元素分别是对应的σ1和σ2。V矩阵的列向量分别是v1,v2,上角标T表示矩阵V的转置。

讲解间隙,王茜莹为我们展示了她模拟人脸识别与生成的过程,会议的气氛在此时被推向高潮。该指令通过将高维像素降维处理后再还原回高维来生成所示照片中的大致脸型,下图就是所模拟出的一张大众脸。学好机器学习,再也不用为表情包而发愁了.

       最后,王茜莹较为详尽地介绍了模型选择与特征选择的方法。模型选择可采取一种较简洁的交叉认证方式。在运用这种方式时,将测试样本分为两个子样本,一个进行训练,另一个进行认证,最终选择一个误差最小的模型即可。当然,我们也可以通过一种计算量较大的方法替换这一种做法。这种方法下,将样本集s分为k重,每次选k-1重做训练,剩下的做测试,求多次重复下的均值,选取其中均值最小的即可作为最优的模型。

论及特征选择,王茜莹为我们介绍了包裹式和漏斗式两种选择方法。包裹式中我们为每个特征赋一个变量,从而组成一个高维向量。针对n个特征的2n个子集,运用前置搜索的办法,从空集开始,每次加入一个量并计算评估相应的模型,算出模型的area1,area2……最后去除信息量较小的特征。由于这种方法的缺点在于计算量过大,我们转而考虑计算量相对小的漏斗式。这种方法下,我们选取对象的一个特征,看它所能反映的信息量。对信息量的评估可以通过对相关性的考察或是MI(交互信息)系数的公式计算得出。

在维度的转换间提高学习与筛选的效率,在计算量与精确度的权衡中获得最佳的方案。当电影中识别人脸的可行技术真切地展现眼前,机器学习的魅力在现场听众期待的眼神中可见一斑。

 

Copyright © 2017 对外经济贸易大学 All Rights Reserved 粤ICP备05102240号
Email:lingnan@sysu.edu.cn Tel:86-20-84112190,86-20-84112191 Fax:86-20-84114823