中心新闻

当前位置:首页 > 首页 > 中心新闻 中心新闻

以股票高送转为例分析逻辑回归及分类树方法——记金融学院《机器学习》兴趣小组第四次研讨会

2017年5月7日14:00,金融学院《机器学习》兴趣小组第四次研讨会于博学楼918教室举行,金融学院量化专硕项目主任潘慧峰老师、金融学院邓军老师出席,另有部分兴趣小组成员以远程形式参加了本次会议。

本次研讨会的主讲人戴峻豪,是对外经济贸易大学2013级本科生,即将进入哥伦比亚大学修读运筹学硕士。曾在国泰君安实习,现于IDG资本负责股票策略研究。他为参会者分享的讲座主题为股票高送转预测(逻辑回归、随机森林),会议参考周志华《机器学习》第三、四章及相关财务报表分析知识,主要分为四部分内容。

 戴峻豪首先向大家解释了从计量到更高层次算法的相关概念,他从参数与非参数化计量的优劣讲起,分析不同模型所对应的灵敏度与可解释性的差别,并比较了回归与分类方法之间的联系及其所适用的不同环境要求。他指出,机器学习不仅仅是构建一个模型,只有经过模型的处理与选择、数据金融特征的特定选择与描述,机器学习才能被定义为一个更为完善的过程。

随后,戴峻豪向听众们分享了逻辑回归的基本思想。谈及逻辑回归,戴峻豪以一个二分类的两类样本为例,运用逻辑回归的方法给出了拟合较好概率的直观表示和与之相应的函数。对于其他种类的部分回归方法,戴峻豪也一一解释了这些方法的适用场景及优劣。Probit回归使用累计的分布函数并且假设误差服从正态分布,与逻辑回归结果较为接近,只是在靠近0和1的地方存在着维度的差别;Tobit回归可同时使用0和连续变量的信息,拟合效果相对差一些,使用频率相对低一些,一般在生物统计中用到得比较多。

在介绍分类树理论时,戴峻豪以人思维逻辑的分类延伸为引导,直接向听众们说明了分类树的优势,即展示时的直观性与解释时的方便性。此外,他还提及了构造分类树时对无关信息的优化处理方法——剪枝法。剪枝可避免过拟合的现象,当分类树分枝过细使其与上边信息相关度减小或者分枝带来的边际信息产生了争议时,我们便可对其进行剪枝。此部分内容结尾,戴峻豪分别对拓展分类树的三种模型:装袋树、随机森林和提升树进行了解释与比较。装袋树是随机抽样出B个子样本,生成B个树,分别对每一个进行预测,最后得出B个观测值求平均的一种模型,在理论上这种模型因数量多而使得方差较小。但实践中这种模型也有缺陷,不同树之间存在着很大的自相关性,实际上无法达到方差减小的目的。随机森林是一种改进版的装袋树,针对不同树之间的自相关问题,在每一步选取的时候只允许选择一部分变量,这种模型使得生成的树差别增大,相关性减小。拓展分类树的最后一类模型是提升树,属于一种加权平均的模型,即根据每个树的质量给它们一个权重进行加权平均。随机森林和提升树都是对装袋树的优化。

   在介绍完构筑、优化和取舍分类树的方法后,戴峻豪在讲座最后用预测股票分红的具体例子对比分析了逻辑回归和随机森林方法。他从股票分红可能的三种途径讲起,通过收集数据和预估可能变量,运用回归与分类树的方法,并辅以对诸如“公司宣布送(转)股后价格上涨可能原因”等问题的探讨,得出了一个能够较为准确地给出股票分红可能的预测模型。诚然,如分享会中讨论的结果,这种预测由于制度等因素的限制,无法非常精确地预测分红时间,但它对于数据的准确追踪已赋予了这种模型自身的研究意义。

Copyright © 2017 对外经济贸易大学 All Rights Reserved 粤ICP备05102240号
Email:lingnan@sysu.edu.cn Tel:86-20-84112190,86-20-84112191 Fax:86-20-84114823