中心新闻

当前位置:首页 > 首页 > 中心新闻 中心新闻

“语言可以这么玩“:自然语言处理(NLP)应用 ——记金融学院《机器学习》兴趣小组第五次研讨会

2017年5月14日15:00,金融学院《机器学习》兴趣小组第五次研讨会于博学楼210进行,本次研讨会的主讲人为对外经济贸易大学信息学院13级本科生宋清平。

   宋清平首先为大家介绍了什么是自然语言处理。自然语言处理Natural Language Processing(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,是一门融语言学、计算机科学与数学于一体的科学,而计算机领域中自然语言处理的目的就在于让计算机理解和生成人类语言。基于不同的应用需求,我们建立了三种知识图谱,其中一种是实体图谱。在实体图谱中,每一个节点都是一个实体,每个节点都有几个属性,节点之间的连接是实体之间的关系。

其实,自然语言处理已经广泛地应用于我们的生活中。如机器翻译、手写体和印刷体字符识别、Siri、 信息检索、文本分类与聚类等都包含着自然语言处理的缩影。宋清平为我们简单举了两个例子——百度问答系统Interence的知识图谱和阿里巴巴的淘宝标题分析,并介绍了针对淘宝标题进行深入理解和分析的四个步骤:分词—实体打标—热度计算—中心识别。

   在介绍了一些常用的数据抓取工具之后,宋清平利用ICTCLAS工具为大家现场演示了一段使用红楼梦语料的实际操作,分词标注、实体抽取和词频统计等操作强化了听众对自然语言处理的基本认识。

紧接着,宋清平用机器学习方法分析红楼梦原著作者的案例引出了本次研讨会的重点模型——条件随机场。

  简单来讲,随机场可以看成一组随机变量的集合(这组随机变量对应同一组样本空间),当每一个位置中按照某种分布随机赋予相空间的一个值后,其全体就称作随机场。这里有两个重要概念:一个是“位置”,我们可以想象成“一亩一亩的农田”,第二个是“相空间”,我们可以想象成是“种的庄稼”。而马尔科夫性质(马尔科夫独立性)指的是一个随机变量序列按时间先后关系依次排开的时候,第N+1时刻的分布特性,与N时刻以前的随机变量的取值无关。而马尔科夫随机场是具有马尔科夫性质的随机场。马尔科夫随机场的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。

条件随机场就是给定了观察值的马尔科夫随机场。宋清平通过命名实体识别(NER)为我们引入了定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear-chain CRF)。在条件概率模型 P(Y|X) 中,Y 是状态序列;X 是观测序列,利用训练数据集通过极大似然估计或正则化的极大似然估计得到条件概率模型 。根据 Hammersley-Clifford 定理,可以给出线性链条件随机场 P(Y|X)的因子分解式,各因子是定义在相邻两个节点上的函数。

宋清平用基于文本的网络地址信息抽取的案例,分析其线性链条件随机场的形式是:观测点是要标注的词和它们本身对应的特征,例如词性是不是专有名词,语义角色是不是主语等。隐节点是这些词的标签,比如是不是人名结尾,是不是地点开头等。这些观测节点(特征)的表达方式有两种:一是转移特征,即涉及两个状态之间的特征,二是简单的状态特征,就是只涉及当前状态。特征函数表达式为0-1函数。

 宋清平通过对其毕业论文的介绍进一步阐述了自然语言处理的作用,在其毕业论文中,她通过信息抽取,条件随机场模型,对统计药物不良反应进行了研究。宋清平还推荐了一个短文本相似性工具包,可以用短文本相似性遍历的方法去规范化药物不良反应。

讲座最后,宋清平向听众们介绍了NLP的两大难点,一是歧义,机器对语言的理解可能存在歧义;二是变化,语言会随时代地域的变化而变化。关于如何学习NLP,她也给出了自己的建议,先去找简单的文本去分词,熟练后可以用于在量化投资领域,来挖掘舆情,“生活处处有自然语言处理”。

分享内容结束后,听众就讲座内容与宋清平进行了交流和互动,有的同学提出自然语言处理可以跟行为金融学相联系,分析出市场处于什么样的情绪,从而可以应用于量化投资领域。还有的同学认为自然语言处理可用于规范公司名字,挑出错拼,也可以用百度大脑的短文本相似性遍历来挑出关键词,优化算法。

 

Copyright © 2017 对外经济贸易大学 All Rights Reserved 粤ICP备05102240号
Email:lingnan@sysu.edu.cn Tel:86-20-84112190,86-20-84112191 Fax:86-20-84114823