本篇文章1864字,读完约5分钟
今天,第15届全国计算语言学会议(ccl2016)和第4届基于自然标注大数据的自然语言处理国际研讨会(nlp-nabd2016)在鲁东大学同时举行。前来与智谈话的美容工程师任参加了会议,并把会议现场的报告带给了《雷锋》的读者。搜索“雷锋”。com "公共号码)。雷锋。com编辑了内容,但没有修改其初衷。
首先,简要介绍下两次会议的背景-
计算语言学全国学术会议自1991年起每两年举行一次,自2013年起每年举行一次,主要关注中国各种语言的计算处理,为讨论和传播计算语言学的最新学术和技术成果提供了一个高层次的交流平台。
基于自然标记的大数据的自然语言处理国际研讨会涵盖了自然语言处理的所有研究内容,尤其关注大数据时代自然语言处理的前沿方法和技术。
从孙茂松教授在清华大学的演讲中,我们可以大致了解到本次会议的相关情况:会议收到了300多份稿件,就业率为32.9%。会议前一天参加研讨会的是一线年轻研究学者的报告;并加入了《自然语言处理国际前沿动态评论》,这是一份简单而精确的报告;所有参加系统展览会的人都是行业内的尖端技术,受邀的记者也是行业专家。以上所有英文论文将由斯普林格出版社在LNAI出版(人工智能讲义)系列。
中国科学院院士张伟:后深度学习时代的计算语言学
(清华大学教授、中国科学院张伟院士)
清华大学教授和中国科学院张硕院士介绍了从象征主义到联结主义再到深度学习的语言加工过程中遇到的困难、原因和根源。
象征主义的认知计算模型
张谦院士提到,象征主义引发了计算机(算法)应用的一场革命,也是最合适的语言模式。此外,知识驱动法还提到了沃森系统,并指出了知识驱动法的局限性。
联结主义的兴起
自20世纪以来,计算语言学发生了两大变化,一是大数据,二是概率统计方法。跨越统计学的四个里程碑,机器学习模型和文本机器学习模型的发展,再到文本语义鸿沟的问题,语义和底层特征之间的映射一般不存在,这导致了从浅层学习到深层学习的范围,深层学习在语言处理中的应用和深层学习解决问题。
后深度学习时代的计算语言学
在后深度学习时代,计算语言遇到了困难,比如概率统计方法和原始数据带来的困难
概率统计方法带来的困难:神经网络(手写数字)识别系统只是一个分类问题,不是“识别”。张忠院士给出了一个深层神经网络错误识别的例子:所有的噪声图片都被识别为0-9个手写数字,置信度为99.99%。另外,从输入量、信息量、关系和潜在特征四个方面分析了文本和图像信息的区别。
原始数据带来的困难:斯坦福图像用阳性样本识别,识别率相对较高。如果随机选择阳性和阴性样本,斯坦福的识别率仅为19.2%(包括预处理,使用9m图像和10k类别)。
如何解决上述困难?张硕院士提出以下三点:
(1)知识驱动和数据驱动的结合:例如,蒙特卡罗树搜索+深度学习
(2)跨学科,特别是与脑科学和认知科学的结合
(3)计算语言学和人工智能共同进步
张中院士表示,计算语言学在任中还有很长的路要走,在后深度学习时代,自然语言处理的发展更依赖于跨学科的研究:脑科学、语言学、数学、计算机科学和认知科学。
微软亚洲研究院常务副院长马:一些关于自学机器人的研究成果
微软亚洲研究院执行副总裁马·魏莹博士在《我们能建造一台自学机器吗?《文本的机器理解探索》,主要介绍了微软亚洲研究院自学机器人的最新发展。
例如,当谈到机器人对搜索引擎聊天工具中文本的理解时,自学机器人可以做到:
闲聊和深度聊天的结合使用户对交流更感兴趣,并有一种亲密感;
图片或视频的识别和评论;
建立一个用户模型会给出一个令人惊讶的答案;
可以帮助预订机票
......
此外,还有机器人萧冰。例如,图书馆图书搜索的关键是分类。机器人萧冰通过大量数据颠覆了搜索过程,采用了深度学习和知识挖掘等关键技术。数据结果显示,萧冰在每个环节的互动都高于其他同类产品。
在报告网站上,马还提到了人工智能的四大趋势:
A.一切都是电子化的;物联网(爱智、净值、信息);云计算;智能软件工程
人工智能技术可以扩展到其他方向,其中一个重要的应用就是机器翻译。机器翻译的双向学习,5%双语训练数据的bleu值相当于100%训练数据的bleu值,可以应用于多个相关任务的协作学习(nips2016)。
今天的会议有很多干货。这里有一个小通知:明天将有四个专题报道,一个自然语言处理的国际前沿趋势的总结和海报的展示,此外,将增加一个新的系统展示链接。我们还将展示我们公司(北京于之云帆科技有限公司)的最新产品,欢迎大家留言交流。