联想研究院再获人工智能三项大用算法驱动智能
时间:2019-12-26 09:01

  人工智能击败人类这个话题在今天已经没什么新鲜感了。28年前《终结者2》上映时,天网和终结者代表的人工智能还是遥远未来撒到现实中的水滴:电影中计算机科学家偷师终结者从40年后带来的芯片,能做的工作就是在设计一种全新结构的处理器芯片,也就是说还是在寻求算力的突破。以现在计算机科学的眼光来看,离人工智能的距离实在有点远。

  不过也不能难为作为编剧的詹姆斯·卡梅隆。《终结者2》之前没几年的1986年,美国国家科学基金会创建的大学网NSFNET作为未来互联网的基础刚刚诞生,1990年才正式商用。1991年影片上映那年,万维网之父蒂姆·伯纳斯-李刚刚在欧洲核子研究中心写出HTTP协议的最初版本,离真的球网络大范围进入民用至少还要5年时间左右。

  于是,至少在《终结者2》中,依然看不到任何互联网的影子,离基于云计算和网络的现代人工智能那就更远了。

  这30年,其实是人类世界其实发生巨大变化的30年。在互联网变成日常生活的一部分之后,人工智能看起来也正在往这个趋势发展。每一个手机应用和服务似乎都有点人工智能的成分,每个公司的宣发似乎都在说人工智能的布局和未来。

  实际上,人工智能现在的意思,比它刚刚诞生时要更大一些。当年的人工智能更多的是指像终结者这样的高级的、通用的、完全模拟人类意识的强人工智能,而如今的人工智能有了更多自动化、自主学习方面的微观涵义。

  但这并不是说AI变得不重要了,恰恰相反,被扩展了含义的人工智能正在深入整个IT行业,并且在不断创造全新的场景和价值。联想也是重要的参与者,并且正在学术和应用领域取得突破。

  就在刚刚过去的9月,联想集团旗下推进技术未来发展的联想研究院,在人工智能领域刚刚取得三项大:

  9月初结束的2019世界人工智能大会(WAIC)黑客马拉松中,来自联想研究院人工智能实验室智能算力平台组的参赛团队,在自动自然语言理解(AutoNLP)赛道中首秀即获得了决赛二等 (第二名)的战绩。

  本次AutoNLP比赛要求参赛队伍在不同内容主题、不同语言的混合字符、文本集里,不借助任何离线或在线算力优势,进行代码设计,并在时间内完成全自动文本分类。这其中存在着不少的挑战,比如单样本长度和数据集样本量差异巨大;任务的类别数不定,且类别间可能极度不均衡,不同类样本比率可能达到数千比一;对系统泛化能力要求极高等。

  联想研究院提交的方案是自动化机器学习应用于自然语言理解,方案采取了轻量级元学习思下的自动化深度学习框架。方案具有通用性和自适应性,基于数据特征和任务元特征来进行自动学习,避免在测试任务上的过拟合。

  简单的说,此次获的算法所在的自动化机器学习(AutoML)是人工智能发展的新阶段,它可以让缺乏资源的公司和团体可以以更低的门槛、甚至零门槛设计自然语言识别机器学习算法,从长远战略意义上说,自动化机器学习是迈向强人工智能的必经阶段,是人工智能研究重要的战略高地。

  同样是在9月初,联想研究院人工智能团队在全国知识图谱与计算大会上取得了“人物关系抽取比赛”的第一名,以及“短文本实体链指比赛”的第二名。

  所谓的知识图谱,就是让计算机理解人类词汇、语句中的逻辑和知识性联系。举例来说,想让AI给你介绍一款新电脑,AI就必须知道这款电脑的参数、性能、售价、周边知识等等在内的所有联系,这就是知识图谱。完成这样的训练,你问任何一个和产品有关的问题,AI都能给正确的答案。

  当然了,实际应用的大多数,可能都比介绍产品这样的案例要更复杂。联想研究院此次获的人物关系抽取比赛,就是让计算机读懂人类的社会结构。

  此次的人物关系抽取比赛任务包含35个类别,包括夫妻,长辈,晚辈,同辈,其他亲戚;以及老师、学生,恋人,朋友等。人物类型非常多元,包括历史名人、人物、娱乐明星、小说人物等,还包括部分外国人物。

  算法可以实现的效果就是,AI读到“贾玲师从相声表演艺术家冯巩”这句话,就知道他们是师徒的关系。

  而短文本实体链指比赛,则是要求对于给定的一个中文短文本(如搜索Query、微博、用户对话内容、文章标题等),识别出其中的实体,并与给定知识库中的对应实体进行关联。ERL整个过程包括实体识别和实体链指两个子任务。

  比如看到一条新闻“比特币吸粉无数,但央行的心另有所属界面新闻 · jmedia”之后,可以输出“比特币、央行、界面新闻”这几个有价值的知识实体词汇。

  ComParE是Interspeech系统评测之一,从2009开始已经连续举办十年,在语音领域属于重量级评测。语音是语言的声音表现形式,不仅包含了语言语义信息,同时也传达了说话人、语种、性别、年龄、情感、信道、嗓音、病理、生理、心理等多种丰富的副语言语音属性信息。

  ComParE的目的就是根据语音信号,识别或检测各类副语言语音属性,比如情感识别、哭声检测、嗓音病理识别、方言语种识别等,每年都会有不同任务。今年参赛单位有20多家,包括Idiap Research Institute、CMU、慕尼黑大学、大学等众多知名研究机构。

  DUK-LENOVO系统参加了鲸鱼叫声检测项目,主办方提供部分包含鲸鱼叫声的语音作为训练数据,大家在共同的测试集上检测声音信号中是否包含鲸鱼叫声。通过采用数据扩展、多特征融合以及基于Fish vector的deep embedding技术,DKU-LENOVO提交系统在测试集上达到94.8%的正确率,显著优于提供的86.6%的基线和其他单位系统,稳居第一。

  这三项人工智能领域的大只是联想研究院和人工智能团队取得成绩的一小部分。实际上过去一年多,团队已经获得了超过14个全球性人工智能竞赛的大和最佳论文,显示了极高的算法水平和开发管理能力

  而联想研究院人工智能团队的,早已开始为公司运营提升效能,改进运营水平,扩大盈利空间。举例来说,联想的工厂生产、售后维修保障、公司内部运营都已经部署了联想研究院自行开发的AI技术。而且下一步,联想作为中国智能制造的使能者与赋能者,这些AI解决方案正在为其他行业与公司提供变革的力量。

      大红鹰娱乐