导航菜单

科大讯飞的1024:语音技术进一步突破,发布专用芯片

《机器之心》报告

作者:易茗和蛋酱

1024被称为程序员节,HKUST迅飞每年这个时候也举办开发者节和相关活动。 在今年的开发者节上,科大迅飞发布了更多关于平台、产品和技术的信息。

昨天,HKUST迅飞1024全球开发者节在合肥开幕 在这次开发商节的会议上,科大的迅飞表示决心继续开源,并赋予企业和数百万开发商权力。它还在技术和产品生态会议上展示了许多新技术和产品。

HKUST迅飞董事长刘庆峰在开幕致辞中,与大家分享了HKUST迅飞20年创业经验对人工智能未来发展的预测和见解。

他说人工智能的发展阶段应该根据三个标准来判断:人工智能不再仅仅是一个“概念”,而是应该有看得见摸得着的应用案例;这些案例能大规模推广吗?有统计数据证明应用效果吗

2019,人工智能应用在各个行业的登陆证明了人工智能的红利阶段已经到来。 刘庆峰在讲话中列举了HKUST迅飞在人工智能领域的应用

例如,在教育方面,人工智能使教育者能够有效地缩短试卷审批时间,并将学生的培训时间减少50%。因此,孔子2000多年前提出的“因材施教”才真正实现。在医疗方面,人工智能可以将诊断水平提高到90分,提高诊断效率,将高端、高素质的医学专家资源向重大疑难疾病倾斜。

刘庆峰强调,各种人工智能登陆应用表明,人工智能开发不仅仅是烧钱的玩具。人工智能可以解决人类的许多迫切需求。

持续升级,《1024 计划》进入3.0倍

自2017年第一届全球1024开发者节正式启动《1024 计划》以来,HKUST迅飞一直从人工智能教学、人工智能生态和人工智能公益三个方面辅导和扶持开发者,关注公益事业

作为1024开发者大会的重要组成部分之一,HKUST新闻飞轮价值总裁胡瑜发布了新升级的《1024 计划》 他说:“科大迅飞将继续坚定不移地实施,共同构建分散的商业生态系统,通过人工智能代理和与各工业领域的深度整合,共同构建属于不同生态领域的基石 “

在今年的版本中,人工智能教学与指导计划、人工智能生态计划和人工智能公益计划分别升级到3.0版,希望实现辅导和赋权开发者的初衷,同时更加关注公益事业

从两年前的1024计划开始,科大迅飞进一步完善该计划,使其更加开放和多样化。 在1024大会上,胡瑜发布了一组数据:人工智能大学已经逐渐发展成为中国第一大人工智能在线学习平台,目前拥有31万多名学生;人工智能生态计划形成了能力星云、智能机器人(iFLYOS A.I.oT)和解决方案三个生态产品矩阵,吸引了160万生态伙伴。公益方言保护项目吸引了700万人。HKUST迅飞还为残疾人应用提供免费技术支持,使残疾人能够无障碍地与世界交流。

胡宇说,1024计划的最终目标是创建一个分散的混合正交商业生态系统,并围绕人工智能技术和应用形成一个商业系统

语音领域仍有惊喜。新技术继续突破“今年的1024开发者节”。HKUST迅飞重点介绍了一些新技术演示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)和开放平台部分。 该大学迅飞研究所执行副总裁刘聪介绍了该大学迅飞研究所在技术上取得的重大突破。

内存增强多通道全端到端语音识别框架

在语音识别领域,HKUST迅飞虽然积累了成熟的技术经验,但仍在进一步探索和提高语音识别技术的准确性和可靠性 在语音识别方面,考虑到过去的识别需要先接收声音,然后以更复杂的方式进行降噪和识别,流水线过程降低了识别精度,今年的科大迅飞开发了一种多通道全端到端语音识别框架,称为“记忆增强”(memory enhancement),这是一种完全深入学习前端语音处理过程的算法,采用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别。 具体来说,该算法采用编解码架构,采用深度卷积和后端识别模型进行混合训练,使神经网络在接收到声音后能够进行前端信号处理和后端识别。

此外,由于深度学习模型对长尾数据建模不理想,HKUST迅飞在模型中引入了外部知识 例如,系统可以记录不同语言的热门词汇,并让模型在语音识别过程中调用,从而纠正识别过程中的问题 目前,HKUST迅飞在一般语音识别任务中的准确率已经达到98%

在最近出现的多语言混合语音识别任务中,科大迅飞也进行了新的技术研究。 以汉英混合输入为例,采用语码转换方案,采用汉英混合输入时,英语准确率可达90%。 目前,在混合语音识别的场景下,HKUST迅飞已经实现了中、英、粤等语言和方言的混合输入技术。

刘聪表示,虽然通用语音识别技术能力已经达到很高的水平,但HKUST迅飞仍在定制场景下进行更详细的语音识别研发工作。 例如,在语音交互场景中,由于对实时识别的要求很高,需要根据设备来嵌入模型,这需要专家知识,耗费了大量的研究人员精力。 随着AutoML技术的兴起,科大迅飞也将该技术应用于语音识别的网络架构搜索。 搜索到的体系结构与剩余网络相似,模型的性能比业界主流模型提高了15%以上。

基于听觉量化的统一语音合成框架

在语音合成中,HKUST迅飞也展示了其技术实力 首先,在人工智能新生态产品大会开始时,刘聪特意改变了使用主持人(女性)的声音,用普通话和合肥方言与主持人进行PK互动。 此外,在活动期间,科大迅飞将合成声音与电视主持人的图像和视频相结合,让主持人演唱《我和我的祖国》,同时确保声音一致

在这项技术的背后,离不开HKUST荀非对语音合成的进一步积累和探索。 刘聪表示,HKUST迅飞开发了一个“基于听觉感知量化的统一框架”,可以实现语音合成过程中的合成和声音变化。 在该模型中,它可以量化和编码各种类型的输入语音的特征,提取诸如音色、音调和语音风格等特征,并使用编码来控制合成语音

由于单人语音合成需要大量的数据输入,鲁棒性相对较弱,HKUST迅飞在模型中采用了氮化镓架构 这也是氮化镓语音合成问题的罕见解决方案。

在今年的国际暴雪语音合成挑战赛中,HKUST迅飞合成了罗振宇的脱口秀语音,自然度得分为4.5,接近原声轨的4.7

机器翻译融入统一语音框架

机器翻译一直是HKUST的强项 在过去的许多技术中,翻译的整个过程是:对于每种语言或方言,首先识别它,然后翻译它。 在这个1024开发者节上,科大迅飞进一步介绍了机器翻译领域的新工作。

具体来说,考虑到机器翻译需要为不同的模型构建模型,需要大量的数据,并且需要很高的标注要求,HKUST迅飞提出了一些解决方案。 首先,构建了一套统一的建模方案,使新的语言建模能够获取语言信息,减少对数据的依赖。 其次,将翻译与语音识别和语言合成相结合,建立端到端模型,降低数据标注要求的准确性 最后,使用半监督和迁移学习来减少对数据量的需求。

此外,在翻译任务本身中,科大迅飞还提出了一种新的翻译模型,称为“集成领域知识的多通道半监督约束编解码器翻译框架” 这是一个用于语音输入的机器翻译模型,用于解决机器翻译任务中的三个困难。 首先,语音输入比文本包含更多关于说话者的信息,如音调高度、节奏等。 如果你把它转换成单词,然后认出它,你无疑会失去这些有用的信息。 因此,在这个模型中,科大迅飞增加了多通道编码机制,将语音序列、文本标签等各种信息与原机器翻译模型相结合,使翻译后的文本具有更大的容差空

同时,由于机器翻译在长文本中的翻译水平不理想,科大迅飞在研究中增加了语义块约束解码机制。 其中,语义块用于加速翻译过程,而约束解码可以减少损失。 这使得翻译模式从简单的旅游口语对话翻译场景扩展到大型会议场景。

据报道,在中国外语系的科研测试中,HKUST迅飞模特在全国翻译职业资格考试中通过了二级交叉翻译和三级翻译的水平测试 这项技术预计将在2022年冬季奥运会上使用。

除了与语音和机器翻译相关的技术突破外,HKUST迅飞今年还进一步探索了其他技术领域和任务,包括个性化推荐、机器阅读理解和光学字符识别等。 在个性化推荐方面,科大迅飞将该模型应用于教育领域,实现对学生学习能力的准确评价,并根据知识地图等方法为学生推荐个性化定制的教育方案。 在机器阅读理解方面,科大的迅飞宣布迅飞和哈尔滨工业大学联合研究的模型已经超过了SQuAD 2.0列表中的平均人类水平(由F1和EM分数评估) 此外,科大迅飞还开发了与光学字符识别相关的技术,可以用许多邮票、表格和文本符号识别文本内容。 该研究已广泛应用于法院相关工作,如文件和资料整理、电子证据链等。 这项技术最近与其他技术相结合,甚至可以在证据材料的比较和缺陷识别方面提供服务。

OCR识别使用具有语义分割能力的模型

帮助开发者:迅飞平台进一步开放

在同一天的技术会议上,中科大迅飞宣布了两个与技术相关的平台开源计划,即桂云平台和非云平台

桂云平台主要面向各种实际应用的开发者,为他们提供HKUST迅飞的各种技术能力,包括上述各种语音识别和合成。 更重要的是,云返回平台可以结合各种功能,并使用拖放来构建统一的业务管道 例如,桂云平台提供光学字符识别、语音合成和机器翻译功能。开发人员可以将这些功能结合起来形成一个业务流程,首先识别字符,然后翻译它们,最后使用合成声音朗读。 流程建立后,HKUST迅飞提供了一个独特的应用编程接口,开发人员可以直接调用该接口,而不必关心内部协议等实现细节。

此外,科大迅飞还提供了一个云菲平台,允许开发者将开发的模型和功能上传到云中。云菲平台提供分布式计算和性能加速服务

AIoT继续在语音专用芯片领域做出巨大努力。

在1024开发者节上,HKUST迅飞副总裁俞季东介绍了发布的iFLYOS平台的进展和一些新产品。

iFLYOS成为产品的智能入口

首先,俞季东向HKUST介绍了iFLOS的意义 IFLYOS通过整合科大迅飞的各种人工智能能力,帮助企业在产品中获得这些能力,从而创造出人工智能(AIoT)产品。

为了加速人工智能应用的登陆,iFLYOS集成了许多新功能。 第一个是iFLYOS-studio,开发人员可以在这里用可视化界面编程并创建新的应用程序。 此外,iFLYOS还集成了各种内容和技术供开发人员使用。 与此同时,iFLYOS和硬件也已经开放。目前,它可以适应各种芯片硬件,如MT8516,使移动和嵌入式设备中的部署模型更加通用。 此外,iFLYOS还提供了一个公共模型。 开发人员可以使用这些模型根据业务需求定制自己的产品。

随后,俞季东介绍了HKUST迅飞在许多领域的技术应用,并提到了智能家居、汽车系统、儿童教育等方面的应用。 香港科技大学迅飞以iFLYOS为基础,为相关应用场景开辟了多种开发平台,如iFLYOS-Auto、Athena Serving等。

在应用开发方面,科大迅飞介绍了其开源工作,包括人工智能工厂和能力星云2.0计划 人工智能工厂是一个为开发人员提供定制优化算法相关技术的应用编程接口工厂。 俞季东表示,2019年底前,语音相关技术能力将登陆该平台。 明年上半年,将增加计算机视觉、自然语言理解和其他技术。 功能星云2.0是一个人工智能全栈服务平台,通过引入研究人员和开发人员创造更多人工智能功能

布局芯片,圆顶技术正在兴起

在人工智能生态产品发布会上,科大迅飞集团副总裁兼消费者BG副总裁俞季东正式发布了由联合生态伙伴打造的专为家电行业设计的CSK400X系列语音芯片。

俞季东说,爱奥已经成为HKUST迅飞的核心战略之一 在AIoT时代,智能硬件市场对芯片的计算能力提出了更高的要求。然而,从芯片市场的现状来看,通常很难在高计算能力和价格之间实现平衡,芯片和算法之间的适应也相对困难。微控制器通常不是为神经网络设计的。

hkust迅飞及其生态伙伴琼田科技根据迅飞人工智能算法为CSK400X系列语音芯片设计了NPU框架和规范,并为神经网络设计了底层操作符 据了解,该芯片可以借助神经网络算法解决家庭中的噪声问题,计算力可以达到128高斯。同时,它支持全堆栈语音功能,包括离线唤醒、远场阵列降噪、回声消除等优化功能。适用于智能家电、玩具、扬声器、离线门禁等着陆场景。

从HKUST迅飞1024开发者节新闻发布会上可以看出,虽然人工智能技术已经越来越成熟,但是如何在细分领域做到最好,如何进一步促进人工智能技术的广泛应用,仍然是HKUST迅飞思考的问题。 随着平台的逐步开放,与开发商和合作企业更紧密的沟通和互动,推动人工智能的整体生态建设无疑是下一步。

第三届“同步机器智能奖”年度奖项的评选正在进行中。 此次评选设立了六个主要奖项,重点是人工智能公司的产品、应用案例和工业登陆。根据真实客观的行业绩效,选择最值得关注的企业,为行业带来实际参考价值。

参赛日期:2019年10月23日-2019年12月15日点评期:2019年12月16日-2019年12月31日获奖公告:2020年1月

特别声明:本文由网易媒体平台“网易”的作者上传发布,仅代表作者的观点 网易只提供信息发布平台 读完下一篇文章“国庆节,300个城市的土地销售收入出来了,房奴们都泪流满面”地回到网易的主页“下载网易新闻客户端”的“机器报告之心”作者:易茗和蛋酱

1024被世人称为程序员节,HKUST迅飞也在每年的这个时候举办开发者节和相关活动。 在今年的开发者节上,科大迅飞发布了更多关于平台、产品和技术的信息。

1024被世人称为程序员节,HKUST迅飞也在每年的这个时候举办开发者节和相关活动。 在今年的开发者节上,科大迅飞发布了更多关于平台、产品和技术的信息。

在开幕致辞中,科大讯飞董事长刘庆峰与大家分享了科大讯飞在 20 年创业经验中,对人工智能未来发展的预判和感悟。

他表示,人工智能到底处于什么样的发展阶段,要基于三个标准去判断: 人工智能不再只是个「概念」,要有看得见、摸得着的应用案例; 这些案例能不能规模化推广; 有没有统计数据可以证明应用效果。

2019 年,各行各业不断涌现的 AI 应用落地足以证明,人工智能的红利阶段已经到来。 刘庆峰在演讲中列举了科大讯飞在 AI 领域的应用落地。

比如在教育方面,人工智能让教育者有效缩短批卷时间,对学生的训练时间可以减少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以实现; 在医疗方面,人工智能可以将诊断水平提升到 90 分,提高诊断效率,让高端优质的医疗专家资源向重大疑难疾病倾斜。

刘庆峰强调,种种人工智能落地应用说明,AI 发展并非只是烧钱的玩具,人工智能可以解决人类的很多刚需问题。

不断升级, 《1024 计划》 进入 3.0 时代

自 2017 年首届全球 1024 开发者节正式推出 《1024 计划》 以后,科大讯飞一直在从 A.I. 教引、A.I. 生态、A.I. 公益三个方面,辅导、赋能开发者,关注公益事业。

作为 1024 开发者大会的重要环节之一,科大讯飞轮值总裁胡郁发布了全新升级的 《1024 计划》 。 他表示: 「科大讯飞将继续坚定实行,共同打造去中心化的商业生态体系,通过 A.I. Agent 与各产业领域深度结合共同构建属于不同领域生态的 Keystones。 」

在今年的版本中,A.I. 教引计划、A.I. 生态计划、A.I. 公益计划分别升级到了 3.0 版本,希望能够实现辅导、赋能开发者的初衷,同时更加关注公益事业。

始于两年前的 1024 计划,科大讯飞正在进一步细化计划内容,使其变得更为开放多元。 在 1024 的发布会上,胡郁公布了一组数据: A.I. 大学逐渐发展成为国内首个最大的 A.I. 在线学习平台,目前已拥有超过 31 万学员; A.I. 生态计划形成了能力星云、iFLYOS A.I.oT、解决方案三大生态产品矩阵,目前亦吸引了 160 万生态伙伴入驻; A.I. 公益的方言保护计划则吸引 700 万人参与,科大讯飞还为助残应用免费提供技术支持,赋能残障者与世界无障碍沟通。

胡郁表示,1024 计划的最终目的是为了打造去中心化的混合正交商业生态系统,形成围绕 AI 技术和应用的商业体系。

语音领域仍有惊喜,新技术持续突破

今年的 1024 开发者节现场,科大讯飞着重进行了多项新技术展示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)等和开放平台板块。 科大讯飞研究院常务副院长刘聪介绍了科大讯飞在技术方面的主要突破。

记忆增强的多通道全端到端语音识别框架

在语音识别领域,科大讯飞虽然已经积累了成熟的技术经验,但仍进一步探索提升语音识别技术的准确性和可靠性。 在语音识别中,考虑到过去的识别需要首先收音,然后进行降噪处理再进行识别的方式较为复杂,且管道式的流程降低识别准确率的问题,今年的科大讯飞开发了名为「记忆增强的多通道全端到端语音识别框架」,这是一种完全将前端语音处理过程深度学习化,使用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别的算法。 具体而言,该算法采用 Encoder-Decoder 的架构,使用深层次卷积和后端识别模型进行混合训练,使得神经网络可以收音后进行前端信号处理和后端识别工作。

此外,由于深度学习模型对长尾数据建模不够理想,科大讯飞在该模型中引入了外部知识。 例如,系统可以记录下不同语种的热词,在语音识别的过程中让模型进行调用,从而矫正识别过程中的问题。 目前,科大讯飞在通用语音识别任务上的准确率已达到 98%。

在最近开始出现的多语种混合的语音识别任务上,科大讯飞也进行了技术上的新研究。 以中英混合输入为例,通过采用 code-switching 的方案,使中英文混合输入时,英文的准确性也达到了 90% 的水平。 目前,在混合语音识别场景下,科大讯飞已实现了中英粤等多种语言方言的混合输入技术。

刘聪表示,虽然通用的语音识别技术能力已经达到很高的水平,但在定制化的场景下,科大讯飞依然在进行语音识别中更细分的技术研发工作。 例如,在语音交互场景中,由于对识别实时性要求很高,模型需要根据设备进行嵌入式设计,这需要依赖专家知识,也耗费了很多研究者的精力。 随着近来 AutoML 技术的兴起,科大讯飞也在语音识别的网络架构搜索中使用了这项技术。 搜索出的架构类似于残差网路,相比业界主流的模型性能提升了 15% 以上。

基于听感量化的统一语音合成框架

在语音合成方面,科大讯飞也展示了其具有的技术实力。 首先,在 AI 新生态产品发布会开始时,特意让刘聪变声,使用主持人(女)的声音和主持人进行普通话、合肥话方言的互动 PK。 此外,发布活动中,科大讯飞将合成语音和电视台主持人的图像视频结合,让主持人开口唱 《我和我的祖国》 ,同时保证了话音一致。

这一技术的背后,离不开科大讯飞在语音合成方面进一步的积累探索。 据刘聪介绍,科大讯飞研发出了名为「基于听感量化的统一框架」,可以在语音合成过程中同时实现合成和声音的变化。 在模型中,其可以对各类输入语音的特征进行量化编码,提取诸如音色、音调、说话风格等方式的特征,使用编码对合成的语音进行控制。

由于单人语音合成对数据输入量要求很高,且鲁棒性相对不足,科大讯飞在模型中采用了 GAN 的架构。 这也是目前少见的,利用 GAN 解决语音合成问题的方案。

在今年的国际暴雪语音合成挑战赛上,科大讯飞合成了罗振宇的脱口秀声音,自然度分数达到 4.5,接近原声的 4.7。

机器翻译融入语音统一框架

机器翻译方面一直是科大讯飞的强项。 在过去的很多技术中,翻译的整体流程是: 针对每一种语言或方言,首先进行识别,然后再进行翻译。 在本次 1024 开发者节上,科大讯飞进一步介绍了在机器翻译领域的新工作。

具体而言,考虑到目前机器翻译需要针对不同的模型构建模型、需求数据量大、对标注要求高的问题,科大讯飞提出了一些解决方法。 首先,构建起一整套统一的建模方案,使得新的语言建模可以获得语言信息,降低了对数据的依赖。 其次,让翻译和语音识别、语言合成结合起来,构建端到端的模型,以便降低对数据标注要求的精度。 最后,使用半监督和迁移学习,减少对数据量的需求。

此外,在翻译任务本身,科大讯飞也提出了新的翻译模型,名为「融合领域知识的多通道半监督约束编解码翻译框架」。 这是一个针对语音输入进行机器翻译的模型,用于解决机器翻译任务中的三个难点。 首先,语音输入相比文本文字带有更多的说话人的信息,如声调高低、抑扬顿挫等。 如果将其转换为文字后再识别,无疑会失去这些有用的信息。 因此,在这一模型中,科大讯飞加入了多通道编码机制,将语音的序列、文本标签等多种信息和原始的机器翻译模型结合,使翻译文本有着更多的容错空间。

同时,由于机器翻译在长文本中的翻译水平不够理想,科大讯飞在研究中加入了语义分块的约束解码机制。 其中,语义分块用于加速翻译进程,而约束解码可以降低损失。 这使得翻译模型从简单的旅游口语对话翻译场景扩展到大型会议方面的场景上。

据悉,科大讯飞在与中国外文局科研测试中,其模型已全国翻译专业资格考试的二级交传口译和三级口译的水平测试。 这一技术预计将会在 2022 年的冬奥会上使用。

除了语音和机器翻译相关的技术突破,科大讯飞今年也进一步探索了其他的技术领域和任务,包括个性化推荐、机器阅读理解和 OCR 等。 在个性化推荐方面,科大讯飞将模型应用于教育领域,实现对学生学习能力的精准评估,并根据知识图谱等方式,为学生推荐个性化、定制化的教育方案。 在机器阅读理解方面,科大讯飞宣布其和哈工大共同研究的模型已经在 SQuAD 2.0 榜单上超过人类平均水平(以 F1 和 EM 分数评价)。 此外,科大讯飞开发了 OCR 相关的技术,可以在有很多图章、表格、文本符号的情况下识别文本内容。 这一研究已广泛应用于法院相关的工作,如卷宗和材料整理、证据链的电子化等。 该技术近日也和其他技术相结合,甚至可以提供证据材料的对比和瑕疵识别方面的服务。

使用带有语义分割能力的模型进行 OCR 识别。

助力开发者:讯飞平台进一步开放

在当天的技术发布会上,科大讯飞宣布了两个技术相关的平台开源计划,分别为归云平台和飞云平台。

归云平台主要是面向各类实际应用的开发者,为他们提供科大讯飞的各项技术能力,包括前述提到的各项语音识别、合成等。 更重要的是,归云平台可以让将多种能力进行组合,使用拖拽式的方式构建一个统一的业务管道。 例如,归云平台提供 OCR、语音合成、机器翻译三项能力,开发者可以将这些能力组合,形成一个首先识别文字,然后进行翻译,最后使用合成声音朗读的业务流程。 流程建立后,科大讯飞提供一个独有的 API 接口,开发者可直接调用,不需要关心内部的协议等实现细节。

此外,科大讯飞还提供了飞云平台,让开发者将开发好的模型和能力上传至云端,由飞云平台提供分布式计算和性能加速方面的服务。

AIoT 领域持续发力,语音专用芯片惊艳

在 1024 开发者节上,科大讯飞副总裁于继栋介绍了发布的 iFLYOS 平台的进展情况,以及一些新的产品。

iFLYOS 成为产品智能化入口

首先,于继栋介绍了 iFLYOS 对于科大讯飞的重要意义。 iFLYOS 通过集成科大讯飞各项 AI 能力,帮助企业在产品中获得这些能力,从而打造 AIoT 产品。

为了加快 AI 应用落地,iFLYOS 集成了多项新功能。 首先是 iFLYOS-studio,开发者可以在可视化界面中进行编程工作,并打造新的应用。 此外,iFLYOS 和集成了多种内容和技术,供开发者使用。 同时,iFLYOS 和硬件方面进行了打通,目前可以适配如 MT8516 等多种芯片硬件,使得在移动和嵌入式设备中部署模型更加方面。 此外,iFLYOS 还提供了公版模型。 开发者可使用这些模型,结合业务需要重新定制自身的产品。

随后,于继栋介绍了科大讯飞在多个领域中的技术应用情况,提到了智能家居、车载系统、儿童教育等方面的应用。 基于 iFLYOS,科大讯飞开源了多个相关应用场景的开发平台,如 iFLYOS-Auto、Athena Serving 等。

在应用开发方面,科大讯飞介绍了在开源方面的工作,其中包括 AI-Factory 和能力星云 2.0 计划。 AI-Factory 是一个 API 工厂,为开发者提供定制化优化算法的相关技术。 据于继栋介绍,在 2019 年年底之前,语音相关的技术能力便会登陆平台。 而在明年上半年则会增加计算机视觉、自然语言理解等方面的技术。 能力星云 2.0 则是 AI 全栈服务平台,通过引入研究者和开发者的方式创造更多的 AI 能力。

布局芯片,穹天科技浮出水面

在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。

于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。 在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。

科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。 据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。

从科大讯飞 1024 开发者节发布会上可以看到,尽管 AI 技术已日臻成熟,但如何在细分场景做到最好,如何进一步推进 AI 技术广泛应用仍是科大讯飞思考的问题。 随着其平台的逐步开放,与开发者和合作企业进行更紧密的交流互动,推进 AI 整体生态的建设,无疑是下一步前进的方向。

第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。

参选报名日期: 2019 年 10 月 23 日~2019 年 12 月 15 日评审期: 2019 年 12 月 16 日~2019 年 12 月 31 日奖项公布: 2020 年 1 月

机器之心报道

作者:一鸣、蛋酱

1024 作为程序员的节日被世人所知, 而科大讯飞也会在每年这个时候举办开发者节日和相关活动。 在今年的开发者节上,科大讯飞发布了更多关于平台,产品和技术方面的信息。

昨日,科大讯飞 1024 全球开发者节在合肥开幕。 本届开发者节的大会上,科大讯飞表示了继续开源,赋能企业和百万开发者的决心,并在技术和产品生态发布会上展示了多项新技术和产品。

在开幕致辞中,科大讯飞董事长刘庆峰与大家分享了科大讯飞在 20 年创业经验中,对人工智能未来发展的预判和感悟。

他表示,人工智能到底处于什么样的发展阶段,要基于三个标准去判断: 人工智能不再只是个「概念」,要有看得见、摸得着的应用案例; 这些案例能不能规模化推广; 有没有统计数据可以证明应用效果。

2019 年,各行各业不断涌现的 AI 应用落地足以证明,人工智能的红利阶段已经到来。 刘庆峰在演讲中列举了科大讯飞在 AI 领域的应用落地。

比如在教育方面,人工智能让教育者有效缩短批卷时间,对学生的训练时间可以减少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以实现; 在医疗方面,人工智能可以将诊断水平提升到 90 分,提高诊断效率,让高端优质的医疗专家资源向重大疑难疾病倾斜。

刘庆峰强调,种种人工智能落地应用说明,AI 发展并非只是烧钱的玩具,人工智能可以解决人类的很多刚需问题。

不断升级, 《1024 计划》 进入 3.0 时代

自 2017 年首届全球 1024 开发者节正式推出 《1024 计划》 以后,科大讯飞一直在从 A.I. 教引、A.I. 生态、A.I. 公益三个方面,辅导、赋能开发者,关注公益事业。

作为 1024 开发者大会的重要环节之一,科大讯飞轮值总裁胡郁发布了全新升级的 《1024 计划》 。 他表示: 「科大讯飞将继续坚定实行,共同打造去中心化的商业生态体系,通过 A.I. Agent 与各产业领域深度结合共同构建属于不同领域生态的 Keystones。 」

在今年的版本中,A.I. 教引计划、A.I. 生态计划、A.I. 公益计划分别升级到了 3.0 版本,希望能够实现辅导、赋能开发者的初衷,同时更加关注公益事业。

始于两年前的 1024 计划,科大讯飞正在进一步细化计划内容,使其变得更为开放多元。 在 1024 的发布会上,胡郁公布了一组数据: A.I. 大学逐渐发展成为国内首个最大的 A.I. 在线学习平台,目前已拥有超过 31 万学员; A.I. 生态计划形成了能力星云、iFLYOS A.I.oT、解决方案三大生态产品矩阵,目前亦吸引了 160 万生态伙伴入驻; A.I. 公益的方言保护计划则吸引 700 万人参与,科大讯飞还为助残应用免费提供技术支持,赋能残障者与世界无障碍沟通。

胡郁表示,1024 计划的最终目的是为了打造去中心化的混合正交商业生态系统,形成围绕 AI 技术和应用的商业体系。

语音领域仍有惊喜,新技术持续突破

今年的 1024 开发者节现场,科大讯飞着重进行了多项新技术展示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)等和开放平台板块。 科大讯飞研究院常务副院长刘聪介绍了科大讯飞在技术方面的主要突破。

记忆增强的多通道全端到端语音识别框架

在语音识别领域,科大讯飞虽然已经积累了成熟的技术经验,但仍进一步探索提升语音识别技术的准确性和可靠性。 在语音识别中,考虑到过去的识别需要首先收音,然后进行降噪处理再进行识别的方式较为复杂,且管道式的流程降低识别准确率的问题,今年的科大讯飞开发了名为「记忆增强的多通道全端到端语音识别框架」,这是一种完全将前端语音处理过程深度学习化,使用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别的算法。 具体而言,该算法采用 Encoder-Decoder 的架构,使用深层次卷积和后端识别模型进行混合训练,使得神经网络可以收音后进行前端信号处理和后端识别工作。

此外,由于深度学习模型对长尾数据建模不够理想,科大讯飞在该模型中引入了外部知识。 例如,系统可以记录下不同语种的热词,在语音识别的过程中让模型进行调用,从而矫正识别过程中的问题。 目前,科大讯飞在通用语音识别任务上的准确率已达到 98%。

在最近开始出现的多语种混合的语音识别任务上,科大讯飞也进行了技术上的新研究。 以中英混合输入为例,通过采用 code-switching 的方案,使中英文混合输入时,英文的准确性也达到了 90% 的水平。 目前,在混合语音识别场景下,科大讯飞已实现了中英粤等多种语言方言的混合输入技术。

刘聪表示,虽然通用的语音识别技术能力已经达到很高的水平,但在定制化的场景下,科大讯飞依然在进行语音识别中更细分的技术研发工作。 例如,在语音交互场景中,由于对识别实时性要求很高,模型需要根据设备进行嵌入式设计,这需要依赖专家知识,也耗费了很多研究者的精力。 随着近来 AutoML 技术的兴起,科大讯飞也在语音识别的网络架构搜索中使用了这项技术。 搜索出的架构类似于残差网路,相比业界主流的模型性能提升了 15% 以上。

基于听感量化的统一语音合成框架

在语音合成方面,科大讯飞也展示了其具有的技术实力。 首先,在 AI 新生态产品发布会开始时,特意让刘聪变声,使用主持人(女)的声音和主持人进行普通话、合肥话方言的互动 PK。 此外,发布活动中,科大讯飞将合成语音和电视台主持人的图像视频结合,让主持人开口唱 《我和我的祖国》 ,同时保证了话音一致。

这一技术的背后,离不开科大讯飞在语音合成方面进一步的积累探索。 据刘聪介绍,科大讯飞研发出了名为「基于听感量化的统一框架」,可以在语音合成过程中同时实现合成和声音的变化。 在模型中,其可以对各类输入语音的特征进行量化编码,提取诸如音色、音调、说话风格等方式的特征,使用编码对合成的语音进行控制。

由于单人语音合成对数据输入量要求很高,且鲁棒性相对不足,科大讯飞在模型中采用了 GAN 的架构。 这也是目前少见的,利用 GAN 解决语音合成问题的方案。

在今年的国际暴雪语音合成挑战赛上,科大讯飞合成了罗振宇的脱口秀声音,自然度分数达到 4.5,接近原声的 4.7。

机器翻译融入语音统一框架

机器翻译方面一直是科大讯飞的强项。 在过去的很多技术中,翻译的整体流程是: 针对每一种语言或方言,首先进行识别,然后再进行翻译。 在本次 1024 开发者节上,科大讯飞进一步介绍了在机器翻译领域的新工作。

具体而言,考虑到目前机器翻译需要针对不同的模型构建模型、需求数据量大、对标注要求高的问题,科大讯飞提出了一些解决方法。 首先,构建起一整套统一的建模方案,使得新的语言建模可以获得语言信息,降低了对数据的依赖。 其次,让翻译和语音识别、语言合成结合起来,构建端到端的模型,以便降低对数据标注要求的精度。 最后,使用半监督和迁移学习,减少对数据量的需求。

此外,在翻译任务本身,科大讯飞也提出了新的翻译模型,名为「融合领域知识的多通道半监督约束编解码翻译框架」。 这是一个针对语音输入进行机器翻译的模型,用于解决机器翻译任务中的三个难点。 首先,语音输入相比文本文字带有更多的说话人的信息,如声调高低、抑扬顿挫等。 如果将其转换为文字后再识别,无疑会失去这些有用的信息。 因此,在这一模型中,科大讯飞加入了多通道编码机制,将语音的序列、文本标签等多种信息和原始的机器翻译模型结合,使翻译文本有着更多的容错空间。

同时,由于机器翻译在长文本中的翻译水平不够理想,科大讯飞在研究中加入了语义分块的约束解码机制。 其中,语义分块用于加速翻译进程,而约束解码可以降低损失。 这使得翻译模型从简单的旅游口语对话翻译场景扩展到大型会议方面的场景上。

据悉,科大讯飞在与中国外文局科研测试中,其模型已全国翻译专业资格考试的二级交传口译和三级口译的水平测试。 这一技术预计将会在 2022 年的冬奥会上使用。

除了语音和机器翻译相关的技术突破,科大讯飞今年也进一步探索了其他的技术领域和任务,包括个性化推荐、机器阅读理解和 OCR 等。 在个性化推荐方面,科大讯飞将模型应用于教育领域,实现对学生学习能力的精准评估,并根据知识图谱等方式,为学生推荐个性化、定制化的教育方案。 在机器阅读理解方面,科大讯飞宣布其和哈工大共同研究的模型已经在 SQuAD 2.0 榜单上超过人类平均水平(以 F1 和 EM 分数评价)。 此外,科大讯飞开发了 OCR 相关的技术,可以在有很多图章、表格、文本符号的情况下识别文本内容。 这一研究已广泛应用于法院相关的工作,如卷宗和材料整理、证据链的电子化等。 该技术近日也和其他技术相结合,甚至可以提供证据材料的对比和瑕疵识别方面的服务。

使用带有语义分割能力的模型进行 OCR 识别。

助力开发者:讯飞平台进一步开放

在当天的技术发布会上,科大讯飞宣布了两个技术相关的平台开源计划,分别为归云平台和飞云平台。

归云平台主要是面向各类实际应用的开发者,为他们提供科大讯飞的各项技术能力,包括前述提到的各项语音识别、合成等。 更重要的是,归云平台可以让将多种能力进行组合,使用拖拽式的方式构建一个统一的业务管道。 例如,归云平台提供 OCR、语音合成、机器翻译三项能力,开发者可以将这些能力组合,形成一个首先识别文字,然后进行翻译,最后使用合成声音朗读的业务流程。 流程建立后,科大讯飞提供一个独有的 API 接口,开发者可直接调用,不需要关心内部的协议等实现细节。

此外,科大讯飞还提供了飞云平台,让开发者将开发好的模型和能力上传至云端,由飞云平台提供分布式计算和性能加速方面的服务。

AIoT 领域持续发力,语音专用芯片惊艳

在 1024 开发者节上,科大讯飞副总裁于继栋介绍了发布的 iFLYOS 平台的进展情况,以及一些新的产品。

iFLYOS 成为产品智能化入口

首先,于继栋介绍了 iFLYOS 对于科大讯飞的重要意义。 iFLYOS 通过集成科大讯飞各项 AI 能力,帮助企业在产品中获得这些能力,从而打造 AIoT 产品。

为了加快 AI 应用落地,iFLYOS 集成了多项新功能。 首先是 iFLYOS-studio,开发者可以在可视化界面中进行编程工作,并打造新的应用。 此外,iFLYOS 和集成了多种内容和技术,供开发者使用。 同时,iFLYOS 和硬件方面进行了打通,目前可以适配如 MT8516 等多种芯片硬件,使得在移动和嵌入式设备中部署模型更加方面。 此外,iFLYOS 还提供了公版模型。 开发者可使用这些模型,结合业务需要重新定制自身的产品。

随后,于继栋介绍了科大讯飞在多个领域中的技术应用情况,提到了智能家居、车载系统、儿童教育等方面的应用。 基于 iFLYOS,科大讯飞开源了多个相关应用场景的开发平台,如 iFLYOS-Auto、Athena Serving 等。

在应用开发方面,科大讯飞介绍了在开源方面的工作,其中包括 AI-Factory 和能力星云 2.0 计划。 AI-Factory 是一个 API 工厂,为开发者提供定制化优化算法的相关技术。 据于继栋介绍,在 2019 年年底之前,语音相关的技术能力便会登陆平台。 而在明年上半年则会增加计算机视觉、自然语言理解等方面的技术。 能力星云 2.0 则是 AI 全栈服务平台,通过引入研究者和开发者的方式创造更多的 AI 能力。

布局芯片,穹天科技浮出水面

在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。

于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。 在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。

科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。 据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。

从科大讯飞 1024 开发者节发布会上可以看到,尽管 AI 技术已日臻成熟,但如何在细分场景做到最好,如何进一步推进 AI 技术广泛应用仍是科大讯飞思考的问题。 随着其平台的逐步开放,与开发者和合作企业进行更紧密的交流互动,推进 AI 整体生态的建设,无疑是下一步前进的方向。

第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。

参选报名日期: 2019 年 10 月 23 日~2019 年 12 月 15 日评审期: 2019 年 12 月 16 日~2019 年 12 月 31 日奖项公布: 2020 年 1 月

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。

跟贴

跟贴

0

参与

0

阅读下一篇

国庆节后, 300座城市卖地收入出炉, 房奴们看了泪流满面

返回网易首页

下载网易新闻客户端

机器之心报道

作者:一鸣、蛋酱

1024 作为程序员的节日被世人所知, 而科大讯飞也会在每年这个时候举办开发者节日和相关活动。 在今年的开发者节上,科大讯飞发布了更多关于平台,产品和技术方面的信息。

昨日,科大讯飞 1024 全球开发者节在合肥开幕。 本届开发者节的大会上,科大讯飞表示了继续开源,赋能企业和百万开发者的决心,并在技术和产品生态发布会上展示了多项新技术和产品。

在开幕致辞中,科大讯飞董事长刘庆峰与大家分享了科大讯飞在 20 年创业经验中,对人工智能未来发展的预判和感悟。

他表示,人工智能到底处于什么样的发展阶段,要基于三个标准去判断: 人工智能不再只是个「概念」,要有看得见、摸得着的应用案例; 这些案例能不能规模化推广; 有没有统计数据可以证明应用效果。

2019 年,各行各业不断涌现的 AI 应用落地足以证明,人工智能的红利阶段已经到来。 刘庆峰在演讲中列举了科大讯飞在 AI 领域的应用落地。

比如在教育方面,人工智能让教育者有效缩短批卷时间,对学生的训练时间可以减少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以实现; 在医疗方面,人工智能可以将诊断水平提升到 90 分,提高诊断效率,让高端优质的医疗专家资源向重大疑难疾病倾斜。

刘庆峰强调,种种人工智能落地应用说明,AI 发展并非只是烧钱的玩具,人工智能可以解决人类的很多刚需问题。

不断升级, 《1024 计划》 进入 3.0 时代

自 2017 年首届全球 1024 开发者节正式推出 《1024 计划》 以后,科大讯飞一直在从 A.I. 教引、A.I. 生态、A.I. 公益三个方面,辅导、赋能开发者,关注公益事业。

作为 1024 开发者大会的重要环节之一,科大讯飞轮值总裁胡郁发布了全新升级的 《1024 计划》 。 他表示: 「科大讯飞将继续坚定实行,共同打造去中心化的商业生态体系,通过 A.I. Agent 与各产业领域深度结合共同构建属于不同领域生态的 Keystones。 」

在今年的版本中,A.I. 教引计划、A.I. 生态计划、A.I. 公益计划分别升级到了 3.0 版本,希望能够实现辅导、赋能开发者的初衷,同时更加关注公益事业。

始于两年前的 1024 计划,科大讯飞正在进一步细化计划内容,使其变得更为开放多元。 在 1024 的发布会上,胡郁公布了一组数据: A.I. 大学逐渐发展成为国内首个最大的 A.I. 在线学习平台,目前已拥有超过 31 万学员; A.I. 生态计划形成了能力星云、iFLYOS A.I.oT、解决方案三大生态产品矩阵,目前亦吸引了 160 万生态伙伴入驻; A.I. 公益的方言保护计划则吸引 700 万人参与,科大讯飞还为助残应用免费提供技术支持,赋能残障者与世界无障碍沟通。

胡郁表示,1024 计划的最终目的是为了打造去中心化的混合正交商业生态系统,形成围绕 AI 技术和应用的商业体系。

语音领域仍有惊喜,新技术持续突破

今年的 1024 开发者节现场,科大讯飞着重进行了多项新技术展示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)等和开放平台板块。 科大讯飞研究院常务副院长刘聪介绍了科大讯飞在技术方面的主要突破。

记忆增强的多通道全端到端语音识别框架

在语音识别领域,科大讯飞虽然已经积累了成熟的技术经验,但仍进一步探索提升语音识别技术的准确性和可靠性。 在语音识别中,考虑到过去的识别需要首先收音,然后进行降噪处理再进行识别的方式较为复杂,且管道式的流程降低识别准确率的问题,今年的科大讯飞开发了名为「记忆增强的多通道全端到端语音识别框架」,这是一种完全将前端语音处理过程深度学习化,使用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别的算法。 具体而言,该算法采用 Encoder-Decoder 的架构,使用深层次卷积和后端识别模型进行混合训练,使得神经网络可以收音后进行前端信号处理和后端识别工作。

此外,由于深度学习模型对长尾数据建模不够理想,科大讯飞在该模型中引入了外部知识。 例如,系统可以记录下不同语种的热词,在语音识别的过程中让模型进行调用,从而矫正识别过程中的问题。 目前,科大讯飞在通用语音识别任务上的准确率已达到 98%。

在最近开始出现的多语种混合的语音识别任务上,科大讯飞也进行了技术上的新研究。 以中英混合输入为例,通过采用 code-switching 的方案,使中英文混合输入时,英文的准确性也达到了 90% 的水平。 目前,在混合语音识别场景下,科大讯飞已实现了中英粤等多种语言方言的混合输入技术。

刘聪表示,虽然通用的语音识别技术能力已经达到很高的水平,但在定制化的场景下,科大讯飞依然在进行语音识别中更细分的技术研发工作。 例如,在语音交互场景中,由于对识别实时性要求很高,模型需要根据设备进行嵌入式设计,这需要依赖专家知识,也耗费了很多研究者的精力。 随着近来 AutoML 技术的兴起,科大讯飞也在语音识别的网络架构搜索中使用了这项技术。 搜索出的架构类似于残差网路,相比业界主流的模型性能提升了 15% 以上。

基于听感量化的统一语音合成框架

在语音合成方面,科大讯飞也展示了其具有的技术实力。 首先,在 AI 新生态产品发布会开始时,特意让刘聪变声,使用主持人(女)的声音和主持人进行普通话、合肥话方言的互动 PK。 此外,发布活动中,科大讯飞将合成语音和电视台主持人的图像视频结合,让主持人开口唱 《我和我的祖国》 ,同时保证了话音一致。

这一技术的背后,离不开科大讯飞在语音合成方面进一步的积累探索。 据刘聪介绍,科大讯飞研发出了名为「基于听感量化的统一框架」,可以在语音合成过程中同时实现合成和声音的变化。 在模型中,其可以对各类输入语音的特征进行量化编码,提取诸如音色、音调、说话风格等方式的特征,使用编码对合成的语音进行控制。

由于单人语音合成对数据输入量要求很高,且鲁棒性相对不足,科大讯飞在模型中采用了 GAN 的架构。 这也是目前少见的,利用 GAN 解决语音合成问题的方案。

在今年的国际暴雪语音合成挑战赛上,科大讯飞合成了罗振宇的脱口秀声音,自然度分数达到 4.5,接近原声的 4.7。

机器翻译融入语音统一框架

机器翻译方面一直是科大讯飞的强项。 在过去的很多技术中,翻译的整体流程是: 针对每一种语言或方言,首先进行识别,然后再进行翻译。 在本次 1024 开发者节上,科大讯飞进一步介绍了在机器翻译领域的新工作。

具体而言,考虑到目前机器翻译需要针对不同的模型构建模型、需求数据量大、对标注要求高的问题,科大讯飞提出了一些解决方法。 首先,构建起一整套统一的建模方案,使得新的语言建模可以获得语言信息,降低了对数据的依赖。 其次,让翻译和语音识别、语言合成结合起来,构建端到端的模型,以便降低对数据标注要求的精度。 最后,使用半监督和迁移学习,减少对数据量的需求。

此外,在翻译任务本身,科大讯飞也提出了新的翻译模型,名为「融合领域知识的多通道半监督约束编解码翻译框架」。 这是一个针对语音输入进行机器翻译的模型,用于解决机器翻译任务中的三个难点。 首先,语音输入相比文本文字带有更多的说话人的信息,如声调高低、抑扬顿挫等。 如果将其转换为文字后再识别,无疑会失去这些有用的信息。 因此,在这一模型中,科大讯飞加入了多通道编码机制,将语音的序列、文本标签等多种信息和原始的机器翻译模型结合,使翻译文本有着更多的容错空间。

同时,由于机器翻译在长文本中的翻译水平不够理想,科大讯飞在研究中加入了语义分块的约束解码机制。 其中,语义分块用于加速翻译进程,而约束解码可以降低损失。 这使得翻译模型从简单的旅游口语对话翻译场景扩展到大型会议方面的场景上。

据悉,科大讯飞在与中国外文局科研测试中,其模型已全国翻译专业资格考试的二级交传口译和三级口译的水平测试。 这一技术预计将会在 2022 年的冬奥会上使用。

除了语音和机器翻译相关的技术突破,科大讯飞今年也进一步探索了其他的技术领域和任务,包括个性化推荐、机器阅读理解和 OCR 等。 在个性化推荐方面,科大讯飞将模型应用于教育领域,实现对学生学习能力的精准评估,并根据知识图谱等方式,为学生推荐个性化、定制化的教育方案。 在机器阅读理解方面,科大讯飞宣布其和哈工大共同研究的模型已经在 SQuAD 2.0 榜单上超过人类平均水平(以 F1 和 EM 分数评价)。 此外,科大讯飞开发了 OCR 相关的技术,可以在有很多图章、表格、文本符号的情况下识别文本内容。 这一研究已广泛应用于法院相关的工作,如卷宗和材料整理、证据链的电子化等。 该技术近日也和其他技术相结合,甚至可以提供证据材料的对比和瑕疵识别方面的服务。

使用带有语义分割能力的模型进行 OCR 识别。

助力开发者:讯飞平台进一步开放

在当天的技术发布会上,科大讯飞宣布了两个技术相关的平台开源计划,分别为归云平台和飞云平台。

归云平台主要是面向各类实际应用的开发者,为他们提供科大讯飞的各项技术能力,包括前述提到的各项语音识别、合成等。 更重要的是,归云平台可以让将多种能力进行组合,使用拖拽式的方式构建一个统一的业务管道。 例如,归云平台提供 OCR、语音合成、机器翻译三项能力,开发者可以将这些能力组合,形成一个首先识别文字,然后进行翻译,最后使用合成声音朗读的业务流程。 流程建立后,科大讯飞提供一个独有的 API 接口,开发者可直接调用,不需要关心内部的协议等实现细节。

此外,科大讯飞还提供了飞云平台,让开发者将开发好的模型和能力上传至云端,由飞云平台提供分布式计算和性能加速方面的服务。

AIoT 领域持续发力,语音专用芯片惊艳

在 1024 开发者节上,科大讯飞副总裁于继栋介绍了发布的 iFLYOS 平台的进展情况,以及一些新的产品。

iFLYOS 成为产品智能化入口

首先,于继栋介绍了 iFLYOS 对于科大讯飞的重要意义。 iFLYOS 通过集成科大讯飞各项 AI 能力,帮助企业在产品中获得这些能力,从而打造 AIoT 产品。

为了加快 AI 应用落地,iFLYOS 集成了多项新功能。 首先是 iFLYOS-studio,开发者可以在可视化界面中进行编程工作,并打造新的应用。 此外,iFLYOS 和集成了多种内容和技术,供开发者使用。 同时,iFLYOS 和硬件方面进行了打通,目前可以适配如 MT8516 等多种芯片硬件,使得在移动和嵌入式设备中部署模型更加方面。 此外,iFLYOS 还提供了公版模型。 开发者可使用这些模型,结合业务需要重新定制自身的产品。

随后,于继栋介绍了科大讯飞在多个领域中的技术应用情况,提到了智能家居、车载系统、儿童教育等方面的应用。 基于 iFLYOS,科大讯飞开源了多个相关应用场景的开发平台,如 iFLYOS-Auto、Athena Serving 等。

在应用开发方面,科大讯飞介绍了在开源方面的工作,其中包括 AI-Factory 和能力星云 2.0 计划。 AI-Factory 是一个 API 工厂,为开发者提供定制化优化算法的相关技术。 据于继栋介绍,在 2019 年年底之前,语音相关的技术能力便会登陆平台。 而在明年上半年则会增加计算机视觉、自然语言理解等方面的技术。 能力星云 2.0 则是 AI 全栈服务平台,通过引入研究者和开发者的方式创造更多的 AI 能力。

布局芯片,穹天科技浮出水面

在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。

于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。 在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。

科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。 据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。

从科大讯飞 1024 开发者节发布会上可以看到,尽管 AI 技术已日臻成熟,但如何在细分场景做到最好,如何进一步推进 AI 技术广泛应用仍是科大讯飞思考的问题。 随着其平台的逐步开放,与开发者和合作企业进行更紧密的交流互动,推进 AI 整体生态的建设,无疑是下一步前进的方向。

第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。

参选报名日期: 2019 年 10 月 23 日~2019 年 12 月 15 日评审期: 2019 年 12 月 16 日~2019 年 12 月 31 日奖项公布: 2020 年 1 月

机器之心报道

作者:一鸣、蛋酱

1024 作为程序员的节日被世人所知, 而科大讯飞也会在每年这个时候举办开发者节日和相关活动。 在今年的开发者节上,科大讯飞发布了更多关于平台,产品和技术方面的信息。

昨日,科大讯飞 1024 全球开发者节在合肥开幕。 本届开发者节的大会上,科大讯飞表示了继续开源,赋能企业和百万开发者的决心,并在技术和产品生态发布会上展示了多项新技术和产品。

在开幕致辞中,科大讯飞董事长刘庆峰与大家分享了科大讯飞在 20 年创业经验中,对人工智能未来发展的预判和感悟。

他表示,人工智能到底处于什么样的发展阶段,要基于三个标准去判断: 人工智能不再只是个「概念」,要有看得见、摸得着的应用案例; 这些案例能不能规模化推广; 有没有统计数据可以证明应用效果。

2019 年,各行各业不断涌现的 AI 应用落地足以证明,人工智能的红利阶段已经到来。 刘庆峰在演讲中列举了科大讯飞在 AI 领域的应用落地。

比如在教育方面,人工智能让教育者有效缩短批卷时间,对学生的训练时间可以减少 50%,因此孔子在 2000 多年前提出的「因材施教」才真正得以实现; 在医疗方面,人工智能可以将诊断水平提升到 90 分,提高诊断效率,让高端优质的医疗专家资源向重大疑难疾病倾斜。

刘庆峰强调,种种人工智能落地应用说明,AI 发展并非只是烧钱的玩具,人工智能可以解决人类的很多刚需问题。

不断升级, 《1024 计划》 进入 3.0 时代

自 2017 年首届全球 1024 开发者节正式推出 《1024 计划》 以后,科大讯飞一直在从 A.I. 教引、A.I. 生态、A.I. 公益三个方面,辅导、赋能开发者,关注公益事业。

作为 1024 开发者大会的重要环节之一,科大讯飞轮值总裁胡郁发布了全新升级的 《1024 计划》 。 他表示: 「科大讯飞将继续坚定实行,共同打造去中心化的商业生态体系,通过 A.I. Agent 与各产业领域深度结合共同构建属于不同领域生态的 Keystones。 」

在今年的版本中,A.I. 教引计划、A.I. 生态计划、A.I. 公益计划分别升级到了 3.0 版本,希望能够实现辅导、赋能开发者的初衷,同时更加关注公益事业。

始于两年前的 1024 计划,科大讯飞正在进一步细化计划内容,使其变得更为开放多元。 在 1024 的发布会上,胡郁公布了一组数据: A.I. 大学逐渐发展成为国内首个最大的 A.I. 在线学习平台,目前已拥有超过 31 万学员; A.I. 生态计划形成了能力星云、iFLYOS A.I.oT、解决方案三大生态产品矩阵,目前亦吸引了 160 万生态伙伴入驻; A.I. 公益的方言保护计划则吸引 700 万人参与,科大讯飞还为助残应用免费提供技术支持,赋能残障者与世界无障碍沟通。

胡郁表示,1024 计划的最终目的是为了打造去中心化的混合正交商业生态系统,形成围绕 AI 技术和应用的商业体系。

语音领域仍有惊喜,新技术持续突破

今年的 1024 开发者节现场,科大讯飞着重进行了多项新技术展示,主要分为语音(语音识别、语音合成)、自然语言处理(机器翻译)等和开放平台板块。 科大讯飞研究院常务副院长刘聪介绍了科大讯飞在技术方面的主要突破。

记忆增强的多通道全端到端语音识别框架

在语音识别领域,科大讯飞虽然已经积累了成熟的技术经验,但仍进一步探索提升语音识别技术的准确性和可靠性。 在语音识别中,考虑到过去的识别需要首先收音,然后进行降噪处理再进行识别的方式较为复杂,且管道式的流程降低识别准确率的问题,今年的科大讯飞开发了名为「记忆增强的多通道全端到端语音识别框架」,这是一种完全将前端语音处理过程深度学习化,使用深度卷积神经网络和后端识别模型进行混合训练,进行直接语音识别的算法。 具体而言,该算法采用 Encoder-Decoder 的架构,使用深层次卷积和后端识别模型进行混合训练,使得神经网络可以收音后进行前端信号处理和后端识别工作。

此外,由于深度学习模型对长尾数据建模不够理想,科大讯飞在该模型中引入了外部知识。 例如,系统可以记录下不同语种的热词,在语音识别的过程中让模型进行调用,从而矫正识别过程中的问题。 目前,科大讯飞在通用语音识别任务上的准确率已达到 98%。

在最近开始出现的多语种混合的语音识别任务上,科大讯飞也进行了技术上的新研究。 以中英混合输入为例,通过采用 code-switching 的方案,使中英文混合输入时,英文的准确性也达到了 90% 的水平。 目前,在混合语音识别场景下,科大讯飞已实现了中英粤等多种语言方言的混合输入技术。

刘聪表示,虽然通用的语音识别技术能力已经达到很高的水平,但在定制化的场景下,科大讯飞依然在进行语音识别中更细分的技术研发工作。 例如,在语音交互场景中,由于对识别实时性要求很高,模型需要根据设备进行嵌入式设计,这需要依赖专家知识,也耗费了很多研究者的精力。 随着近来 AutoML 技术的兴起,科大讯飞也在语音识别的网络架构搜索中使用了这项技术。 搜索出的架构类似于残差网路,相比业界主流的模型性能提升了 15% 以上。

基于听感量化的统一语音合成框架

在语音合成方面,科大讯飞也展示了其具有的技术实力。 首先,在 AI 新生态产品发布会开始时,特意让刘聪变声,使用主持人(女)的声音和主持人进行普通话、合肥话方言的互动 PK。 此外,发布活动中,科大讯飞将合成语音和电视台主持人的图像视频结合,让主持人开口唱 《我和我的祖国》 ,同时保证了话音一致。

这一技术的背后,离不开科大讯飞在语音合成方面进一步的积累探索。 据刘聪介绍,科大讯飞研发出了名为「基于听感量化的统一框架」,可以在语音合成过程中同时实现合成和声音的变化。 在模型中,其可以对各类输入语音的特征进行量化编码,提取诸如音色、音调、说话风格等方式的特征,使用编码对合成的语音进行控制。

由于单人语音合成对数据输入量要求很高,且鲁棒性相对不足,科大讯飞在模型中采用了 GAN 的架构。 这也是目前少见的,利用 GAN 解决语音合成问题的方案。

在今年的国际暴雪语音合成挑战赛上,科大讯飞合成了罗振宇的脱口秀声音,自然度分数达到 4.5,接近原声的 4.7。

机器翻译融入语音统一框架

机器翻译方面一直是科大讯飞的强项。 在过去的很多技术中,翻译的整体流程是: 针对每一种语言或方言,首先进行识别,然后再进行翻译。 在本次 1024 开发者节上,科大讯飞进一步介绍了在机器翻译领域的新工作。

具体而言,考虑到目前机器翻译需要针对不同的模型构建模型、需求数据量大、对标注要求高的问题,科大讯飞提出了一些解决方法。 首先,构建起一整套统一的建模方案,使得新的语言建模可以获得语言信息,降低了对数据的依赖。 其次,让翻译和语音识别、语言合成结合起来,构建端到端的模型,以便降低对数据标注要求的精度。 最后,使用半监督和迁移学习,减少对数据量的需求。

此外,在翻译任务本身,科大讯飞也提出了新的翻译模型,名为「融合领域知识的多通道半监督约束编解码翻译框架」。 这是一个针对语音输入进行机器翻译的模型,用于解决机器翻译任务中的三个难点。 首先,语音输入相比文本文字带有更多的说话人的信息,如声调高低、抑扬顿挫等。 如果将其转换为文字后再识别,无疑会失去这些有用的信息。 因此,在这一模型中,科大讯飞加入了多通道编码机制,将语音的序列、文本标签等多种信息和原始的机器翻译模型结合,使翻译文本有着更多的容错空间。

同时,由于机器翻译在长文本中的翻译水平不够理想,科大讯飞在研究中加入了语义分块的约束解码机制。 其中,语义分块用于加速翻译进程,而约束解码可以降低损失。 这使得翻译模型从简单的旅游口语对话翻译场景扩展到大型会议方面的场景上。

据悉,科大讯飞在与中国外文局科研测试中,其模型已全国翻译专业资格考试的二级交传口译和三级口译的水平测试。 这一技术预计将会在 2022 年的冬奥会上使用。

除了语音和机器翻译相关的技术突破,科大讯飞今年也进一步探索了其他的技术领域和任务,包括个性化推荐、机器阅读理解和 OCR 等。 在个性化推荐方面,科大讯飞将模型应用于教育领域,实现对学生学习能力的精准评估,并根据知识图谱等方式,为学生推荐个性化、定制化的教育方案。 在机器阅读理解方面,科大讯飞宣布其和哈工大共同研究的模型已经在 SQuAD 2.0 榜单上超过人类平均水平(以 F1 和 EM 分数评价)。 此外,科大讯飞开发了 OCR 相关的技术,可以在有很多图章、表格、文本符号的情况下识别文本内容。 这一研究已广泛应用于法院相关的工作,如卷宗和材料整理、证据链的电子化等。 该技术近日也和其他技术相结合,甚至可以提供证据材料的对比和瑕疵识别方面的服务。

使用带有语义分割能力的模型进行 OCR 识别。

助力开发者:讯飞平台进一步开放

在当天的技术发布会上,科大讯飞宣布了两个技术相关的平台开源计划,分别为归云平台和飞云平台。

归云平台主要是面向各类实际应用的开发者,为他们提供科大讯飞的各项技术能力,包括前述提到的各项语音识别、合成等。 更重要的是,归云平台可以让将多种能力进行组合,使用拖拽式的方式构建一个统一的业务管道。 例如,归云平台提供 OCR、语音合成、机器翻译三项能力,开发者可以将这些能力组合,形成一个首先识别文字,然后进行翻译,最后使用合成声音朗读的业务流程。 流程建立后,科大讯飞提供一个独有的 API 接口,开发者可直接调用,不需要关心内部的协议等实现细节。

此外,科大讯飞还提供了飞云平台,让开发者将开发好的模型和能力上传至云端,由飞云平台提供分布式计算和性能加速方面的服务。

AIoT 领域持续发力,语音专用芯片惊艳

在 1024 开发者节上,科大讯飞副总裁于继栋介绍了发布的 iFLYOS 平台的进展情况,以及一些新的产品。

iFLYOS 成为产品智能化入口

首先,于继栋介绍了 iFLYOS 对于科大讯飞的重要意义。 iFLYOS 通过集成科大讯飞各项 AI 能力,帮助企业在产品中获得这些能力,从而打造 AIoT 产品。

为了加快 AI 应用落地,iFLYOS 集成了多项新功能。 首先是 iFLYOS-studio,开发者可以在可视化界面中进行编程工作,并打造新的应用。 此外,iFLYOS 和集成了多种内容和技术,供开发者使用。 同时,iFLYOS 和硬件方面进行了打通,目前可以适配如 MT8516 等多种芯片硬件,使得在移动和嵌入式设备中部署模型更加方面。 此外,iFLYOS 还提供了公版模型。 开发者可使用这些模型,结合业务需要重新定制自身的产品。

随后,于继栋介绍了科大讯飞在多个领域中的技术应用情况,提到了智能家居、车载系统、儿童教育等方面的应用。 基于 iFLYOS,科大讯飞开源了多个相关应用场景的开发平台,如 iFLYOS-Auto、Athena Serving 等。

在应用开发方面,科大讯飞介绍了在开源方面的工作,其中包括 AI-Factory 和能力星云 2.0 计划。 AI-Factory 是一个 API 工厂,为开发者提供定制化优化算法的相关技术。 据于继栋介绍,在 2019 年年底之前,语音相关的技术能力便会登陆平台。 而在明年上半年则会增加计算机视觉、自然语言理解等方面的技术。 能力星云 2.0 则是 AI 全栈服务平台,通过引入研究者和开发者的方式创造更多的 AI 能力。

布局芯片,穹天科技浮出水面

在 AI 生态产品发布环节,科大讯飞集团副总裁、消费者 BG 副总裁于继栋正式发布了联合生态合作伙伴打造的家电行业专用语音芯片 CSK400X 系列。

于继栋表示,AIoT 已经成为科大讯飞的核心战略之一。 在 AIoT 时代,智能硬件市场对芯片的算力提出了更高的需求,但从芯片市场的现状来看,高算力与价格往往难以取得平衡,而且芯片与算法的适配难度比较高,MCU 也常常并非针对神经网络而设计。

科大讯飞与生态合作伙伴穹天科技根据讯飞 AI 算法为 CSK400X 系列语音芯片设计了 NPU 框架与规格,并设计了针对神经网络的底层算子。 据了解,这款芯片可借助神经网络算法解决家居中的噪音问题,算力可达到 128GOPS,同时支持全栈语音能力,包括离线唤醒、远场阵列降噪、回声消除等优化功能,适用智能家电、玩具、音箱、离线门禁等落地场景。

从科大讯飞 1024 开发者节发布会上可以看到,尽管 AI 技术已日臻成熟,但如何在细分场景做到最好,如何进一步推进 AI 技术广泛应用仍是科大讯飞思考的问题。 随着其平台的逐步开放,与开发者和合作企业进行更紧密的交流互动,推进 AI 整体生态的建设,无疑是下一步前进的方向。

第三届机器之心「Synced Machine Intelligence Awards」年度奖项评选正在进行中。本次评选设置六大奖项,重点关注人工智能公司的产品、应用案例和产业落地情况,基于真实客观的产业表现筛选出最值得关注的企业,为行业带来实际的参考价值。

参选报名日期: 2019 年 10 月 23 日~2019 年 12 月 15 日评审期: 2019 年 12 月 16 日~2019 年 12 月 31 日奖项公布: 2020 年 1 月