问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

什么是无插件的跨浏览器语音接入?

发布网友 发布时间:2022-05-22 11:39

我来回答

2个回答

热心网友 时间:2024-03-08 05:51

一、导言
随着互联网应用的发展,网络浏览器已经成为头等应用程序。鼠标和键盘设备完全满足信息获取类应用的人机交互需求,但对于人机语音交互的应用需求,浏览器行业尚无标准的语音接入方案来支持。本文对现有的浏览器语音接入方案做了综述,然后介绍了苏州思必驰信息科技有限公司采用的无插件的跨浏览器语音接入方案,并且分析了该方案的应用特点。最后,本文还探讨了基于浏览器的语音接入方案的技术发展方向。谨以本文分享苏州思必驰多年在语音技术应用领域的研发心得,抛砖引玉。

二、现有浏览器语音接入方案综述
鼠标和键盘设备完全满足基于网络浏览器的信息获取类应用的人机交互需求,但由于网络浏览器已经成为头等应用程序,人机语音交互的应用也纷纷在浏览器上做了实现。
典型的语音应用流程包括如下步骤:应用采集用户的语音,将语音数据送给语音分析模块(例如语音识别、发音评估或者声纹识别等),将语音分析模块的输出(例如语音识别得到的文本、发音评估得到的评分或者声纹识别得到的用户标志)反馈给用户。
将人机交互的语音应用在浏览器上实现的关键技术是基于浏览器完成用户音频的采集。出于安全考虑,网页应用不允许通过浏览器直接访问终端的硬件资源,包括声卡设备。所以,基于浏览器的语音交互方案大都围绕着浏览器插件做文章。常见的技术选型包括:
·基于IE浏览器的ActiveX插件;
·基于NP插件架构的插件,支持Firefox等浏览器;
·基于Java Applet开发应用;
·基于Flash Player开发应用;
·基于Silverlight开发应用。
·除了插件系列,Google Chrome浏览器将语音输入功能作为了浏览器内置的功能。但该功能尚仅限于Google Chrome浏览器。

三、无插件的跨浏览器语音接入方案
浏览器之争不见消停而愈演愈烈,让终端用户使用其熟悉的浏览器无缝地来访问网络语音应用,是基于浏览器的语音接入方案设计的关注点之一。
自行开发的浏览器插件,需要用户安装许可。如果用户有安全考虑,或者有类似360这样对浏览器插件管理苛刻的桌面程序,插件能否成功部署到用户的终端都是一个问题。
Java Applet是过时技术,且需要购买安全授权,应用部署成本高。
Silverlight提供了类似Flash Player的音频采集功能。但相比Adobe对Flash Player平台的持续关注和投入,Microsoft对Silverlight抱有非常暧昧的态度。何况,Silverlight在浏览器的占有率远远不如Flash Player。
Flash Player几乎安装在了每个用户的浏览器上,基于Flash Player开发的语音接入方案,无需用户安装,仅需要用户许可访问本地麦克风硬件,流程友好,便于迅速启动语音接入功能。基于Flash Player开发的语音接入方案,得益于Flash Player的普及和标准化,可以称得上是无插件的跨浏览器语音接入方案。AIChinese,midomi,Arivoc(demo),EnglishCentral,以及曾经昙花一现的百度哼唱识别,都是采用Flash Player实现语音接入,并且在云端提供语音分析技术服务。

四、苏州思必驰的无插件的跨浏览器语音接入方案的特点
从面上看,技术方案就是know-how,但各自所下的功夫不同,方案所实现的效果也有所差别。
2009年,思必驰选择了基于Flash Player平台的无插件跨浏览器语音接入方案。当时利用ActionScript的NetStream类和Microphone类的相关函数,配合Adobe Flash Media Server的一个试用版,走通了技术方案。随后,思必驰在如下方面对该方案进行了深入的研发:

前台语音接入功能和使用流程的标准化和组件化
思必驰深度封装了Flash Player的核心录音采集功能、语音应用流程、以及与服务器的交互流程,并且定义了详尽的应用和系统状态。思必驰提供ActionScript SDK和JavaScript SDK、语音面板组件、开发案例和详细的开发文档,将开发语音应用的难度降到最低。

服务器接入层设计
从应用的终端考虑,不仅仅有跨浏览器的语音接入需求,而且有跨平台、跨网络协议、跨编码甚至跨物理网络的多种终端接入需求。思必驰专注于核心语音技术,同样致力于将优秀的语音技术提供给多种类型的应用。因此,思必驰在服务器端设计了接入层。该层作为一个配适器,支持多种方式的语音接入。基于Flash Player平台的语音接入方案,其语音源来自Internet,采用RTMP协议,采用Nelly Moser或者SpeeX编码。思必驰参考了开源项目Red5,开发出轻量级RTMP接入接口,支持流解码,并且在硬盘I/O等资源使用上做了充分的优化。RTMP客户端和服务器在一个RTMP连接上做语音数据和参数的传递,以及结果返回,采用AMF3序列化数据。接入层基于TCP第四层做负载均衡,此策略支持高度的横向扩展。

基于如上的技术演变,历时两年,思必驰将无插件的跨浏览器语音接入方案扩展为“声动之芯”(AISpeech API)——语音技术云计算平台——的一部分。(今后将专门撰文对该平台的架构设计以及应用方向做介绍。)

五、基于浏览器的语音接入方案的技术发展方向
经过AIChinese商用以及为多家行业客户提供技术授权和解决方案,思必驰对基于浏览器的语音接入方案有一些自己的心得和设想。
近年来,基于浏览器的语音技术应用,逐渐丰富起来,但仍属群雄逐鹿,缺乏规范。虽然思必驰是做核心技术的,但其应用仍需要看平台的“脸色”。思必驰尚无领导行业的能力,仍需要关注行业规范的发展。像目前这样闭门造车,不利于平台、技术和应用的普及。
W3C的HTML Speech Incubator Group是基于浏览器的语音接入方案的行业组织,其规范尚在酝酿中,值得关注。传统语音应用领域已经实现的行业规范和标准以及方案值得深入研究和融合,包括VoiceXML、MRCP、VoIP、P2P等。
本地服务方案应该作为云平台的补充深入研究。本地服务方案不同于插件方案,独立于浏览器,仅涉及跨操作系统的兼容性设计。从架构上讲,可以将本地服务视为云平台的一个完整的节点。本地服务方案和云平台的协助工作、负载分流以及部署和升级策略等,是思必驰的研究重点之一。

声动之芯 API简介
“声动之芯”是思必驰倾力打造的基于云计算的智能语音交互技术服务,将复杂的语音技术压缩为简易的接口。语言教学领域的出版社、教育软件公司、外语培训机构等,无需专业语音知识,只需20分钟,就可调用这些接口或应用成熟模板,在互联网、局域网或客户终端上实现教学“声动”化,让教辅产品摇身一变,价值倍增。

热心网友 时间:2024-03-08 05:51

  一、导言
  随着互联网应用的发展,网络浏览器已经成为头等应用程序。鼠标和键盘设备完全满足信息获取类应用的人机交互需求,但对于人机语音交互的应用需求,浏览器行业尚无标准的语音接入方案来支持。本文对现有的浏览器语音接入方案做了综述,然后介绍了苏州思必驰信息科技有限公司采用的无插件的跨浏览器语音接入方案,并且分析了该方案的应用特点。最后,本文还探讨了基于浏览器的语音接入方案的技术发展方向。谨以本文分享苏州思必驰多年在语音技术应用领域的研发心得,抛砖引玉。

  二、现有浏览器语音接入方案综述
  鼠标和键盘设备完全满足基于网络浏览器的信息获取类应用的人机交互需求,但由于网络浏览器已经成为头等应用程序,人机语音交互的应用也纷纷在浏览器上做了实现。
  典型的语音应用流程包括如下步骤:应用采集用户的语音,将语音数据送给语音分析模块(例如语音识别、发音评估或者声纹识别等),将语音分析模块的输出(例如语音识别得到的文本、发音评估得到的评分或者声纹识别得到的用户标志)反馈给用户。
  将人机交互的语音应用在浏览器上实现的关键技术是基于浏览器完成用户音频的采集。出于安全考虑,网页应用不允许通过浏览器直接访问终端的硬件资源,包括声卡设备。所以,基于浏览器的语音交互方案大都围绕着浏览器插件做文章。常见的技术选型包括:
  ·基于IE浏览器的ActiveX插件;
  ·基于NP插件架构的插件,支持Firefox等浏览器;
  ·基于Java Applet开发应用;
  ·基于Flash Player开发应用;
  ·基于Silverlight开发应用。
  ·除了插件系列,Google Chrome浏览器将语音输入功能作为了浏览器内置的功能。但该功能尚仅限于Google Chrome浏览器。

  三、无插件的跨浏览器语音接入方案
  浏览器之争不见消停而愈演愈烈,让终端用户使用其熟悉的浏览器无缝地来访问网络语音应用,是基于浏览器的语音接入方案设计的关注点之一。
  自行开发的浏览器插件,需要用户安装许可。如果用户有安全考虑,或者有类似360这样对浏览器插件管理苛刻的桌面程序,插件能否成功部署到用户的终端都是一个问题。
  Java Applet是过时技术,且需要购买安全授权,应用部署成本高。
  Silverlight提供了类似Flash Player的音频采集功能。但相比Adobe对Flash Player平台的持续关注和投入,Microsoft对Silverlight抱有非常暧昧的态度。何况,Silverlight在浏览器的占有率远远不如Flash Player。
  Flash Player几乎安装在了每个用户的浏览器上,基于Flash Player开发的语音接入方案,无需用户安装,仅需要用户许可访问本地麦克风硬件,流程友好,便于迅速启动语音接入功能。基于Flash Player开发的语音接入方案,得益于Flash Player的普及和标准化,可以称得上是无插件的跨浏览器语音接入方案。AIChinese,midomi,Arivoc(demo),EnglishCentral,以及曾经昙花一现的百度哼唱识别,都是采用Flash Player实现语音接入,并且在云端提供语音分析技术服务。

  四、苏州思必驰的无插件的跨浏览器语音接入方案的特点
  从面上看,技术方案就是know-how,但各自所下的功夫不同,方案所实现的效果也有所差别。
  2009年,思必驰选择了基于Flash Player平台的无插件跨浏览器语音接入方案。当时利用ActionScript的NetStream类和Microphone类的相关函数,配合Adobe Flash Media Server的一个试用版,走通了技术方案。随后,思必驰在如下方面对该方案进行了深入的研发:

  前台语音接入功能和使用流程的标准化和组件化
  思必驰深度封装了Flash Player的核心录音采集功能、语音应用流程、以及与服务器的交互流程,并且定义了详尽的应用和系统状态。思必驰提供ActionScript SDK和JavaScript SDK、语音面板组件、开发案例和详细的开发文档,将开发语音应用的难度降到最低。

  服务器接入层设计
  从应用的终端考虑,不仅仅有跨浏览器的语音接入需求,而且有跨平台、跨网络协议、跨编码甚至跨物理网络的多种终端接入需求。思必驰专注于核心语音技术,同样致力于将优秀的语音技术提供给多种类型的应用。因此,思必驰在服务器端设计了接入层。该层作为一个配适器,支持多种方式的语音接入。基于Flash Player平台的语音接入方案,其语音源来自Internet,采用RTMP协议,采用Nelly Moser或者SpeeX编码。思必驰参考了开源项目Red5,开发出轻量级RTMP接入接口,支持流解码,并且在硬盘I/O等资源使用上做了充分的优化。RTMP客户端和服务器在一个RTMP连接上做语音数据和参数的传递,以及结果返回,采用AMF3序列化数据。接入层基于TCP第四层做负载均衡,此策略支持高度的横向扩展。

  基于如上的技术演变,历时两年,思必驰将无插件的跨浏览器语音接入方案扩展为“声动之芯”(AISpeech API)——语音技术云计算平台——的一部分。(今后将专门撰文对该平台的架构设计以及应用方向做介绍。)

  五、基于浏览器的语音接入方案的技术发展方向
  经过AIChinese商用以及为多家行业客户提供技术授权和解决方案,思必驰对基于浏览器的语音接入方案有一些自己的心得和设想。
  近年来,基于浏览器的语音技术应用,逐渐丰富起来,但仍属群雄逐鹿,缺乏规范。虽然思必驰是做核心技术的,但其应用仍需要看平台的“脸色”。思必驰尚无领导行业的能力,仍需要关注行业规范的发展。像目前这样闭门造车,不利于平台、技术和应用的普及。
  W3C的HTML Speech Incubator Group是基于浏览器的语音接入方案的行业组织,其规范尚在酝酿中,值得关注。传统语音应用领域已经实现的行业规范和标准以及方案值得深入研究和融合,包括VoiceXML、MRCP、VoIP、P2P等。
  本地服务方案应该作为云平台的补充深入研究。本地服务方案不同于插件方案,独立于浏览器,仅涉及跨操作系统的兼容性设计。从架构上讲,可以将本地服务视为云平台的一个完整的节点。本地服务方案和云平台的协助工作、负载分流以及部署和升级策略等,是思必驰的研究重点之一。

  附:
  苏州思必驰信息科技有限公司简介
  苏州思必驰信息科技有限公司由剑桥大学顶尖的智能语音专家和国际商业管理团队创立于剑桥大学高新区,后作为*重点引资项目归国,进行产业化建设。
  思必驰是国际上极少数拥有自主知识产权和完整智能语音技术系列(评测、识别、合成、人机对话)的语音公司之一。其在数字化口语教育行业的应用技术经权威机构评测达到了国际领先水平,并成功实现了互联网、移动平台和桌面之间的跨平台应用。
  思必驰致力于为数字化口语教育领域提供相关产品和服务:面向教育软件公司、*、培训机构、出版社等提供智能语音口语教育软件平台(API),助其实现各类人机互动口语教学功能和服务;同时,面向教育机构提供口语教辅系统,实现高效的口语教学。

  声动之芯 API简介
  “声动之芯”是思必驰倾力打造的基于云计算的智能语音交互技术服务,将复杂的语音技术压缩为简易的接口。语言教学领域的出版社、教育软件公司、外语培训机构等,无需专业语音知识,只需20分钟,就可调用这些接口或应用成熟模板,在互联网、局域网或客户终端上实现教学“声动”化,让教辅产品摇身一变,价值倍增。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
父母离异的话,会不会导致孩子心智不成熟? 过节 公司给我们发的购物卡 这个怎么做分录 属于福利费吗 需要计提吗... 乡村振兴公务员和省考公务员有什么区别 ...小时候跟着爷爷学国画书法,小受家是农村的,小受姓夏或叶,他带着他... 瑞麒X1安全装置 瑞麒X1的舒适型和豪华型有什么区别?配置有哪些不同的地方?这5000块多在... 瑞麒X1的安全性能方面配置如何? 脚崴了 有大量於血 怎么样才能快速消肿 脚崴了外侧出现瘀血浮肿怎么消除? ...换了我喜欢的发型,但是穿了件有点透明的衣服,可以看到肩_百度... 安卓手机怎么隐藏或者替换wifi图标 到了郊区手机信号不好的地方,还能进行VoLTE视频通话吗? 手机为什么有4G有信号,信息和电话也不能用? 手机如果信号不好但是语音等一会能发出去,这样的信号双方可不可以视频通话请回答? 对方的手机信号屏蔽了我可以打通他的这一个语音通话吗? 手机语音通话二边信号都好我这边清楚那边为什么不清楚谁的手机问题? 拨打手机,语音提示说,你拨打的用户正忙。这是因为信号不好吗? 华为保时捷系统的权限控制器是干嘛的? opporeno6是屏幕指纹吗 求几本学习编程的书? 编程初学者,推荐几本学编程的书。 学习编程的书! 自学编程入门书籍 我想学编程 应该看哪几本书 介绍几本学习编程的书 推荐几本学编程的书 苏式香肠比广式好吃吗 玉兔苏式香肠是甜的还是咸的 苏州人不吃辣做的猪肉馅的香肠叫什么香肠? 埋线双眼皮,几天以后才可以见水,最快的消 中创视讯m16如何接入其他语音对讲设备 以下哪种语音接入设备可以用于办公固话接入? 语音网关的接入 全国卡的接入方式目前仅开放语音接入方式,对吗? 怎么改变状态栏图标大小 华为手机更新系统后状态栏颜色太深了,使用不方便,看不清状态栏里面的图标,怎么样才能改回来? 油液污染度等级标准? 自动变速箱油怎么分级别 iso6164标准与saej518标准相同吗 什么样的口罩防甲醛效果比价好? 一次性医用口罩与一次性活炭口罩哪个更好? 孩子为了玩游戏用和手机号绑定了一个公众号,怎么与那个公众号解绑? 大家都用什么牌子的活性炭除车内异味 活性炭去除异味时间 胃癌切割手术后,镜下淋巴结见转移性腺癌,严重吗?可以存活几耐? 我女朋友得了胃癌,是早期,请问做胃癌有什么风险吗?到出院要多长时间?术后应该做几次化疗?多少天做一次... 车载flac下载什么格式的歌词文件? 无损音乐歌词格式 FLAC格式和LRC格式哪种好? 湖北华鸿智能化立体停车设备有限公司怎么样?