【猎云网(微信:ilieyun)北京】3月5日报道(文/王非)
在AI语音交互全流程中,面对语音识别、语义分析、语音合成这三座大山,我们仍然需要不忘初心,砥砺前行,以期获得更为自然、富有情感的人机交互体验。
中文语境下,有科大讯飞、捷通华声等持续深耕,在语音识别、语义分析领域,发展速度较快。但是在我们跟智能设备进行互动时,回传到耳朵里的,仍然是满满“机械感”,缺少情感的声音。要解决这一问题,基础建设是关键。
猎云网近日接触的标贝科技是一家专注于人工智能数据服务的公司,深入有着较高技术含量的语音合成领域,潜心进行相关分析与研究。在该领域,标贝科技主要协助客户完成发音人选择、语料设计、语音采集、数据处理、语音深度加工等工作,产出文本数据、语音数据等数据类型。
此外,标贝科技还推出TTS评测系统等相关解决方案,为客户提供一整套定制化的语音合成服务。据猎云网了解,其TTS评测系统已于今日正式上线。
标贝(北京)科技有限公司简称标贝科技,成立于2016年2月,已获得全国高新技术企业认定、中关村高新技术企业认定。标贝科技的总部位于北京,在长春、天津等地亦有布局,目前团队成员50余人。
专注语音合成的前端技术,提供定制化的语音数据服务
语音合成又称文语转换(Text-To-Speech),简称TTS,指通过机械的、电子的方法生成语音的技术。据了解,目前语音合成技术分两种,第一种称为拼接法。把语音里面所有的语料基础片段都录好,再根据需要,利用技术手段择取语音单元,并拼接成具体话语,这种方法需要大量的语音录制。第二种称为参数法。基于有限的语料数据通过参数模型训练,合成新语段,参数法的优势在于对录音数量要求较少,几千句话就能出一个合成效果。
标贝科技的创始人兼CEO刘博向猎云网表示,“无论客户用哪种合成技术,都离不开专业的语音数据服务,而标贝科技最核心的任务恰恰是提供优质的语音数据,让客户可以专心于合成技术的研发,快速实现高质量的合成系统。”
标贝科技的技术合伙人缪冠琼进一步解释称,“提供优质的语音数据只是结果,其过程包括语料设计,语音采集,音字标注、韵律标注、声韵母切分等模块。传统的人工标注可以说是一种劳动密集型工作,难以大规模拓展和复制。但是,通过运用基于深度学习的预处理系统,不仅可以大幅提高自动处理的正确率,还可以将其效率提升10倍以上,从而大大缩短数据加工周期。”
标贝科技有一套专业化的业务流程,大致分为语料设计、语音采集和数据处理三个环节。由于流程繁复,因此贯穿于各个环节的质量控制,便成为了标贝科技及其服务的质量保证生命线。为了让从业者更好地认识这一操作流程,标贝科技作为定制化的语音数据服务提供商,特意制作了相关剖析,简示如下:
语料设计:前期针对客户需求制定不同的语料设计方案,在不同领域采用各自特定的语料。
语音采集:语音采集在整个流程当中,最为考验细致、经验、耐心,其核心是对录音质量进行把控。因为发音人在录音棚里,进行长时间录制时,即便是对一个音节的理解出现错误,都将导致最终的语音质量难以符合客户需求。这时就需要有专人,进行全程监督,以确保源头语音素材的高品质。
语音采集完成之后,便进入了数据处理环节:标贝科技先经过计算机程序进行预处理,再由人工操作完善。由于数据处理的工作十分复杂,完全依赖于人工标注,必然是低效且不现实的。但是,经过程序预标之后,其结果已经比较准确,因此能大大提高工作效率,从而进一步减少人工干预。
根据客户特殊需求,标贝科技还提供ToBI和Pitch标注服务。
行业首发TTS评测系统,更有助于提升合成效果
除了提供成熟的人工智能基础数据服务之外,标贝科技首发TTS评测系统,并针对语音合成系统,提出了一整套的TTS前端解决方案。
标贝科技的评测系统由合成缺陷度评测和合成自然度评测两部分组成。其中,合成缺陷度又包含韵律、多音字、数字符号及分词词性四个模块,针对上述模块进行的评测,即为TTS缺陷度评测。合成自然度评测则包括ABX和MOS评测。
韵律评测:如果再韵律层级出现预测错误,将直接影响句子的自然度及可懂度。此模块以涵盖10个领域的测试集,对TTS前端系统进行韵律处理的评测,随后对其处理结果进行对比分析,最终将TTS前端韵律处理所发现的问题呈现给用户,通过正确率来反映其问题所在。
多音字评测:多音字是影响句子可懂度的另一个重要因素。此模块以涵盖100余个常用多音字的测试集,对TTS前端系统进行多音字处理的评测,随后对齐处理结果进行对比分析,最终让用户能直观了解并发现TTS前端多音字问题之所在。
数字符号评测:数字符号的类型多样,常以混合方式出现在各个领域的文字中。数字符号的预测错误,也会对句子的理解及句意的表达产生重大影响。此模块以涵盖多种类型的数字、符号及组合测试集,对TTS前端系统的数字符号模块进行评测,并呈现最终结果,从而让用户有针对性地去解决关键问题。
分词词性评测:分词词性的正确与否,会影响韵律及多音字的正确率。分词词性的预测错误,是导致韵律错误的主要因素之一,从而影响句子的自然度和可懂度。此模块的测试,可以帮助客户了解此模块的性能,从而得到进一步改进。
ABX&MOS评测:ABX和MOS的评测,即为TTS合成自然度的评测。以代表不同的TTS用户群体的评测人员,分别以横向和纵向两种不同的方式,对TTS合成系统的自然度和流畅度进行评测。其目的在于,让用户了解自身TTS系统的优化空间及市场竞争力。
在综合检测方面,标贝科技针对用户的TTS语音,从TTS前端的文本预处理、文本分析、韵律层级预测到TTS音高、时长等声学参数,以及声码器等影响语音生成的因素进行分析,查找问题源头,提供合理建议及问题的解决方案,从而提升合成效果。
标贝科技的技术合伙人缪冠琼,早在2002年已开始从事语音方面的研究工作,此前就职于捷通华声、百度,曾获得百度语音合成TTS最高奖。凭借逾15年在语音合成领域的分析研究及工作经验,标贝科技为用户的语音产品做系统评测,分析出合成语音不自然的原因:可能是音库质量不佳、数据加工的问题、前端模块或者后期算法的问题,通过专业的测评让用户快速了解自身系统关键问题所在及可提升空间。
除了语音合成,标贝科技的识别项目团队,则主要提供语音采集、语音转写、语音标注、图片采集、图片标注业务。其中,语音采集包括国内方言和普通话、少数民族语言(藏维蒙)、定制化年龄语音采集(例如 儿童)、情感采集、以及国外语种(50多个国家)。目前,标贝科技已完成了数十个语音识别库;儿童人脸(正脸90度角转侧脸方向)、道路(汽车、街景)、手写体等图片采集数据库。
除了为多家知名公司提供人工智能数据服务外,标贝科技还拥有超长自有语音库
提及盈利模式,刘博向猎云网透露,目前标贝科技主要提供通用型音库和定制型音库两种付费服务,前者是直接向采购方提供标贝科技的自有语音库,后者是标贝科技为企业提供定制音库以及整体的语音解决方案。
目前,在定制型音库方面,标贝科技已成功为用户提供150小时中文女声情感音库、80小时粤语语音库、50小时美语女声语音库、40小时的ToBI语音库、40小时模仿儿童语音库、30小时儿童语音库、20小时巴西葡萄牙语音库、20小时台湾普通话语音库、20小时明星语音库等。
此外,在TTS前端训练集方面,15万句韵律训练集、15万句分词词性训练集、15万句多音字训练集、10万句TN训练集等。
标贝科技还为百度地图提供了杨洋、韩乔生、柳岩等明星语音库制作,包括录音及后期的语音数据处理。此外还与腾讯、滴滴、京东、芋头科技Rokid、暴风集团、出门问问、搜狗、Roobo机器人、喜马拉雅FM、猎豹移动等众多客户,建立了长期稳定的合作关系。
值得一提的是,标贝科技在2017年9月完成了千万级人民币Pre-A轮融资。当我们能够沉浸于与智能语音产品的畅聊与自然交互时,在背后默默耕耘的正是以标贝科技为代表的语音合成方案提供商。
产品:标贝科技
公司:标贝(北京)科技有限公司
网址:www.data-baker.com