·确定一系列核心方言并为其建立自动语音识别(ASR)模型,当一种未知方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言的内容。
·方言应用的窗口期大约是二三十年。AI识别方言的实际困难大,我国方言体系之间甚至每一类方言内部的地域差异都普遍存在,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。
信也科技算法科学家倪博溢。
10月24日,第八届信也科技杯算法大赛总决赛上,9支人工智能队伍角逐,探索利用AI技术识别和还原语音数据中的方言信息,衡量不同方言之间的距离,推动智能语音识别技术发展。
方言距离是一个开放问题,例如人们通常在直觉上认为上海话与杭州话之间的距离比上海话和北京话之间的距离更近。从实用性来讲,距离越接近的两种方言,其自动语音识别引擎在交叉使用时也可以得到更好的效果。如此一来,利用少数核心方言的自动语音识别引擎来转写邻近的各种未知方言,就是方言ASR识别问题的潜在解决方案之一。
金融科技集团信也科技(NYSE:FINV)首席科学家王春平表示,本次大赛的目的是寻找数据驱动的最佳算法和模型,更好地理解方言和口音特征,提升用户体验;长期来讲,以核心方言来支持所有方言转写,找到最优的核心方言布局。
度量方言间的距离
我国幅员辽阔,人口众多,方言情况十分复杂,方言体系之间甚至每一类方言内部的地域差异都普遍存在。这导致在客户服务中,语音交流常常会遇到方言或口音挑战。
要将客服人员和客户沟通的过程中产生的大量语音数据进行完善的分析质检,就需要语音、NLP(自然语言处理)算法进行批量的处理、分析、质检。通常质检任务的第一步算法就是ASR转写。
但信也科技算法科学家倪博溢表示,ASR转写存在的一个实际问题是,通用ASR模型建立在普通话数据基础上,无法对方言进行准确转写。目前,商业解决方案还不能满足大部分方言的转写,大多数可用的汉语ASR模型要么不支持方言,要么只覆盖数量有限的方言。
理论上,最理想的解决方案是为每一种方言建立ASR引擎,只要有语音和对应的文字,就可以训练出每一种方言的模型,但这种方式成本高昂、耗时耗力。为一种方言单独建模,往往需要考虑该地区的方言是否较为统一、地区经济和科研实力是否允许。
倪博溢认为,工程上可行的方式是,首先确定一系列核心方言并为其建立ASR模型,当一种从未被AI识别过的方言出现时,分析它距离这一系列核心方言中的哪些方言较近,就可以用合适的核心方言ASR模型识别出这种未知方言。但是,“一种方言跟另一种核心方言究竟要多相似,才能用这种核心方言作为对照去识别其他方言,这是需要抉择的。”因此度量不同方言之间的距离是解决问题的关键。倪博溢表示,研究方言距离问题有助于进一步探索如何从语音层面建模方言、抽取方言特征、分析方言形成和演化机理,其结果也可以和传统方言分类方法做合理性的相互印证,并服务于更广泛的研究目标。
第八届信也科技杯算法大赛总决赛现场,选手在答辩。
那么方言之间距离的远近究竟要如何衡量?倪博溢表示,目前他们对方言的读音进行加权计算,得出两种方言在0-100之间的数值,代表距离远近,这是一个相对客观的指标。但判断不同方言的距离还有其他方式,此次信也科技杯算法大赛也是为了在思想碰撞中寻找衡量方言距离的优秀算法方案,拓展商用ASR接口的模型适用范围,推动核心方言引擎的布局,提高方言识别准确率。
方言底层逻辑+大模型
今年5月,Meta推出大规模多语言语音 (MMS) 模型,将文本转语音和语音转文本技术从大约100种语言扩展到1100多种,还可以识别4000多种口头语言。在国内,抖音上线了地方方言自动翻译功能,“一键”可将粤语、闽语、吴语、西南官话、中原官话等方言视频转化出普通话字幕。科大讯飞的方言识别语种扩充至23种,探索智能语音助力方言保护的路径。
语言是人类的特有属性,也是文化的载体。有的语言甚至只有少数几人掌握,一旦这些老人去世,这种语言也就消失了。语言一旦消失,文化无处可寻。
“方言是一个宝库,里边蕴含的东西太多了。如果只剩下普通话,就缺乏了语言的乐趣。但目前方言正在消失,方言应用的窗口期大约是二三十年,AI识别方言的实际困难很大,经济价值不大,所以很少有人愿意推动做这件事。”倪博溢表示,各地方言常以口语形式流传,缺乏对应文字,并且难以收集,可用于模型训练的方言语料数据偏少。今天已经拥有了互联网数据,如果能够取消数据获取的壁垒,将语音数据开放成公共资产,对研究者而言是一大利好。
尽管信也科技金融业务带来的客服语音积累了方言语料,但从大量语音中提取方言数据又是另一个挑战,从10000小时的语音数据中找出100小时的方言犹如大海捞针。倪博溢表示,识别方言的距离有助于解决这一难题,但这只是AI识别方言的解决方案之一,仍有其他解决方案可以探索。
在倪博溢看来,AI识别繁多的方言,不能依靠逐个击破,而是要研究方言的底层逻辑和特点,构建统一识别框架。同时大模型的预训练可以自我学习,探索借助大模型技术提高识别准确性。倪博溢提出一种设想,由于音标是固定的,能否利用国际音标序列标注各种方言,构建语言模型识别方言,他认为这或将解决绝大多数方言没有对应文字的问题。他也期待通过这次比赛建设长榜赛题(即持续性常态赛题,参赛者可长期打擂台),支持社区共建语音语料和模型算法,以较低成本服务于方言保护。
·中国工程院院士戴琼海表示:“我国应从政策、机制和投入上深化人工智能的人才培养和基础研究,强化原始创新,避免陷入‘无源之水’的困境。”
·清华大学电子工程系长聘教授汪玉指出:“上海本地已经有许多芯片企业,上海也有很多算法,怎样做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。”
7月7日,在2023世界人工智能大会“大模型时代的通用人工智能产业发展机遇以及风险”论坛上,多位通用人工智能领域的专家聚焦大模型,分别从基础创新、应用技术、未来前景等层面深度探讨人工智能。
“我国应从政策、机制和投入上深化人工智能的人才培养和基础研究,强化原始创新,避免陷入‘无源之水’的困境。”国务院参事、中国工程院院士戴琼海在主旨演讲中强调。
清华大学电子工程系长聘教授、系主任汪玉则从落地应用角度谈到,目前大模型垂直领域部署难度大,国内大模型落地面临三大挑战:领域部署成本高、模型算力缺口大和国产芯片替代难。“在大模型落地的最后一公里,我们需要将算法与芯片连接起来。” 汪玉说。
“脑智能是未来新的方向”
戴琼海认为,在大模型“0到1”的创新中,国内在基础研究领域的颠覆性成果弱。“从智能发展产业来看,我们是既乐观又不乐观。”在他看来,中国大部分人工智能人才集中于应用层,因此应用场景和技术层的发挥空间特别大。但中国在基础层人才方面明显处于弱势,原始创新不足。
戴琼海表示,人工智能创新发展需要三大支柱,即算法、数据、算力。算法决定智能水平,数据决定智能范围,算力决定智能效率。在算法层面,大模型预计5年左右成为人工智能应用中的关键基础性平台。
戴琼海同时指出,脑智能是未来新的方向。融合脑与认知的人工智能新算法是行业布局的前沿,将引领新一代智能。他在论坛上建议,政府应鼓励企业主导大模型建设,探索生物机制和机器特色相结合,进一步创造人工智能新范式,推动基础研究和应用拓展并举。他预计,以认知智能为核心的人工智能将在十年以后开始步入应用。
此外,戴琼海认为,需要警惕大模型应用的安全问题。大模型尚不能对输出进行可信性的验证,例如生成欺骗性内容。“这意味着大模型的应用一旦出现问题,可不是现在计算机网络病毒那么简单,杀杀毒就好了,这将会带来颠覆性的影响。因此大模型进行应用时,应将安全性和可信性讨论清楚。”
国内大模型应着力解决四个痛点需求
汪玉在论坛中表示,“上海非常关注人工智能和芯片,但从另外一个角度看,我们现在最先进的模型以及比较重要的算力,其实都受到了一定的限制。我们的算力应该往哪个方向去走,国产算力怎么样能更好地弥补起来,这样的空间如何支撑国家在大模型训练和推理等方面的发展,这些问题已经变得极其重要。”
汪玉还提到,目前在国外,大算力芯片只有英伟达和AMD这两个公司可以选。英伟达占据主导市场,并且其软件生态比较好。“所以国外各种各样的模型,例如OpenAI、微软、谷歌,都在大批量地采购英伟达的芯片,然后在英伟达的软件框架之上去进行开发。国外的生态是很简单的,企业做好算法这一领域,部署方面有英伟达的软件体系来支撑。”
“但中国目前大算力芯片的发展还处于起步阶段。”汪玉认为,“上海本地已经有许多芯片企业,例如天数智芯、燧原科技、寒武纪、壁仞科技等。上海也有很多算法,怎样做到高效统一的部署,在芯片上把这样的算法跑起来,是一个非常重要的问题。”
汪玉同时强调,目前大模型垂直领域部署难度大,国内大模型落地面临三大挑战:领域部署成本高、模型算力缺口大和国产芯片替代难。
“与过去AI 1.0时代的一个模型针对一个特定任务不同,当今AI 2.0时代是一个模型解决多个任务,应用层、算法层、系统层需要协同优化。”汪玉表示,在大模型落地的最后一公里,国内大模型应着力解决四个痛点需求。
“我们首先需要处理长文本的问题,即用得好。”汪玉谈到,目前算法的趋势是将大模型支持的文本长度不断增大,但长文本也将带来负载激增的问题,Transformer(谷歌开发的一种深度学习模型,OpenAI在此基础上开发了GPT)架构的负载会随着输入变长而急剧增加。因此调整长文本是一个极其重要的需求。
大模型的另一个需求是性价比的提升。“如果谷歌在搜索引擎中应用大模型,这将增加360亿美元的成本,而利润可能损失65%。”汪玉表示,若公司能够做到降低一次点击的成本,整体的利润损失可能会降低。按此方向发展,每个人都有望用得起大模型。
此外,大模型需要赋能多种垂直领域,对于各行各业而言,目前并没有很多大模型拥有大量知识。尤其在医疗、金融等领域,语料数据获取代价昂贵,并且非常稀少。“如果能够加上通用基座大模型,并且进行微调,各行各业的基础性能有望进一步提升。”但汪玉也指出,如果在垂直领域发展,通用大模型一定要进行微调,而模型越大,微调的代价也随之大幅增高。因此,如何设计高效的微调算法是一个需要探讨的话题。
与此同时,大模型也带来了一站式部署的新需求。在软硬件的优化中,若将算子优化、编译调优、硬件部署进行分层部署,每日一共需要100个人力,而对于一站式自动化部署,每日只需要10个人力。汪玉指出,一站式部署能够优化人力成本,进一步增大编译优化空间规模,有望推动整个产业链的发展。