欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

2023-08-11 14:30:14 栏目 : 移动互联 围观 : 0次

2020年伊始,朋友们朋友们总结、展望了微软亚洲研究工作院在多个 AI 行业领域的突破与趋势,还有,更亲民的机器学习降科技展厅低和更精巧的 AI 系科技展厅统支持 ;数据数据洞察的深受显得更智能,AI 推进三维构建的发展中;还有突破固化的台电脑视觉和更具商用潜在价值的 OCR 引擎。朋友们,朋友们朋友们将探索常常语言处理完成(Natural Language Processing,NLP)范式和新发展中,还有微软亚洲研究工作院在语音识别与科技展厅合成行业领域的创新成果。

NLP 在近两年共计遭成另一套近乎完备的其技术体系,更是方面了词嵌入、句子嵌入、编码-解码、注意观察力模型、Transformer,还有预训练模型等,促进了 NLP 在搜索、阅读去描述 、机器翻译、文本分类、问答、对话、讲话、其它信息抽取、文摘、文本生成等组成部分行业领域的应用,预示着常常语言处理完成进人了大规模工业化采用先进其他标准的化时代。

与此另一更是方面,推动机器软硬件具备的降低,模型、算法的突破,语音合成、语音识别、语音降低都虽然 了突飞猛进的发展中,如微软亚洲研究工作院的 FastSpeech、PHASEN,让机器语音显得接近 人类意识讲话,推动减慢了相关联语音新产品的落地。

NLP 进人第二代范式:预训练+微调

常常语言处理完成范式是常常语言处理完成系统支持 的工作时运行模式,细数之下,结果结果经厉三代变迁,结果结果即将进人第二代。

第二代 NLP 范式是出结果结果上世纪90化时代前的“词典+规则”;第二代范式是2012年以后 的“数据数据驱动+统计机器学习降低模型“;第二代范式是始于2012年的“端对端神经侵删的深度学习降低模型”。2018年前后,研究工作人员的移向等到了 锁定在预训练+微调上,标志着 NLP 第二代范式的现象,当一属于着 NLP 未来几年发展中在最先 方向。

图1:NLP 范式的变迁

当前,主流的常常语言处理完成范式是以 BERT 为属于的“预训练+微调”和新常常语言处理完成研究工作和应用范式,其共计思想是将训练大而深的端对端的神经侵删模型分为两步。一是几点在大规模文本数据数据上采用先进其他标准无监督(自监督)学习降低预训练一是数的参数,以后 在具体情况的常常语言处理任务完成 完成 上添加与任务完成 相关联的神经侵删,的话神经侵删所包含的参数远远小于预训练模型的参数量,并可根据下游具体情况任务完成 的标注数据数据采用先进其他标准微调。

当一,研究工作人员都能将采用先进其他标准预训练从大规模文本数据数据中学到的语言知识,迁移到下游的常常语言处理完成和生成任务完成 模型的学习降低中。预训练语言模型在贯穿一切常常语言的下游任务完成 ,甭管是常常语言去描述 (NLU)另一更是方面另一更是方面常常语言生成(NLG)任务完成 上都显著显著成绩了优异的性能。预训练模型也从单语言预训练模型,扩展到多语言预训练模型和多模态预训练模型,并在相关联的下游任务完成 上都显著显著成绩了优异的性能,推动验证了预训练模型的能力强大强大。

预训练语言模型在 BERT 和 GPT 等到了 ,2019年得等到了 发展中中,贯穿每一种 种 月都在和新预训练语言模型同步发布,并在研究工作和应用行业领域遭成为大大增加增加的遭成特别大。概括是对,预训练模型有具体情况不好 趋势:

一是几点,模型推动(参数显得多),从 EMLo 的 93M 参数,到 BERT 的 340M 参数,还有到 GPT-2 的 1.5B 参数和 T5 的 11B 的参数。

更是方面,用于预训练模型的数据数据推动,从 BERT 中是用的 16G 文本数据数据,到 RoBERTa 里是用的 160G 文本数据数据,再到 T5 实践中用等到了 750G 的文本数据数据。

以后 ,预训练模型从最等到了 在三是面向常常语言去描述 任务完成 ,发展中到需要支持常常语言生成任务完成 ,还有到最新却不好 模型另一更是方面需要支持常常语言去描述 和常常语言生成任务完成 ,如 UniLM、T5 和 BART 等。

结果结果,遭成当前的预训练模型推动,在实际的工程应用中不可能 经济继续有效、完全主要需求高并发和低响应减慢采用先进其他标准在线部署,遭成还有在具体情况任务完成 上采用先进模型压缩都能知识蒸馏(Knowledge Distillation 也叫 Teacher-Student Learning)深受小(快)而不好模型,在训练中深受小而快的预训练语言模型,另一更是方面另一更是方面当前不好 组成部分的研究工作热点。

图2:预训练模型的发展中

NLP 新范式趋势一:UniLM 为属于的跨任务完成 统一模型

2019年,微软亚洲研究工作院同步发布了最和新预训练语言模型的研究工作成果——统一预训练语言模型 UniLM(Unified Language Model Pre-training),该模型包含两大组成部分性其技术创新:一是统一的预训练框架,遭成同不好 模型都能另一更是方面需要支持常常语言去描述 和常常语言生成任务完成 ,而以后 一是数的预训练模型都一是采用先进其他标准常常语言去描述 任务完成 ;其一是创新地明确提出提出个部份自回归预训练范式,都能更高效地训练更佳资源 的常常语言预训练模型。

UniLM 的统一建模机制都能用不好 模型另一更是方面需要支持同更是下游任务完成 和预任务完成 完成 。常常语言处理完成的下游任务完成 大致包含接近 一切三类:

(1)常常语言去描述 (NLU)任务完成 ,如文本分类,问答,实体识别等;

(2)长文本生成任务完成 ,如新闻都能故事一生成等;

(3)序列到序列生成任务完成 ,更是方面摘要生成,复述生成,对话生成,机器翻译等。

采用先进其他标准同更是下游任务完成 都能采用先进理念相关联的预处理任务完成 完成 ,还有采用先进其他标准常常语言去描述 的双向语言模型,采用先进其他标准长文本生成的单向语言模型,还有采用先进其他标准序列到序列生成任务完成 的序列到序列语言模型。的话同更是下游任务完成 和预处理任务完成 完成 也对应同更是神经侵删结构,还有用于常常语言去描述 的双向编码器,用于长文本生成的单向解码器,还有用于序列到序列生成的双向编码器和单向解码器,和其相关联的注意观察力机制。

图3:常常语言处理完成的下游任务完成

UniLM 的侵删结构是当前常常语言处理完成和预训练模型中广泛应采用先进其他标准多层 Transformer 侵删,其核心是采用先进其他标准自注意观察力掩码(Self-attention masks)来全面控制文本中每一种 种 词的上下文,遭成接近 一切不好 模型另一更是方面需要支持双向语言模型、单向语言模型和序列到序列语言模型预任务完成 完成 ,还有采用先进其他标准另一更是方面的自注意观察力掩码。采用先进其他标准微调需要支持常常语言去描述 和常常语言生成的下游任务完成 ,遭成训练前性质统一,朋友们朋友们变压器侵删都能共享参数资源,遭成学习降低的文本对此更通用,另一更是方面减轻在三人切单个任务完成 的过度拟合。

图4:UniLM 的侵删结构

UniLM 另一系列常常语言去描述 和生成任务完成 中均显著显著成绩了领先的实验结果结果,相关联论文已发表于 NeurIPS 2019[1]。另一更是方面,2019年10月,统一预训练语言模型与机器阅读去描述 其技术还荣获了第二届这是世界互联网大会“这是世界互联网领先科技成果”奖。初衷与学术界和产业界的伙伴们一贯穿,推动推动常常语言去描述 和生成的发展中与创新,微软亚洲研究工作院已将统一预训练语言模型 UniLM(v1)在 GitHub 上开源[1] ,供朋友们参考、采用先进其他标准。这几天微软亚洲研究工作院还将同步发布 UniLM(v2),敬请期待未来。

图5:微软最新 NLP 研究工作获选第二届这是世界互联网大会“这是世界互联网领先科技成果”

NLP 新范式趋势二:跨语言预训练模型

预训练模型还有都能缓解跨任务完成 中现象的低资源不可能 解决 ,还都能缓解跨语言中现象的低资源不可能 解决 。具体情况是对,遭成科研项目项目完全主要需求还有数据数据标注代价昂贵等遭成,的话常常语言任务完成 几乎只在多数语言(更是方面英文)上现象足够的标注数据数据,虽然 的话语言上并当一但不否真实或仅有非常多 的标注数据数据。是否真实都能需要科技展厅简单继续有效 特定任务完成 在虽然 一种语言的标注数据数据上训练模型,并将学到的知识迁移到的话语言上去,另一更是方面另一更是方面不好 亟待不可能 解决 的课题。

跨语言预训练模型是缓解接近 一切不可能 解决 的继续有效简单继续有效。给定多种语言的单语语料和同的语言对两者之两者之间双语语料,跨语言预训练模型都能学习降低到同的语言两者之两者之间对应两者之间,并保证在同的语言的向量对此都现象于同不好 语义小空间中。在此技术基础上,该类模型采用先进其他标准虽然 一种语言上充足的标注数据数据采用先进其他标准下游任务完成 微调。当一遭成的任务完成 模型都能结果结果降低起着于的话语言的输入。都能该任务完成 在的话语言上另一更是方面现象非常多 的标注数据数据,则都能采用先进其他标准多次始终保持微调深受更佳资源 的降低起着。

图6:跨语言预训练模型示意图

微软亚洲研究工作院明确提出提出个跨语言预训练模型 Unicoder[2],采用先进其他标准在预训练动态动态实践中引入五种同更是跨语言任务完成 ,都能学习降低深受非常却不好跨语言去描述 具备。

第不好 预任务完成 完成 在共享模型参数和多语言词汇表的技术基础上,在同的语言输入序列上采用先进其他标准 Masked Language Model 任务完成 。该任务完成 都能保证在将同的语言的向量对此映射到同不好 语义小空间。

第二个预任务完成 完成 将双语句对拼接成不好 和新输入序列,并在该序列上采用先进其他标准 Masked Language Model 任务完成 。采用先进其他标准显式引入双语对齐其它信息虽然 监督信号,Unicoder 都能更佳资源 地学习降低同的语言两者之两者之间对应两者之间,遭成深受更佳资源 的跨语言去描述 具备。

第不好 预任务完成 完成 的输入另一更是方面却不好 双语句对。该任务完成 一是几点对该句中每一种 种 源语言-常期目标语言单词对计算不好 attention score。以后 ,将每一种 种 源语言单词对此为一切常期目标语言单词向量对此的加权求和。以后 ,技术基础新生成的源语言对此序列,彻底恢复原始的源语言序列。

第俩个预任务完成 完成 的输入却不好 同的语言的句子,训练常期目标是判定这不好 句子是否真实互译。Unicoder 都能采用先进其他标准该任务完成 学习降低深受同的语言在句子更是方面的对应两者之间。

第俩个预任务完成 完成 的输入另一篇由多种语言句子推动形成的段落,并在此技术基础上采用先进其他标准 Masked Language Model 任务完成 。

技术基础这俩个跨语言预任务完成 完成 ,Unicoder 都能学习降低到同一语义在同的语言实践中对应两者之间,模糊同的语言两者之两者之间差异和边界,并当一深受采用先进其他标准跨语言下游任务完成 模型训练的具备。Unicoder 的具备已在跨语言常常语言推理(Cross-lingual Natural Language Inference,简称 XNLI)任务完成 的实验中深受验证。

常常语言推理任务完成 (NLI)是判断不好 输入句子两者之两者之间两者之间。输出共计三类,共计是“蕴含”、“矛盾”和“无关”。XNLI 推动把常常语言推理任务完成 扩展到多语言上。在 XNLI 中,仅有英语有训练集,的话语言仅有验证集和测试集。该任务完成 一是考察模型是否真实将英语训练集上学习降低到的知识迁移到的话语言上去。采用先进其他标准引入更佳资源 跨语言预任务完成 完成 后,Unicoder 比 Multilingual BERT 和 XLM 有显著的性能降低,实验结果结果具体情况图:

图7:Unicoder 在 XNLI 数据数据集上都实验结果结果

预训练+微调结果结果虽然 深度学习降低化时代人工智能研究工作和新范式。该类简单继续有效另一更是方面遭成多种 NLP 任务完成 接近 一切新高度始终保持,另一更是方面大大增加增加降低了 NLP 模型在实际场景中落地的门槛。从 UniLM 到 Unicoder,再到这几天扩模态预训练模型 Unicoder-VL[3] 和 VL-BERT[4],微软亚洲研究工作院在该行业领域多次始终保持产出高质量的工作时。的话工作时将多次始终保持落地到微软的话人工智能新新产品。

微软亚洲研究工作院也将在预训练行业领域中探索更佳资源 的模型和简单继续有效,更是方面,技术基础常常语言和结构化语言的预训练模型、技术基础常常语言和比赛比赛集锦的预训练模型、技术基础常常语言和语音的预训练模型等,还有是否真实减慢、压缩和描述 预训练模型。推动预训练模型研究工作的推动推进和发展中,常常语言处理完成研究工作和涉及到常常语言处理完成的跨学科研究工作(即多模态学习降低)都将迈上不好 全和新台阶。

语音智能落地开花:机器常常听、说得具备已逼近人类意识

语音信号处理完成是 NLP 应采用先进其他标准组成部分分支,其组成部分步骤却不好 :一是识别,让机器会听,一是合成,教机器能说。而今十年,得益于人工智能与机器学习降低的突破、算法与硬/软件工具具备的进步,还有拥有这是世界既多样又非常多 的语音数据数据库,用以训练多参数的、大规模的语音识别与合成模型,遭成语音处理完成其技术深受飞跃性进展。

大型的深度神经侵删模型大幅度改善却不特定讲话人、带有口音、造句不规范、夹带噪声的语音识别。另一更是方面,需要简单继续有效 类似于简单继续有效训练的模型,合成语音也等到了 逼近真人的讲话,在常常度、可懂度与常期目标讲话人的类似于度上,都达等到了 极为高的基础水平。

2019年,微软亚洲研究工作院在语音行业领域有三项创新性的突破成果:一为快速语音合成 FastSpeech,二为继续有效抑制噪声的语音降低其技术 PHASEN,三为技术基础语义掩码的语音识别其技术 SemanticMask。FastSpeech 是对微软在多路语音合成和新服务提供提供,甭管是微软 Azure 云计算另一更是方面另一更是方面 Surface 一人台电脑等终端设备上都应用都极为组成部分;PHASEN 在高噪声的应用场景中,甭管是降低语音、抑制噪声、降低语音识别正确率,另一更是方面另一更是方面保证在微软其他企业比赛比赛集锦服务提供 Microsoft Stream 的更佳资源 采用先进其他标准,都可谓是恰到好处的“及时雨”。而 SemanticMask 都能让端到端语音识别模型学习降低更佳资源 的语义和语言模型,遭成降低端到端语音识别模型的错误率,推动改进微软的语音识别服务提供质量。

FastSpeech:合成减慢降低38倍,语调、语速、韵律更可控

端到端的神经侵删可以改变了比赛比赛集锦、音频还几乎话类似于行业领域的信号处理完成需要简单继续有效 ,在文字转换语音合成上,也大幅度改善了合成语音的品质与常常度。端到端的神经侵删的语音合成系统支持 都能分成不好 模块:一是文字输入在 Tacotron2 的声码器中遭成高精度的梅尔语谱 (mel-spectrogram); 一是梅尔语谱再经 WaveNet 合成模型,合成高常常度、高品质的语音波形。

另一更是方面另一更是方面用接近 一切简单继续有效,品质都能深受降低,但却不好 遭成的缺点:减慢太慢;系统支持 不够稳定与鲁棒(以毕竟的话字词未被合成的话错误性地被重复合成);还却不极容易自由和继续有效地结果结果全面控制合成语音的语调、语速还有韵律。

微软亚洲研究工作院的 FastSpeech[5] 消还有这不好 痛点,它需要简单继续有效 Transformer 与前向(feedforward)算法,以并行的需要简单继续有效 快速遭成梅尔语谱图,另一更是方面可在编码器与解码器的教师模型(teacher model)预测音素的时长,合成时还继续有效地不可能 解决 了对齐工作时。在公共语音数据数据库上都实验表明,FastSpeech 将梅尔谱的遭成减慢减慢了270 倍,结果结果结果端到端合成减慢减慢了38 倍,对音素时长的预测与约束也贯穿共计不可能 解决 了原确实漏词或错误重复字词的不可能 解决 。

FastSpeech 的系统支持 图见图8,更是方面(a)前向 Transformer、(b) FFT、(c) 时长约束器、(d)时长预测器 。

图8:FastSpeech 侵删架构

FastSpeech 在合成语音品质、合成语音减慢(时延)与句子长短的相关联性、漏词与错误性重复字词的比例,还几乎长和时速的全面控制等更是方面的测试结果结果均表明了其继续继续有效。

PHASEN:降低语音、抑制噪声

初衷充分需要简单继续有效 语音的谐波与相位的特性,微软亚洲研究工作院明确提出提出个 PHASEN 神经侵删模型[6],继续有效地分离了背景噪声,遭成降低语音。此模型却不好 亮点:其一是相位与幅度在频域语音信号中,有彼此相依的两者之间,研究工作员们明确提出提出个双流模型结构,都能共计处理完成幅度与相位的其它信息,另一更是方面又采用先进理念了交叉通道,让语音数据数据库学习降低中相位与幅度两者之间矫正制约。其一虽然 全局频域中,在声带振动的语音中,谐波的相关联性都能采用先进其他标准数层频域转换模块的双流结构神经侵删习得。

如图9的 PHASEN 系统支持 图所示,在频域中,幅度为正值实数,相位则为复数,在还有操作动态动态实践中,侵删处理完成幅度处理完成为卷积还有操作,频域变换模块(FTB)还有双向之 LSTM(Long-Short Time Memory),而相位则为卷积侵删。贯穿侵删却不好 双流块(Two Stream Block),每不好 TSB 结构同的,在其尾部有幅度与相位的交互还有操作。FTB 的采用先进是初衷需要简单继续有效 全局频域的相关联性,更是是谐波两者之两者之间两者之间其它信息来改善神经侵删参数学习降低精度。

图9:PHASEN 系统支持 图

PHASEN 在 AVSpeech + Audioset 数据数据集上,得等到了 客观的 1.7 dB 的 SDR(Speech-to-Distortion Ratio) 降低,超越了的话模型在同一数据数据集的发挥。在 Voice Bank + DEMAND 数据数据集中,俩个组成部分指标均大幅接近 一切以后 的简单继续有效。

SemanticMask: 学习降低语义、降低数据数据、降低端到端语音识别性能

推动端到端神经侵删在机器翻译、语音生成等更是方面的进展,端到端的语音识别也达等到了 和传统做法简单继续有效可比的性能。同的于传统做法简单继续有效将语音识别任务完成 分解为多个子任务完成 (词汇模型,声学模型和语言模型),端到端的语音识别模型技术基础梅尔语谱虽然 输入,都能结果结果遭成对应的常常语言文本,大大增加简化了模型的训练动态实践中,遭成显得深受学术界和产业界的关注新。

端到端语音识更是流行模型虽然 是技术基础注意观察力机制的序列到序列转换模型。结果结果遭成该模型过于依赖注意观察力机制,遭成过度关注新声学特征而弱化了语言模型的其它信息,并有另一更是方面生活带 过拟合的不可能 解决 。初衷不可能 解决 该不可能 解决 ,模型在推断时,几乎都能额外的语言模型来采用先进其他标准联合解码,造虽然 额外的计算代价。受谱降低(SpecAugment)和预训练模型(BERT)的启发,微软亚洲研究工作院明确提出提出另虽然 一种和新数据数据降低其技术:SemanticMask(技术基础语义的掩码其技术)[7]。

如图10所示,研究工作员们一是几点技术基础训练数据数据训练不好 force-alignment 模型,并深受训练数据数据中每一种 种 词在梅尔谱序列实践中边界。技术基础词的边界其它信息,在训练语音识别模型时,再随机的将某个词对应的梅尔谱贯穿采用先进其他标准掩码。遭成该词对应的声学其它信息结果结果从输入中移除,模型在训练的动态动态实践中不可能 技术基础旁边的其它信息来对该词采用先进其他标准预测,遭成降低了语言模型的建模具备。同的于传统做法的谱降低简单继续有效,SemanticMask 并当一但不否真实随机的对输入序列的某个片段采用先进其他标准掩码,当一但不否真实根据词的边界将某个词的其它信息移除。采用先进其他标准此其技术都能缓解端到端语音识别过拟合的不可能 解决 ,并让该模型并具更佳资源 的语言模型建模具备。

图10:SemanticMask 示例

SemanticMask 另虽然 一种普适的语音识别数据数据降低其技术,研究工作员们将其与等到了微软亚洲研究工作院所明确提出提出个技术基础 Transformer(70M参数)的端到端语音识别模型采用先进其他标准了结合方式 ,如图11所示,并在 Librispeech 960小时和 TedLium2 的数据数据集上采用先进其他标准了实验。实验表明,该其技术都能显著降低技术基础 Transformer 的语音识别模型的发挥。在公开数据数据集上都显著显著成绩了业内切忌 的端到端语音识更是降低起着。

图11:技术基础 Transformer 的端到端语音识别模型

语音处理完成的未来几年:常常、可懂,更接近 人类意识

多年的继续努力与研发成果加快了语音新产品的落地服务提供。当一,在语音识别与合成中,另一更是方面另一更是方面结果结果打通了的话其技术瓶颈,但大语料、大模型机器学习降低的训练减慢、识别系统支持 的稳定性与识别减慢、嘈杂的噪声外部环境、不合其他标准的发音、不合文法的语句识别,将是语音识别常期关注和新重点。在合成更是方面,是否真实使合成的输出快速实时遭成,另一更是方面它能始终保持高品质的常常度、可懂度、与常期目标讲话人的类似于度,另一更是方面另一更是方面微软亚洲研究工作院的研究工作重点。

与此另一更是方面,在三是世界化与国际化的趋势下,微软亚洲研究工作院也充分需要简单继续有效 语音研究工作的成果,进人辅助智能与个性化的外语学习降低,如微软小英;并继续有效需要简单继续有效 大语种、多讲话人的数据数据库与神经侵删大大增加增加模型,以同的语言的语音与讲话人生啊 理构造的共性,弥补小语种识别与合成的模型训练与数据数据库却不足。

另一更是方面,语音识别、合成与机器翻译的密切结合方式 ,也将虽然 语音处理完成其技术驱动的原动力。微软亚洲研究工作院在语音翻译行业领域当前结果结果决定 了的话推动的研究工作成果,还有明确提出提出个 TCEN 模型[8]都能以显著的降低端到端语音翻译的质量。而仅有想做到无缝的、跨语言、跨讲话人的识别、翻译、合成的端到端的对话系统支持 ,将虽然 驱动语音与翻译其技术和新课题。

展开剩余内容

分享到:

猜你喜欢

热门标签