欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

对话搜狗口语机器翻译团:获得世界冠军只是为了验证技术

2023-04-15 09:16:20 栏目 : 网络动态 围观 : 0次

上周,搜狗又获得了一个机器翻译国际冠军。

在今年的国际顶级口语机器翻译大赛IWSLT中,搜狗战胜了科大讯飞、阿里等众多国内外优秀人士,漂亮地获得了冠军。

加上去年WMT2017机器翻译顶级评测大赛在英中和英中均获得第一名,这是全球机器翻译大赛连续两年上榜。而且这次,用在中国的公司不怎么见到的「英德相互翻译」互相竞争了技术力。

到目前为止,“搜狗”在输入法、检索等技术上有很多,但现在AI翻译正在成为“搜狗”技术、产品、品牌的新图标,“大有”处于不叫就转的趋势。

为什么能在世界大赛上继续夺冠呢。这次口语机器翻译的特点是什么内部如何备战又能分享什么经验总结

刚刚荣光归来的搜狗团队派出了负责人代表:语音技术负责人陈伟、机器翻译负责人王宇光等,与量子比特分享了背后的故事。

△搜狗代表队

本次大会有三个课程。

基线模型:从口语翻译为文字。从头到尾(end-to-end):直接从口语输出翻译字符;低资源文本翻译:低资源的巴斯克文本翻译英语电路;评估任务面向TED谈话和会议的学术报告场景,测试了英国、欧洲、印度等各国的英语扬声器。有杂音、重音、自由表达等复杂的语音现象。

同时语言中有许多领域的固有名词和口语化表达(如:许多语气词、错误语法表达等),具有极强的实战意义和挑战。

其中,底线模式目前是行业最主流、效果最好的语音翻译解决方案,市场上商用机器同步传输、翻译机等语音翻译类产品几乎都采用了类似的方法。

它也是组织参与最多、竞争最激烈的课程。

最终,中国队成为大会最大的赢家。

搜狗第1位、讯飞第2位、阿里巴巴第3位。

其中,搜狗的系统BLEU值为28.09,与第2位的科大讯飞相差1.6 BLEU,与第3位的阿里巴巴相差5.73 BLEU。

准备和参加本次大赛,搜狗团队经历了3个多月的时间,投入了10多人的参赛比赛。

在6月末发布数据集,8月发布评价测试集之前,搜狗将在9月初提交结果,10月提交论文。

回顾一下,比赛最终结束是在10月30日,他们也刚从举办地比利时的布鲁日回来。他们很快就会继续工作

关于这次比赛的措施,王宇光表示很辛苦。周末加班,比赛前几天熬夜。

在这一过程中,项目并没有完全脱离生产,每天的生产也是并行的,也就是说是以“打工”的形式参加的,但最终达成了目标,成为了世界第一。

谈到结果,几位技术人员又露出了笑容。

不仅仅是由人才组成团队,搜狗还以计算资源支撑着团队。

这个竞赛对计算机资源没有限制。在语音识别方向,搜狗投入4-5台8卡机对约1700小时的语言数据进行声学模型训练,2-3天训练模型。

另一方面,在机器翻译方面,由于数据集大等原因,搜狗投入10-15台8卡机器对7000万数据(句对)进行了4-5天的训练。

“搜狗”团队解释为什么他们没有参加“基线模型”而不是“端到端”。

实际上,在第一次报名的时候,我也在考虑要不要在“端到端”的测试中尝试一下。因为是新的路线所以很帅,但是仔细分析后发现,到端到端的商业道路相当长。

语音技术负责人陈伟先生说「从试验技术的事开始了」。

而且参赛队伍也用脚投票。虽然在二端看来很有前途,但这次更多的参与组织选择了基线模型(基线模型电路)

陈伟另外,两条路线的目的相同,基线的模型精度更高,所以我们主要致力于基线的模型。

最后,搜狗在底线模特路线上压制讯飞和阿里获得冠军,讯飞在端对端获得了第一名。

当然,“搜狗”现在接受的问题最多。其中之一是,后起之秀“搜狗”为什么比首发的“讯飞”技术和产品进步更快。

语音技术担当的陈伟说明了多亏了深度学习。

深度学习的引入,对语音识别和机器翻译等旧领域产生了重新确立基础的新影响。

所以搜狗可以转弯,没有能力比研究了十几年语音的其他竞争对手差。科大讯飞虽然很早就进入了语音识别等领域,但在文本翻译等领域的水平却不及搜狗。

陈伟除了技术上的积累之外,还列举了正在实现的技术落地。

据他们介绍,搜狗是一家技术驱动的公司,研究成果将尽快,本次机器翻译上的技术将很快适用于在线翻译产品。

△搜狗翻译宝专业

目前,翻译的一些主要应用有:输入法、翻译宝、大赛同步传。同时,搜狗关于语音和翻译vivo和OPPO也合作着。

据“搜狗”方面透露,他们的语音翻译目前已经达到商用水平,从今年1月开始就已经开始对商业应用进行英译,大约有一年的时间。以今年的公园公园公园大会为首,中国网球公开赛也使用了搜狗的翻译技术。

将来的产品自不必说,加上目前的成果,陈伟还明确了今后几个月内发表的产品。

在即将召开的2018年世界互联网会议上,搜狗将基于语音和表情生成技术,展示多语种的化身主持人。

明年春天,搜狗将进一步进化“知音OS”,将唇膏服务和现有的语音识别相结合,实现多模态。

包括“搜狗”AI在内的微信迷你程序即将发布,技术升级。例如,名为“搜狗”的迷你节目,用户只需上传5分钟的声音,就可以在不失去声音音调和感情的情况下自定义音色。

同时,搜狗与4维画像新,复数的智能扬声器制造厂合作,合并着搜狗的智能语音技术。

对于语言翻译的长期发展前景,搜狗认为,当前人与机的混用,不能推翻当前的人工翻译。2020年将可以进行一般的同声传译。未来技术进化的方向是:机器支援人类,人与机器结合,最终机器代替人类。

在总结参赛经验的最后,还附上参赛队伍的经验总结。如果明年你也想在机器翻译的世界竞技中做排名的话,这个唐森冠军的总结,或许会带来一些参考。

搜狗机器翻译员王宇光其实一切都很简单:

首先任务选择正确,做正确的挑战比喻容易更值得;其次,清楚地分析问题很重要。如果可能的话,我会细分,组织各个方向的同事参加。对于不能全职参加的团队,定期见面讨论问题是很重要的。三是重复解决问题和修正的速度。第四,反过来考虑。例如,在这次比赛中,数据集和结果要求英德翻译。搜狗团队没有人懂德语,但他们懂英语。最后,高效执行,吃苦耐劳,有必胜之心。在这次比赛中,搜狗团队最初设定了很高的目标,但依靠强势的执行,通宵工作,最终达到了提交结果时设定的目标,并从成功中获得了冠军。值得庆幸的是,愿望实现了。

以上,搜狗关于优胜队伍如果有在意的问题的话,请一定不要给我评论。

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签