欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

一知智能算法团队:去摘遥不可及的星

2024-04-24 09:05:41 栏目 : 移动互联 围观 : 0次

如果你问一个认识的人,他们最想听到的词是什么,他们会说,“机器人看起来很像人类。”从“人工智能故障”到“黄金客服”,平均通话时间超过1分钟,基本核心功能逐渐成熟,语音识别准确度稳步提升,使人工智能手机渠道的有效触控成为可能。在对话体验不断提升的背后,站着一群敢于挑战明星的人。他们是一个智能算法团队。

这是一个100%无障碍部门,吸引了许多业内顶尖技术人才。其中包括获得AI实验室主任姜兴华等行业奖项的牛、薛盛黄博士等人工智能科学家;以及毕业于东京大学、加州大学洛杉矶分校、南安普顿大学、瑞典皇家理工学院、利物浦大学、浙江大学、中国科技大学、西安交通大学、华中科技大学等国内外顶尖院校的精英。作为一家技术驱动型企业,一智智能一直在追求先进技术。AI算法团队核心成员来自浙江大学人工智能研究所和国家重点实验室,具有较强的大学研发背景。创始团队在学习期间赢得了国际比赛。知识图谱构建竞赛2016知识库人口,简称KBP检测斯坦福问答数据集,简称SQuAD2019年2月,一智智能与浙江大学联合成立了浙江大学一智人工智能研究中心。其中,与微软亚洲研究院联合开发的FastSpeech算法的合成速度是谷歌的260倍; SimulSpeech同声传译算法是业内最快的实时翻译,具有相同翻译效果; FastLR唇识别算法是目前全球解码速度最快的唇识别系统,比排名第二的Caseded算法快10倍。同时,算法团队还拥有10多项独立的人机语音交互国家专利,语音人工智能领域的多项国家专利处于行业领先地位,核心算法技术的自主研究达到行业领先和国际前沿水平。

这样一群人聚集在一起,解决行业顶级的技术问题,试图赢得人工智能皇冠上的明珠,通过技术落地让所有人机交互体验更好。2022年,智能算法团队实现了意图识别系统的全面升级,在电子商务、防欺诈、游戏等场景中实现了96%以上的准确率。同时,我们完善了新一代自主研发的ASR系统,大大提高了识别精度,进一步优化了语音和计算机交互体验。他们不仅是了解底层技术的矿工,也是处于行业前沿的“潮流制造者”。2022年8月以后,为保护消费者隐私,各大电商平台将引入虚拟号码功能,将消费者手机号码改为虚拟号码,现有的出站呼叫手段将无法到达品牌相关用户群。在短短一个月的时间里,One Intelligence实现了基于虚拟号码的完整出站呼叫方案,成为当时市场上唯一一家实现出站呼叫方案的厂商。智能算法团队开发的分机接通时间判断算法也获得国家发明专利,该分机输入判断模型和连接状态判断模型可以在毫秒(20ms)时间内判断何时输入分机以及用户是否开始通话,准确率高达99%。在提高出站效率的同时,还可以保证运营商能够准确地接收分机输入。另一方面,算法的优化大大提高了AI培训师的工作效率。目前,该公司已开发出意图级自动判断算法,平均为培训师节省了约20%的语音设置时间,并完成了业界首个生成语音自动化算法的算法验证,为探索需要大量语音传输的业务场景提供了可能性。智能自主研发的ASR系统不断突破底层核心技术语音识别系统,采用了最新的整合模式,比以前的传统模式具有更多的层次,效果更好。模型设计采用U2++结构,统一了流动模式和非流动模式。在商业上,我们使用CTC流解码,将注意力和语言模型重核结合起来,可以实时快速地获得已识别的中间结果,从而确保最终预测结果的准确性。同时,算法团队还根据具体业务场景的实际使用情况,添加了专有名词纠错模块,提高了ASR系统各个定制领域的识别精度。意图识别算法一知智能的意图识别算法利用蒸馏算法,在有效减少算法模型的参数,维持模型的高识别率的前提下,大大提高算法模型的推理性能,有助于支持一知业务量的增加.同时,智能算法团队多年来也致力于提高建模能力,研究并公布了相关技术的发明专利。同时,采用少量样本训练技术,使用少量标记数据训练出具有相同性能的算法模型,有效地将模型的一般功能与特定行业的垂直场景相结合,赋予其快速平铺不同场景的能力。最近ChatGPT的出现和普及,意味着深度学习的意图识别算法能力有了新的突破,除了ChatGPT这样的直接终端用户产品外,生成AI还有更广阔的技术应用空间。ChatGPT和相关的AI内容生成技术也与现有的AI业务相关。智能AI呼叫产品已广泛应用于电商、政府、海事等行业,它引入了ChatGPT的强大功能,可以帮助AI培训师编写演讲脚本,大大提高了工作效率。同时,将ChatGPT融入到实际对话系统中,增加对话的广度和深度,最大限度地减少“不回答问题”。AIGC通用模型能力的不断发展,将带来内容生成行业的变革,多模态人机交互能力有望乘着这股东风,达到下一个水平。在快速响应客户需求和痛点意图等级判断算法的AI外呼场景中,我们的AI机器人在与客户通话结束后,了解相关客户的意向等级(意向强、意向一般、意向弱等)是AI外呼公司不可避免的紧急任务,企业客户对意向等级判断的效率和质量有很高的要求。在算法进行干预之前,人工智能培训师需要编写大量与相关关键字相匹配的意图规则,这既耗时又不准确。算法的学生在分析场景后发现,这个场景实际上非常符合决策树的逻辑,基于这个判断,我们训练了一个AI机器人语音和客户语音的分类算法模型,在得到这些词标签后,根据词标签的转换逻辑,从上到下对整个词进行迭代。最后自动完成单词意图级别的判断。该算法的引入平均为培训师节省了大约20%的语言设置时间,同时也大大提高了准确性。现代语音自动化系统可以根据用户输入的数据直接生成准确、流畅的语音草稿。在算法层面上,系统被分为两个部分。一个是构造本体模型、语义推理规则系统和实用分类规则系统的三维数据;另一个是基于语义角色和语法规则的文本生成引擎。语音自动化系统极大地减少了人工智能培训师的初始工作量,并允许大规模、复杂的场景语音交付。为了保护个人隐私,天猫、美团等主流电商平台不再直接提供客户的手机号码,而是通过虚拟号码提供客户信息。像“One Intelligence”这样的昵称平台面临的最大挑战是无法在客户拿起电话的那一刻获得信号。这意味着AI机器人不知道何时开始与客户对话。因此,智能算法团队针对这一问题,自主开发了一套分机时间判断系统,成为业内首批支持该技术的外部呼叫厂商之一,该技术还获得了国家发明专利。分机输入判断模型和连接状态判断模型都以毫秒(20毫秒)为单位,以99%的准确率判断分机输入时间和呼叫是否开始,提高了呼叫效率,并使运营商能够可靠地接收分机输入。探索下一步探索数字人口合成算法的第二曲线单智自主研发的数字人类产品采用单智智能数字人类商业研发团队推出的最新文本和语音驱动的数字人口合成算法,实现了自然语言理解、语音识别、意图识别等功能。基于语音合成等单一智能基础的核心技术能力,集成到一个单一的大脑“易脑”中,可以根据对话情况完成高度拟人化的对话交流,支持直播。人机交互场景,如大屏幕、终端等。使用嘴巴合成算法,你只需提前几分钟拍摄一段视频,就可以生成视频中人物的头像。然后,使用任意文本和语音,可以驱动化身讲述新内容.在生成的视频中,化身的面部表情和嘴角与新的讲故事内容相匹配,实现实时面部表情,语音和嘴唇同步,具有很高的真实感,就像重拍的短视频。同时,它消除了场景重新定位和拍摄人类短视频的复杂过程和高昂成本。该技术可广泛应用于虚拟人短视频广播、直播等丰富的商业落地场景。智能数字人机交互团队由多模态人机交互领域专家薛祥博士领导,具有多模态视觉交互技术研发背景和应用研究经验,它补充了智能全栈人机交互难题的最后一块。数字化人力业务的发展可以弥补公共领域现有产品客户获取需求不足的问题,提升品牌用户的心智,为企业提供更多场景、更高层次的解决方案,帮助企业客户在全球营销中拥有更多AI数字化生产力。2023年,我们将继续开发语音、文本、图像等多模式内容理解和内容生成算法,通过人工智能技术提升对话体验,提高出站机器人的实现效率。在深入研究多模态人机交互技术的同时,利用ChatGPT等大规模模型算法能力,构建属于知识的技术护城河。

展开剩余内容

分享到:

猜你喜欢

热门标签