欢迎来到池州三陆五信息科技有限公司- 未来科技

微信
手机版
网站地图

它是一块位于人类智能和机器智能之间的罗塞塔石,

2023-03-20 09:54:52 栏目 : 移动互联 围观 : 0次

公元前196年制作的罗塞塔石碑(RosettaStone)上刻着古埃及国王即位的托勒密五世诏书。

石碑上刻着古希腊文字和埃及象形文字,以及当时埃及平民使用的通俗体文字。由此,考古学家破译了丢失一千多年的埃及象形文字的意义和结构,并发现了用于读取古埃及的密码。

◆罗塞塔斯通

在AI的世界里,为了让机器阅读人类的世界,同样有“罗塞塔石碑”mdash。mdash;显示数据。使大规模训练数据的机器学习成为可能

1

mdash;

数据mdash;mdash;新的石油

数据注释是指对未处理的声音、照片、文本、动画等原始数据进行加工,使机器能够识别的结构化。

在以深度学习为中心的感知模型中,像有教师学习这样的深度学习的训练是主流,但是在这个训练中,需要给模型大量的数据,这就是“Ground Truth”数据。

但是,为了养活ChatGPT的“数据”并没有公开。这里的“数据”包括各种细节,包括数据的获取、清洗、分类、数据标签的平衡、反馈、噪声数据的划分等。

由此也可以看出,在AI的发展中,数据作为将人类智能转化为机器智能的素材,在业界被表现为“新的石油”,是非常重要的。

但纵观整个AI行业,与AI三要素中的另外两要素mdash相比,对数据的关注度并不高。mdash;它的算法和计算能力都很强

其最大原因是,数据标签行业是劳动密集型产业,“足够便宜的劳动力”成为数据标签公司的一大标签。在新疆、河南、山西等劳动力相对便宜的地区,形成了数据标注产业集群。

这样的标签与前面出现的AI企业形成鲜明对比,当然很难处理。国内数据显示大规模化发展时期较早,但没有找到明确的发展方向和位置。

随着美国数据标注企业Scale AI在5年(2016-2021年)内完成了73亿美元以上的估值,国内数据标注行业终于有了一番起色。

随后,特斯拉在2022 AI DAY上推出了Auto Labelling标签环平台,展示了4D标签环技术,自动标签环的存在让更多人知道,更多专业的数据标签环企业走在了前面。

星尘数据也是其中的一员

2

mdash;

从人才工厂到数据战略专家

曾在大英博物馆看到过罗塞塔石碑的星尘数据创始人CEO章磊,立刻想起了自己正在做的数据标注工作。因此,星尘数据平台被命名为“Rosetta”。

3月1日,星尘数据Rosetta3.0平台正式上线。

▲星尘数据创始人、CEO章磊

在交流过程中,章磊认识到行业梯子的概念,对行业的初步认识是“人力工厂”,服务可以参照相对初级的工具,进行项目管理和大量的劳动,这也是数据行业常见的认知图像。

但到了中级认知,对标记项目管理难度和工具复杂性有一定程度的认知。投入工具研发和项目管理成本,研发期长,管理难度大,数据迭代效率低;另一方面,使用高度自动化的标记平台,与数据服务商一起重复数据闭环和数据策略。

在“高度认知”中,章磊特别强调了星尘数据的重要竞争力和产品数据战略的重要性,包括数据增强、数据平衡、人类反馈、数据选择和主观数据处理。

在以往的数据标记过程中,算法负责人制定了数据标记的规则,标记公司将其消化后提供给标记团队。但是,在执行过程中,算法的想法不会一次变得最优。第二,数据写入人员只是一个“劳动者”,对迭代算法效果没有帮助。此外,算法方面存在不合理的规则,成本高昂,难度加大,往往难以执行。因此,即使有数据量,也不能提高模型能力,成本也会增加,可以说是“不划算”的状态。

章磊现在,显示行业的供给被认为低于行业的需求。

ldquo;过去数据量不足,现在真正有价值的数据不足,因此,从一般的数据收集到数据挖掘正在变化,从庞大的数据中寻找针成为课题。“数据策略”是应对星尘挑战的策略,也是与其他公司最大的不同。mdash;我们是人工智能数据策略专家这个定位。rdquo;

数据策略还包括算法和数据相关技术(如区域迁移、时空融合、数据扩展和弱教师学习),以及以数据为中心的反馈迭代技术(如主动学习、增强学习、数据搜索、human-in-the-loop和数据安全)创建方案数据、测试模型等。数据策略专家需要精通其技术和产品,并以专业性对待客户。

ldquo;那个典型的例子是,顾客为了不用感知算法进行运动补偿,一个一个地手工确认照相机信号和雷达信号的情况。星尘数据策略专家和算法进行了协商,提出了通过2DOD算法和3D映射联合计算在IoU中筛选候选样本的方案,将多个算法直接以与人交互的方式嵌入到标记过程中标记时间减少了50%以上。rdquo;章磊进行说明。

3

mdash;

你可以制作Photoshop

当前,企业在选择数据注释服务时有以下模式:。

首先是使用开源工具来标记数据,但是开源工具往往是演示产品,是前端研发的小工具,用户数据的加工流程没有打磨,作为中端产品没有发挥作用。此外,无法满足高技术、人员、专业性、大规模、高自动化等需求。

另外,随着各种各样的传感器和应用场景的充实,自动运行所需的标记数据的种类也会多样化,所以开源的工具中,作为基础的数据和基础的架构,也有可能与某种数据不对应。

第二种模式是内部制造的,但在这里可以分为外包还是不外包两种。在不外包的前提下,内部注解团队的人工成本较高,投入与产出之比较小。另外,因为不是收入部门,所以预算有限,所以对技术反复的热情很低,输入对输出的比率变得更低,结果很难产生正的循环。我们看到jd、阿里、腾讯等大公司正在拆掉标签部门

如果外包人力,企业只自己提供注解平台和注解工具,由于缺乏管理工具和手段,经常面临人工注解随意度高、数据非标准、错误率高、返工率高等问题同样不能及时有效地满足需求。

正因为有这样的疼痛,才会有星尘数据这样的第三方数据。

ldquo;但是star灰尘不是100%的数据显示,很难解决这一部分。是最先进的大规模数据显示。rdquo;章磊说。

Rosetta3.0作为解决客户烦恼的重要中继工具,可与Photoshop、Sketch等熟悉工具的丰富功能、算法的访问能力、交互等相媲美。

上图显示了3.0平台内4D重建点的云部分,根据章磊,全部展示超过500万点。一般的空间描写能力一般在30万~80万分左右。ldquo;同时最多可以标记2000帧,通常是500帧的连续帧,也就是说1秒是10帧的话,可以测量1分钟的影像和1分钟的3D空间数据量。同行业约50帧,拥有超过友社的标记处理能力。rdquo;

最后总结一下星尘数据是怎样的存在,章磊如下所述。我们自己拿工具、材料、装修方案帮客户装修房子。这种模式更接近中国的实际市场环境,首先要处理金刚钻数据,第二要处理金刚钻数据,第三,我们还要为您设计、架构,与您一起探讨战略,最终完整的服务和产品矩阵必须一起完成。rdquo;

这就是星尘数据的闭环

根据章磊,星尘数据已经服务于50多家车头的汽车厂和自动驾驶公司,其数据闭环系统可以通过自动化的方法减少60%以上的数据处理量,将客户的算法迭代周期从3个月缩短到2周顾客可以每两周更新一次模型。ldquo;我们可以实时反馈给客户,用户也可以实时发送数据,基于我们的数据管理系统客户将数据从数据掉到磁盘(指数据写入磁盘,自动运行领域主要收集的数据从传感器到硬盘或云上的过程)到数据处理、数据显示、数据检查,最后将数据lsquo进行rsquo;给出算法,使整个过程自动化的rdquo;。

展开剩余内容

分享到:

猜你喜欢

  • b2b网站策划书_b2b策划案

    b2b网站策划书_b2b策划案大家好,今天我来给大家讲解一下关于b2b网站策划书的问题。为了让大家更好地理解这个问题,我将相关资料进行了整理,现在就让我们一起来看看吧。文章目录...

    2024-10-22 企业 网站
  • 浙江高端网站_浙江高端网站有哪些

    浙江高端网站_浙江高端网站有哪些好久不见了,今天我想和大家探讨一下关于“浙江高端网站”的话题。如果你对这个领域还不太了解,那么这篇文章就是为你准备的,让我们一看看吧。文章目录列...

    2024-10-22 网站 浙江
  • 做酒的网站_做酒的网站有哪些

    做酒的网站_做酒的网站有哪些希望我能够回答您有关做酒的网站的问题。我将根据我的知识库和研究成果回答您的问题。文章目录列表:1.酒仙网CEO郝鸿峰的电商百亿梦想2.有没有关于介绍...

    2024-10-22 中国 酒类 酒仙 网站
  • 索尼手机软件_索尼手机软件商店

    索尼手机软件_索尼手机软件商店下面,我将为大家展开关于索尼手机软件的讨论,希望我的回答能够解决大家的疑问。现在,让我们开始聊一聊索尼手机软件的问题。文章目录列表:1.索尼的手机...

    2024-10-22 手机 索尼
热门标签