大数据存储分离主流趋势华瑞指数云抢占行业高地，

2023-03-05 09:49:54 栏目 : 手机数码围观 : 0次

在数字经济快速发展的背景下，数据成为新的生产资料，企业不仅可以通过大数据平台充分挖掘和有效利用海量业务数据，优化资源配置和使用效率可以驱动业务流程帮助管理层进行决策分析。

目前，大数据平台已成为企业数字化的基础设施。但随着近年来云计算、5G、AI等技术的日新月异，企业数据量指数级不断增加，新的数据业务层出不穷。传统大数据平台所依托的内存耦合架构，其性能和可扩展性已无法适应时代的发展。例如，由于存储器紧密耦合而难以扩展和运营维持的问题、基于3副本的数据冗余技术带来的高数据存储成本的问题等，由于数据存储层性能不足、接口不丰富、特性不足而导致的数据存储下降，由于数据孤岛问题企业要开始面对“不能保存、不能流动、不能很好地使用”的挑战。

随着技术的发展和业务要求的推进，存储隔离大数据架构应运而生，在此架构下计算和存储是两套独立的集群，大大提高了存储级的存储能力、可用性、可扩展性和运维管理能力计算水平的可扩展性和灵活性也得到了提高，成为解决行业痛点的一大利器。目前，从业务需求和大数据技术的发展趋势来看，计算、存储分离模式已经势在必行，“存储分离”架构在大数据领域掀起了深刻变革。

随着大数据体系结构的变革，内存将向主流方向分离

要理解企业大数据架构向存储分离演进的必然性，首先要了解大数据架构的发展历史。

说起大数据体系结构，不能忽视的是Hadoop。2003年左右，由Google发表GFS和MapReduce论文为节点揭开了大数据处理技术的序幕，本文介绍了一种利用普通PC服务器构建大规模分布式系统，解决海量数据存储和计算问题的方法。随后，开发的分布式Hadoop开源系统逐渐成为处理大数据的通用技术框架。这是存储器耦合的体系结构，其本质的出发点是在网络带宽不足的条件下尽可能减少数据的移动。该技术框架首次利用集群的计算和存储能力，实现了对海量数据可靠、高效、可伸缩的分布式高速运算，被企业广泛采用，成为热点技术之一，甚至被视为前沿技术标准。

现在Hadoop仍活跃在大数据领域，但在过去的20年里，它不是不变的，而是重复了3次。从其演进过程可以看出，大数据架构正在从存储一体向存储分离演进。

在Hadoop1.0时代，计算与存储高度融合，只能处理单一的MapReduce分析业务，在Hadoop2.0时代，计算层与数据开始解耦，通过Yarn实现了独立的资源管理，现在到了Hadoop3.0时代，计算存储已经分别进化通过HDFS EC支持冷数据存储，向数据湖架构演进。

通过Hadoop走过的三个阶段，不难发现储蓄分离正在成为主流。Hadoop自身架构的演进，加上业内关于存款分离的讨论和实践越来越流行。例如，近年来非常流行的各种云数据库和云上的大数据服务，不约而同地选择存储和计算分离的架构。Facebook根据自己的业务需求，为了支持1亿多用户产生的大数据，开发了一套存款分离架构的Starburst共同创业者贾斯汀·伯格曼，为了让企业的数据架构经受住时间的考验他建议拥抱储蓄分离很重要。

在历史进程下，计算一体架构的瓶颈日益凸显

那么，为什么大数据架构要从内存耦合走向内存隔离，具体来说，是因为在技术迭代和业务发展的推动下，其本身的性能有限。

首先是网络技术的发展。网络性能从当时的100兆网卡100Mb增加到现在的10Gb，网络带宽提高了100倍，但同期硬盘的性能几乎没有变化，大数据瓶颈从IO变成了CPU。然而，存储耦合体系结构不能灵活地处理以释放处理器资源。

其次是企业业务的变化。近年来，在一些购物节期间，不少企业面临突发数据高峰，但此时由于计算、存储资源受到束缚，只能快速扩张计算资源，同时必须扩张存储资源，导致资源浪费。此外，随着企业的信息化，数字化建设的深入，业务复杂度的增加，新业务的在线化加快，存储计算结合的设计对服务器资源匹配的要求也随之增加，进而可以提高企业的配置成本。

此外，内存一体结构的原生缺点也很多，以Hadoop经典存储系统HDFS为例，大量小文件处理能力差，三拷贝的设计也造成极大的内存空间浪费，同时内存耦合导致系统升级和扩展繁琐限制了系统的可扩展性和资源的有效利用。

另一方面，存储器隔离体系结构可以很好地弥补这些缺陷。计算表明，由于存储分为两个独立的集群，因此可以分别独立地进行容量扩展、升级、调优等运用维度，两者互不影响，同时可以给两者带来性能的提高。

具体而言，在计算方面，支持多个计算框架、多个版本，能够避免特定厂商、特定计算框架版本的锁定，能够实现计算的完全无状态化、轻量化、动态弹性，能够实现任务的调度、分发、通过计算管理，您可以更加动态和灵活。计算层的硬件资源可以实现高度的复用和极高的利用率。

在存储方面，引入丰富的企业级存储能力，提高数据的可靠性和安全性，降低存储层的总体拥有成本，通过云形成跨多站点的统一存储平面，将数据湖与数据仓库融合可以实现将所有数据原生存储在统一存储平面中。无需移动数据，所有业务都可以按需访问所需的数据，并随时进行数据分析。

但值得注意的是，存款分离可以解决目前的一些伤痛，但并不是完美的良药，在技术结构和具体实现上还需要进一步创新。在现有的体系结构中，虽然实现了保存分算，但存在一些困难的难点，例如Hadoop3.0阶段。HDFS可以使用EC代替三拷贝来降低储存成本，储存解压缩后可以独立扩大计算集群和储存集群以提高资源利用率，但仍然需要解决的很多，如：（1、储存面能力单一无法提供多种接口保存全场景数据，多数据孤岛化、繁琐的数据拷贝和集成工作，（2、处理大量小文档性能低、规模受限，（3、管理多套异构集群（4、难以管理HDFS协议和S3协议的异构存储（5、难以在存储方面为高性能数据分析、实时数据仓库等场景提供足够的性能，其中数据消耗大量的计算和带宽资源以在集群之间移动。

在试算分离建设中，华瑞指数数云而进

为了更好地应对未来大数据行业的发展，进一步构建技术前沿，构建能力更丰富、业务适应能力更强的存储分离架构和解决方案，一些厂商很早就开始投入下一代存储分离架构的技术研发已经形成了比较完善的产品和解决方案，形成了相应的优秀案例。

整个数据基础架构的解决方案提供商华瑞指数云科技有限公司（ExponTech），构建了“以数据为中心”的新一代智能数据基础架构，采用分布式架构及软件定义技术使用普通标准服务器作为主要硬件，形成统一的分布式存储池和数据平台，使用完整的内存隔离架构，企业构建统一独立的数据平面既能彻底解决数据孤岛以及数据管理和数据价值利用的挑战，又能实现计算平面的无状态化和弹性伸缩，大大提高数据分析效率，提高IT资源利用率，简化管理。华瑞指数云是基于存储隔离架构的新一代数据基础架构产品和解决方案，具有技术前瞻性和领先性，能够适应当前业务需求和未来对数字化和智能化的需求其能力远远超过了以Hadoop及HDFS为核心的传统大数据解决方案，直接对接使用企业已建成的虚拟化、私有云、大数据平台等计算方面的系统，为计算方面提供丰富的存储和数据管理能力。主要能力特征包括：。

全场景数据存储能力

对象存储：符合业务标准的对象存储接口S3存储大量非结构化数据，可用于视频点播、视频监控、基因测序、企业云盘、备份归档等应用场景。对象存储桶可以聚合多个用户无法感知的存储池，单个存储桶跨越物理池边界，为用户提供几乎无限扩展的单个桶容量，提高了单个桶的同时访问能力可以获得更高的聚合性能。对象存储支持数据存储分层、数据生命周期管理、多站点全局命名空间、数据异步复制、智能数据处理框架、数据存储加密、WORM模式等高级特性。

大数据接口HDFS：支持与主流大数据Hadoop生态无缝连接，直接在统一数据平台上提供丰富的大数据分析能力，在大数据分析场景中提供计算和存储分离解决方案，不仅满足了海量数据的高效处理帮助用户实现真正的计算和存储资源独立的按需扩展。基于HDFS的传统大数据存储方案在数据快速增长场景中存在扩展能力、使用成本、可靠性和灵活性问题。统一分布式数据存储平台支持存储分离的大数据解决方案，主要包括海量数据批量分析场景，如历史数据明细查询（流水审计、设备历史能耗分析、轨迹回放、车辆驾驶行为分析、精细化监控）、海量行为日志分析（学习习惯分析、运营日志分析、系统操作日志分析查询）、公共事务分析统计（犯罪追踪、相关案件查询、交通拥堵分析、旅游地热统计）等场景，为用户提供按需容量扩展、高性能、成本优化的存储能力。

块存储接口：提供RBD、iSCSI、NVME-OF标准接口，与VMware、OpenStack、Kubernetes等主流虚拟化和云计算环境无缝连接，为云计算环境提供统一的存储池，提供虚拟化、私有云、广泛支持应用于集装箱、云桌面和OLTP数据库等典型业务场景，支持iSCSI多路径、卷快照、卷克隆、自动精简部署等企业级存储特性，支持业务连续性、数据保护、满足提高存储资源利用率的要求。

文件存储：提供POSIX、NFS v3/v4、SMB v2.0/v3.0/v3.1标准文件访问协议、linux和windows平台的高性能专用客户端、高性能的FUSE POSIX文件接口、企业办公、文件共享、内容管理、高性能计算、广泛支持应用场景，如备份存档等，根据需要横向扩展，还提供文件快照、目录级配额、数据分层流动等特性。

SQL接口：面向数据的实时分析场景（OLAP）提供直接数据存储能力和数据分析能力，将SQL作为查询语言（支持GROUPBY、ORDERBY、JOIN、IN等大部分标准SQL），在数据访问方面，使用列存储提高查询和分析性能不仅支持分区（纵向扩展，利用多线程原理），还支持分片（横向扩展，利用分布式原理），在亿级数据量下，毫秒级查询响应时间。

解决性能难题

可以组合SATA SSD或NVME SSD作为数据读写缓存，该机制通过优化数据读写热点、数据预读、小I/O与小文件合并、大I/O与大文件直通硬盘主存储设备等一系列技术实现整个系统的高水平读写性能。

智能数据缓存和调度技术可以感知业务应用的数据访问模型，为不同的I/O模型采用不同的I/O策略，将OPS要求高的小对象访问实时统一为大I/O将带宽要求高的大I/O直通主存储池，对大I/O进行智能调度排序，尽可能优化数据磁盘性能。

为全闪存硬件优化的极速存储，提供单卷百万级IOPS和单路径百微秒级的稳定等待时间，满足企业关键应用的极高性能要求，满足大型数据库、大规模虚拟化、HPDA、对应于诸如AI/ML等高性能要求场景，可以在许多场景中直接交换AFA全闪阵列，并且还具有AFA全闪阵列所不具备的优点，例如水平扩展、软硬件解耦等。

在小文件处理中，小文件在线聚合技术可以优化大量小文件数据的读写效率和存储利用率。

为多样化的非结构化数据处理场景提供相应的IO性能支持：例如，AI/ML人工智能和机器学习依赖大量不同的数据（图像、文本、结构化和半结构化数据）建立有用的训练模型，提供推理结果。这些数据从多种来源收集，边缘、企业内部或共享云与第三方数据服务、数据文件大小、类型和访问方法不同，培训和推理的数据IO模型复杂，既有大文件的高带宽读写也有随机的小IO密集访问，需要非常低的延迟。

系统具有横向弹性扩展能力和线性扩展的整个系统吞吐量带宽，能够充分满足分析型（OLAP）数据库持续增长的容量扩展要求。

大数据分析能力

无缝对接使用以Hadoop生态为基础的大数据框架提供计算和数据分析能力，其数据存储能力通过内存分离架构从分离配置的分布式数据存储平台获得。

平台封装了大数据相关技术，提供了简单易用的操作界面，摆脱了大数据建设对复杂基础技术的要求，通过简单的脚本（SQL、Python等）将企业从数据集成、数据分析、在治理实施方面可以具有快速的大数据服务能力。

云本机体系结构

整体架构基于云本机技术设计，跨越存储介质、地理位置和平台界限，根据需要迅速部署到任何地理位置、任何平台。

基于微服务模型开发的软件架构将每个系统的每个模块组件分离成微服务并封装在容器环境中，从而提高了系统的容错能力、扩展能力和安全性。根据基于微服务的形式，可以单独升级系统的各模块组件，迅速提高服务能力。基于容器的软件包优化了云本机环境，可以在云、数据中心和边缘的任意位置在几秒钟内轻松发布数据存储服务，同时保持运维管理的一致性。

多级安全可靠性

全系统无单点故障的全分布式体系结构

展开剩余内容

分享到：

标签存储计算数据

上一篇：TG万网博通新的AI智能开关“智能监视器”，TG万网博通新的AI智能开关“智能监视器” 下一篇：2021日韩争霸索尼X95J和三星QN85A4K液晶的新基准是谁-_1，

大数据存储分离主流趋势华瑞指数云抢占行业高地，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光网友直呼看不懂急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

大数据存储分离主流趋势华瑞指数云抢占行业高地，

猜你喜欢

商务轻薄新宠:华硕破晓6支持AI办公,正式上架开售

realme预热海报曝光 网友直呼看不懂 急需大侦探解密

小生意，大爆发｜八大行业双11策略划重点

减负必备 没有这些AI功能都不好意叫智能手机

推荐文章

网站分类

热门浏览

热门标签

realme预热海报曝光网友直呼看不懂急需大侦探解密

减负必备没有这些AI功能都不好意叫智能手机