在数据规模爆炸式增长的今天,复杂的业务场景对数据的使用提出了更高的要求,数据需具备良好的容错能力,集群服务应拥有健壮的稳定性。Hadoop HDFS自诞生至今,一直都是大数据领域事实上的分布式存储基座,已经得到众多企业支持,包括Cloudera、Uber、腾讯、美团、京东等。据了解,不少生产环境集群节点达到万台以上,可以轻松应对多场景业务类型的访问。
任何事物除了关注其本身特性,还有必要了解其发展历史。从发展历史中了解其内在逻辑,对于更好地理解事物很有裨益。作为一款非常受欢迎的分布式存储产品,HDFS和分布式及文件系统很有渊源。分布式文件系统的设计和实现包含内容复杂,为了推动行业向前发展,帮助从业人员和热爱分布式技术的开发者对分布式文件系统有更深层次的了解,机械工业出版社于2023年8月,邀请祝江华 董西成 贺小桥 陈昱康四位大数据专家为大家带来的专题分享会,分享会上四位专家围绕技术热点和行业痛点展开分享,干货满满,获得了广大参会开发者的一致好评。
在近期的一系列文章中,小编将为大家复盘四位专家的精彩观点和行业洞见,没能参会的小伙伴们,不要错过啊!
PART1:嘉宾介绍
祝江华,大数据技术专家《Hadoop HDFS深度剖析与实践》作者
董西成,快手数据平台产品&研发负责人,《Hadoop技术内幕》作者
贺小桥,Apache member,Apache Hadoop PMC member
陈昱康,B站离线平台负责人
PART2:精彩回顾
话题一、《Hadoop HDFS深度剖析与实践》将解决哪些行业痛点?
祝江华:当前,行业在发展过程中存在一些痛点,我认为有三部分是非常重要。
第一部分是:近几年,大数据技术发展迅速,尤其是计算方向先后出现了很多优秀的产品与技术迭代,比如流式处理,强悍的分析引擎等等。当下大数据,整个链路其实是离不开存储这一块,因此也需要进一步推动存储技术的进步。这样对整个行业产业都是很有利处的。
第二部分是:现在无论是大公司还是小公司,从数仓平台到底层的基础设施,大数据平台的建设都普遍现象。虽然现在搭建大数据平台更加方便了,但是想要建设一个非常成功的大数据平台并非易事。这其中要注意的内容非常多,尤其是存储板块,因此,需要我们本着促进行业发展的目的,相互交流,彼此碰撞,才能使整个行业得到良好的发展。
第三部分是:HDFS依然是行业内建设大数据过程中采用的主流基础设施,目前仍然有很多开发者对这一产品所包含的理念和技术存在理解不到位。
既然我们提到了当前行业内存在的痛点,所以。我在这里想聊一下《Hadoop HDFS深度剖析与实践》这本书,能为行业能给我带来什么?
第一方面:这本书体系化的系统介绍了相关知识点,希望能够促进存储技术的发,特别是在基础层面,从而促进行业的发展。
第二方面:对一些需要帮助的开发者,特别是对分布式存储,云计算以及分布式技术感兴趣的开发者提供一些力所能及的帮助。
第三方面:分享一些个人心得给同行。
话题二:对当下的大数据的热点存储技术探讨
祝江华:当前在整个大数据领域,可以说存储是不得不存在的方向。现在我们大数据业界对存储的定位和认识是怎样的?当下对于HDFS在行业内的一个地位是怎样的?这两个问题,相信董西城老师会有更独到的理解,供我们大家学习一下。
董西成:我简单谈一下我对存储的理解!存储技术,我觉得是大数据领域比较难的技术!包括它对技术的要求,对可靠性,稳定性等方面的要求还是很高的。
存储技术涉及的范围也是很广的,包括结构化,非结构化存储。这是非常重要,比如说结构化存储,大家都熟悉的关系型数据库MySQL,Oracle等等;非结构化数据,包括,比如说我们今天重点提到的文件存储HDFS。整个存储这个领域。所以整个存储这个领域涉及的范围,非常之广。并且针对不同的场景,现在存储体系也是有所差异。这是从存储分类上来看。
从另外一个视角,从稳定性,成本性能方面也有不同的划分方式,但整体上HDFS目前仍然是在大数据领域非常重要的一个系统。包括就是比如说在快手、字节、美团等等相当多的公司,尤其是内部,这种自建的整个大数据体系,HDFS仍然是最主流的存储系统之一。
所以我觉得江华写的这本《Hadoop HDFS深度剖析与实践》其实也是能够切中我们对当下热点以及主流方向的痛点和需求。
祝江华:业界对存储的定位和认识是怎样的?当下对于HDFS在行业内的一个地位是怎样的?请乔总分享一些自己的观点。
贺小乔:因为我是工作的主要方向在离线存储方向,我重点就是聊一聊我对离线存储的理解。在我看来,不管是从大数据生态来看,还是说从其他的体系来看的话,存储其实都是最重要,也是最基础的。从之前传统的素材业务,到最近除了传统的素材业务之外,还有一些机器学习,类似这种新兴的业务的研究,对存储的需求可能提出了一些更高的要求。比如说。这个需要有无限接近的资源供给,高吞吐低时延,还有可靠性或者是低成本等等,这些都有一些更高的要求。
HDFS虽然不能特别完美的能解决方方面面的问题,但是从我的实践经验来看,HDFS在整个大数据领域里面,其实还是一个比较关键或者是核心的方向,主要我理解还是从几个方面展开:第一,因为Hadoop的生态相对还算比较成熟,而且这个包括周边的各种配套的工具体系,经过多年的大规模生产实践验证,其实已经相当成熟了。第二,我认为从很多生态来看,HDFS还是在持续的发展和演进过程中。所以整体来看,HDFS还是在处在一个不错的方向上。
祝江华:在当下大数据平台建设和使用过程中,对于数据的管理非常重要,数据种类很多,例如json,log文件,表数据等,本质上他们都是规则不一,类型不固定的文件,一款优秀的分布式文件存储系统,主要的核心模块和架构应该是怎样的?
陈昱康:对于这一点,在《Hadoop HDFS深度剖析与实践》有很多详细的介绍。我简单讲一下我自己的理解。
首先可以肯定元数据管理模块其实是非常重要的,因为元数据是维护了整个文件的数据信息,我们需要支持一个高效的数据查询和索引的能力。
另外我认为比较重要是对数据的存储引擎,HDFS作为一款支持高吞吐,低延迟的数据写入和读取存储引擎,对底层的数据的一些编码,包括Check的一些保证,都做的非常不错。
第三点是涉及生产环境,我们需要有一个比较好的访问控制,包括安全性,多租户等这些的能力,另外还包括例如权限等的一些的能力,进一步的话对数据上面还会做一些透明的加密,这一块其实在HDFS上面也有很好的保障。
第四点我想谈一下,HDFS系统的扩展能力,它能够支持比较好的动态集群扩展的能力。包括性能和容量等方面,来适应不断增长的数据需求,我们现在生产的数据量级更高,那需要有非常强的扩展能力才可以承担一个大规模数据的存储,同时也需要搭配很好的数据迁移,数据清理以及利用率等。
董西成:对于分布式存储系统,类型很多,它们的架构各不相同,从整体上来讲的话,有主从架构,比如HDFS就是这种典型主从架构,这种架构比较简单,设计起来也比较容易去实现。
还有类似去中心化的这种架构。这种架构没有单点问题,当然它也会带来其他的问题,我们重点介绍主从架构。
不同系统架构设计,虽然有共性,但是这里特别强调他们还是有不一样的地方。比如主从架构,从控制节点,存储节点,通信机制,还有一系列的辅助能力,例如安全加密,面临的单点问题和扩展性问题等等,在《Hadoop HDFS深度剖析与实践》里面也写到了对于超大规模的主从架构的解决方案,包括在基础层面对元数据进行横向的切分,形成多个Master和子集群,基于这些基础,再构建虚拟层,然后对外屏蔽底层的构建,以此来解决大规模存储下扩展性的问题。