hadoop -- HDFS(1)


温柔解救不了这个世界 - 罪恶王冠


参考翻译

https://www.edureka.co/blog/hdfs-tutorial


DFS or Distributed File System

在说 HDFS 之前,先说说 DFS,即分布式文件系统

简单来说,分布式文件系统在于能够让你将一份很大的文件或者文件夹存储在多台电脑或者服务器上面,从根本上来讲,这就像是 window 的 NTFS(New Technology File System) 和 mac 的 HFS(Hierarchical File System),不同的只是 DFS 存储数据不再局限于单台机器,但是对于用户来说,操作文件在这三者上是没有很大区别的,虽然你访问某一目录下的文件在DFS中可能来自几台不同的机器上


What is HDFS

因此,可以顾名思义地理解为,HDFS 不过是适用于 Hadoop 的 DFS 罢了,只是在 DFS 的基础上,继续完善适配 Hadoop, 比如上面所说的多台电脑或服务器,在 HDFS 上被称为了节点(Node)或集群(cluster)

所以,总的来说,DFS 的进步意义在于每一台机器都能够贡献他们的微小空间来实现存储大量的任意类型的数据


Advantages Of HDFS

  1. 分布式存储

就像上面所说的,利用 HDFS 可以将 10T 的数据存储在 10 台存储只有 1T 的机器上,但是用户使用感觉只是在单台电脑上操作,可以说,HDFS 是大数据不在局限于物理边界

  1. 分布式和并行计算(Distributed & Parallel Computation)

很显然,既然单独的机器可以贡献存储,自然也可以贡献计算资源来共同完成任务工作,虽然上面图片所说的结果是将单独处理的时间平均分为10份,但是对于计算时间的缩减,Hadoop 是真的起到了不可估量的价值

  1. 水平扩展(Horizontal Scalability) 有了水平扩展的名词,自然就有了相对的垂直扩展(Vertical Scalability)了,垂直扩展简单来讲就是我们平时为我们自己的单机配置CPU和加内存的操作,但显而易见的缺点是:
    • 单台机器是不能一直扩展下去的,毕竟容量有限
    • 扩展的时候需要关机,虽然对于我们平时使用没什么影响,但是对于需要长期运行的机器是很费劲的

水平扩展的出现就是解决以上痛点,也是在分布式的基础上发展的,可以在不关机的集群中通过无限扩展节点来增加系统的存储量和计算力(power)

学习: Last but not the least 最后但并非不重要的一点