Hadoop简介

By | 2018年6月14日

Hadoop的思想之源:Google
– 面对的数据和计算难题
* 大量的网页怎么存储
* 搜索算法
– 带给我们的关键技术和思想
* GFS
* Map-Reduce

* Bigtable(hbase)

Hadoop创始人介绍

– Hadoop作者Doug cutting,就职Yahoo期间开发了Hadoop项目,目前在Cloudera 公司从事架构工作

Hadoop简介
– 分布式存储系统HDFS (Hadoop Distributed File System )
* 分布式存储系统

* 提供了 高可靠性、高扩展性和高吞吐率的数据存储服务

– 分布式计算框架MapReduce
* 分布式计算框架

* 具有 易于编程、高容错性和高扩展性等优点。

HDFS优点:
– 高容错性
* 数据自动保存多个副本
* 副本丢失后,自动恢复
– 适合批处理
* 移动计算而非数据
* 数据位置暴露给计算框架
– 适合大数据处理
* GB 、TB 、甚至PB 级数据
* 百万规模以上的文件数量
* 10K+ 节点
– 可构建在廉价机器上
* 通过多副本提高可靠性

* 提供了容错和恢复 机制

HDFS缺点:
– 低延迟数据访问
* 比如毫秒级
* 低延迟与高吞吐率
– 小文件存取
* 占用NameNode 大量内存
* 寻道时间超过读取时间
– 并发写入、文件随机修改
* 一个文件只能有一个写者

* 仅支持append

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注