hadoop生态组件安装部署的标准化基本流程

Hadoop生态组件的安装部署基本可以归纳为以下标准化流程:


通用安装思路总结

  1. 解压文件

    • 下载压缩包 → 解压到指定目录(如/opt/)→ 重命名便于管理 → 设置权限
  2. 配置环境变量

    • ~/.bashrc或者/etc/profile中添加XXX_HOMEPATHsource生效
      (关键变量:JAVA_HOME, HADOOP_HOME, HBASE_HOME, HIVE_HOME等)
  3. 配置核心文件

    • Hadoop: core-site.xml, hdfs-site.xml, yarn-site.xml, mapred-site.xml, workers
    • HBase: hbase-site.xml, regionservers
    • Hive: hive-env.sh hive-site.xml
    • 通用原则
      • 指定主节点地址(如fs.defaultFS
      • 配置分布式存储路径
      • 设置副本数、端口等参数
  4. 分发同步配置

    • 通过scp将配置好的目录复制到其他节点
    • 确保所有节点环境变量和配置文件一致
  5. 启动程序

    • 顺序要求
      1. 先启动HDFS(start-dfs.sh
      2. 再启动YARN(start-yarn.sh
      3. 最后启动其他组件(如HBase、Hive)
    • 关键命令
      • 首次需格式化HDFS(hdfs namenode -format
      • 单独启动HistoryServer(mapred --daemon start historyserver

为什么是这个逻辑?

  1. 解压与环境变量

    • 解决”在哪里找到软件”的问题,让系统能定位可执行文件。
  2. 配置文件

    • 解决”如何运行”的问题,定义集群拓扑、存储路径、通信端口等关键参数。
  3. 分发与启动

    • 解决”分布式协作”的问题,确保所有节点使用相同配置,并按依赖顺序启动服务。

易错点提醒

  1. 权限问题

    • 确保所有节点对安装目录有读写权限(如chown操作)。
  2. 配置一致性

    • 多节点集群中,同一配置文件的参数必须同步(如fs.defaultFS指向的namenode地址)。
  3. 启动顺序

    • 底层服务优先(如HDFS→YARN→HBase→Hive),类似”先盖楼再装修”。
  4. 日志排查

    • 任何服务启动失败时,第一时间查看logs/目录下的日志文件。

一句话流程

解压 → 配环境 → 改配置 → 同步 → 按序启动 → 验服务
掌握这个模式后,大多数分布式系统的部署(如Spark、Flink等)均可触类旁通。

[up主专用,视频内嵌代码贴在这]