博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Flume_初识
阅读量:5359 次
发布时间:2019-06-15

本文共 1595 字,大约阅读时间需要 5 分钟。

企业架构

数据源   webserver RDBMS数据的采集 shell、flume、sqoop job监控和调度 hue、oozie数据清洗及分析 mapreduce、hive数据保存 sqoop

 概念: 三大功能 collecting(收集),aggregating(聚合),moving(传输)

Flume是一个分布式的,可靠的,可用的,健壮且高容错性的框架,非常有效率的对大数据量的日志数据进行收集,聚集,传输信息的服务,但老版本仅仅运行在Linux环境中

 特点: on streaming data flows(基于流式的数据)

数据流: job 不断获取数据任务流:job1 --> job2 --> job3&job4 --> job5 在线实时收集应用分析,简单表现为:写个source、channel、sink,之后一条命令 就能操作成功了,实际情况下flume、kafka实时进行数据收集 spark、storm实时去处理,impala实时去查询

Flume-ng只有一个角色节点: agent的角色,agent有source、channel、sink组成

其中  source 用于采集数据,source是产生数据流的地方,同时Source会将产生的数据流传输到channel  channel 连接source和sink,有点像队列  sink 用于从channel收集数据,将数据写到目标源,可以是下一个source也可以是HDFS或是HBASE  Events(封装数据)    Event是Flume数据传输的基本单元    Flume以事件的形式将数据从源头传送到最终的目的地    Event由可选的header和body构成(类似http协议)    载有的数据对flume是不透明的    Header是容纳了key-value字符串对的无序组合,key在集合内是唯一的    Header可以在上下文路由中使用扩展

 Flume安装部署

下载对应的cdh版本解压后进行配置文件  -> env:修改java_home  -> 连接Hadoop    --> 启动flume时会先加载全局HADOOP_HOME变量,再去读取core/hdfs-site.xml    --> 将hdfs的配置文件放到conf目录       --> 在agent配置文件中写明hdfs的绝对路径       --> 既然在HDFS上读写数据,需要hdfs的API,即需要导入Hadoop对应部分jar包	    commons-configuration-1.6.jar        hadoop-auth-2.5.0-cdh5.3.6.jar        hadoop-common-2.5.0-cdh5.3.6.jar        hadoop-hdfs-2.5.0-cdh5.3.6.jar  -> 命令格式    bin/flume-ng agent -c conf/ -n agentname -f agent_file    -c flume配置文件目录    -f properties文件目录

 企业中常用的类型

-> source  --> exec  --> spoolingdir  --> kafaka source  --> syslog source  --> http source-> channel  --> memory channel (不安全)  --> file channel  --> kafaka channel-> sink  --> hdfs sink  --> hbase sink  --> hive sink

转载于:https://www.cnblogs.com/eRrsr/p/6097286.html

你可能感兴趣的文章
Linux常用命令(七)
查看>>
Linux常用命令(九)
查看>>
Linux常用命令(十一)
查看>>
Linux常用命令(十)
查看>>
实验吧之这就是一个坑
查看>>
Linux常用命令(十二)
查看>>
Linux常用命令(十三)
查看>>
Linux常用命令(十五)
查看>>
Linux常用命令(十四)
查看>>
Linux常用命令(十七)
查看>>
Linux常用命令(十六)
查看>>
Linux常用命令(二十四)
查看>>
4种java定时器
查看>>
Vue.js 教程
查看>>
linux 设置网卡
查看>>
hive 语法 case when 语法
查看>>
Ajax:js读取txt内容(json格式内容)
查看>>
Task 7 买书最低价格问题
查看>>
Selenium3+python自动化007-警告框
查看>>
html5 相同形状的图形进行循环
查看>>