hadoop的pig与zookeeper总结
更新时间:2024-06-11 13:55:01 阅读量: 综合文库 文档下载
北大青鸟中关村
hadoop的pig与zookeeper总结
1.安装Pig 将pig添加到环境变量当中 2.pig使用 首先将数据库中的数据导入到HDFS上 sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 --table trade_detail --target-dir '/sqoop/td' sqoop import --connect jdbc:mysql://192.168.1.10:3306/itcast --username root --password 123 --table user_info --target-dir '/sqoop/ui' td = load '/sqoop/td' using PigStorage(',') as (id:long, account:chararray, income:double, expenses:double, time:chararray); ui = load '/sqoop/ui' using PigStorage(',') as (id:long, account:chararray, name:chararray, age:int); td1 = foreach td generate account, income, expenses, income-expenses as surplus; td2 = group td1 by account; td3 = foreach td2 generate group as account, SUM(td1.income) as income, SUM(td1.expenses) as expenses, SUM(td1.surplus) as surplus; tu = join td3 by account, ui by account; result = foreach tu generate td3::account as account, ui::name, td3::income, td3::expenses, td3::surplus; store result into '/result' using PigStorage(',');
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。
ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
ZooKeeper包含一个简单的原语集,[1] 提供Java和C的接口。
ZooKeeper代码版本中,提供了分布式独享锁、选举、队列的接口,代码在zookeeper-3.4.3\\src\\recipes。其中分布锁和队列有Java和C两个版本,选举只有Java版本。(概述图片来源:[2] )
在Zookeeper中,znode是一个跟Unix文件系统路径相似的节点,可以往这个节点存储或获取数据。如果在创建znode时Flag设置为EPHEMERAL,那么当创建这个znode的节点和Zookeeper失去连接后,这个znode将不再存在在
Zookeeper里,Zookeeper使用Watcher察觉事件信息。当客户端接收到事件信息,比如连接超时、节点数据改变、子节点改变,可以调用相应的行为来处理数据。Zookeeper的Wiki页面展示了如何使用Zookeeper来处理事件通知,队列,优先队列,锁,共享锁,可撤销的共享锁,两阶段提交。
那么Zookeeper能做什么事情呢,简单的例子:假设我们有20个搜索引擎的服务器(每个负责总索引中的一部分的搜索任务)和一个总服务器(负责向这20个搜索引擎的服务器发出搜索请求并合并结果集),一个备用的总服务器(负责当总
北大青鸟中关村
服务器宕机时替换总服务器),一个web的cgi(向总服务器发出搜索请求)。搜索引擎的服务器中的15个服务器提供搜索服务,5个服务器正在生成索引。这20个搜索引擎的服务器经常要让正在提供搜索服务的服务器停止提供服务开始生成索引,或生成索引的服务器已经把索引生成完成可以提供搜索服务了。使用Zookeeper可以保证总服务器自动感知有多少提供搜索引擎的服务器并向这些服务器发出搜索请求,当总服务器宕机时自动启用备用的总服务器。[4]
1.上传zk安装包 2.解压
3.配置(先在一台节点上配置) 3.1添加一个zoo.cfg配置文件 $ZOOKEEPER/conf mv zoo_sample.cfg zoo.cfg
3.2修改配置文件(zoo.cfg) dataDir=/itcast/zookeeper-3.4.5/data server.5=itcast05:2888:3888 server.6=itcast06:2888:3888 server.7=itcast07:2888:3888 3.3在(dataDir=/itcast/zookeeper-3.4.5/data)创建一个myid文件,里面内容是server.N中的N(server.2里面内容为2) echo \ 3.4将配置好的zk拷贝到其他节点 scp -r /itcast/zookeeper-3.4.5/ itcast06:/itcast/ scp -r /itcast/zookeeper-3.4.5/ itcast07:/itcast/ 3.5注意:在其他节点上一定要修改myid的内容 在itcast06应该讲myid的内容改为6 (echo \) 在itcast07应该讲myid的内容改为7 (echo \) 4.启动集群 分别启动zk ./zkServer.sh start
正在阅读:
领导者如何激励员工课后测试答案12-24
新产品导入控制程序03-01
1Z201050 建设工程项目管理规划的内容和编制方法06-28
黄酒项目可行性研究报告 - 图文01-24
县行政审批局2022年工作计划范文04-06
公司股东变更登记提交材料及表格(电子版)06-11
新人教版七年级地理下册《八章 东半球其他的地区和国家 第四节 澳大利亚》教案_705-07
西门子微机综合保护测控装置10-10
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- zookeeper
- 总结
- hadoop
- pig
- 中大课程教学系中文科教学研讨会
- 煤矿安全质量标准化-入井、举报、带班、安全操作管理制度(安全
- 2015年度徐建发64号附件2014年度徐州市“古彭杯”优质工程奖名单
- 2019届高中英语一轮复习外研版必修一 Module 3My First Ride on
- 《中国革命战争的战略问题》读书笔记
- GCP知识手册口袋书第二版 - 图文
- 2.2 函数的定义域、值域及函数的解析式
- 南方CMS集体土地确权登记发证管理系统操作手册 - 图文
- 计量支付管理办法
- 2009年湖北省中考化学试题
- 超声波换能器说明书(Y070417)1 - 图文
- 2016届江苏省苏锡常镇四市高三教学情况调研(二)英语试题-(解析版
- 2018新人教版一年级数学下册《想一想 摆一摆》教学设计
- 药物合成反应模拟试卷5
- 重庆市高等学校巴渝学者特聘教授候选人推荐表
- 牢记两个务必加强作风建设党课讲稿
- 16秋北理工《应用文写作》在线作业 辅导资料
- 毕业论文
- 经济管理学院本科毕业论文撰写规范
- 人力资源管理师(三级)历年真题