- 博客(38)
- 资源 (1)
- 论坛 (1)
- 收藏
- 关注
原创 oozie使用常见的bug解决
1、Mysql权限配置 2、workflow.xml配置的时候不要忽略file属性 3、jps查看进程时,注意有没有bootstrap 4、关闭oozie ** bin/oozied.sh stop)如果无法关闭,则可以使用kill ** kill -9 11111 oozie-server/temp/xx
2017-12-14 21:19:26
2245
原创 Hive的Metastore三种配置方式分析
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。而metastore是Hive元数据的集中存放地。metastore元数据存储主要体现在两个方面:服务和后台数据的存储。 关于Metastore的三种配置:内嵌配置,本地配置,远程配置。 1. 默认情况下,metastore服务和Hive的服务运行在同...
2017-12-14 21:06:23
10063
原创 做Hive开发要了解的数据仓库知识
1.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2.数据仓库的特点1.数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,...
2017-12-14 18:23:57
15079
原创 hive建表的标准格式及其建表属性详解1
Hive建表是学习使用hive的第一步,然后才能基于表对hive数据仓库进行操作。学习建表前,首先要知道hive表的构建属性 ,知道哪些属性是固定的,哪些属性是可以定制的等等。一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性)具体参考官网界面:HIVE官网建表说明文档 CREATE [EXTERNAL] TABLE ...
2017-12-14 17:52:48
24482
1
原创 ZooKeeper分布式锁与代码实现
1.zk的核心机制之一:分布式锁 分布式锁能够在一组进程之间提供互斥机制,使得在任何时候只有一个进程可以持有锁。分布式锁可以用于在大型分布式系统中实现领导者选举,在任何时间点,持有锁的那个进程就是系统的领导者。注意:不要将zookeeper自己的领导者选举和使用ZooKeeper基本操作实现的一般领导者选举服务混为一谈。事实上,zookeepr自己的领导者选举机制是不对外公开的。
2017-12-12 16:41:19
10377
原创 MR之自定义outputformat输出方式代码演示
.1需求现有一些原始日志需要做增强解析处理,流程:从原始日志文件中读取数据根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 .2分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自
2017-12-11 16:56:17
15998
原创 MapTask并行度和切片机制
一. MapTask并行度决定机制maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢?1.1 mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小
2017-12-11 16:40:58
30293
2
原创 Shuffle阶段:partition分区以及自定义使用注意事项
一:partition分区(shuffle阶段)Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask(所以这也决定了为什么最终的文件个数,即分区个数跟reducetask数量一样了。)。默认分区是根据key的hashCode对reduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。默认系统的patitioner类,实现类时ha
2017-12-11 16:28:51
29089
2
原创 hadoop项目:社交粉丝,共同好友数据分析实现
日常开发中,MR解决问题思想:决定谁是k,相同的k会被发送到reduce中进行汇总1.项目需求以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,
2017-12-10 21:47:32
6736
原创 开发中关于mapreduce中参数的调优策略
使用hadoop进行大数据运算,当数据量及其大时,那么对MapReduce性能的调优重要性不言而喻。尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面基于官网和工作中的情况总结和相关的调优策略。 1.关于map端的调优属性 属性名称类型默认值说明mapreduce.task.io.sort.mbint 10
2017-12-09 21:44:02
11168
原创 kafka拦截器原理剖析与演示
1.kafka拦截器原理(针对内部框架的信息进行在处理) Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。 对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个inter
2017-12-07 14:34:19
8767
原创 用sqoop导入数据到HIVE和HDFS中
一:sqoop数据的导入1.使用sqoop将:mysql中的数据导入到HDFS(直接导入)Step1、确定Mysql服务的正常开启 service mysql status Step2、在Mysql中创建一张表 mysql> crea
2017-12-07 14:28:12
11687
3
原创 sqoop的安装与工作机制
一:sqoop=sql—>haoop 1.1sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 1.2 工作机制(封装的mapre
2017-12-07 14:21:16
1742
原创 Servlet理论案例详解,面试必备
1.Servlet 简介Servlet全称:Server Applet,服务器端的小程序Servlet主要用来处理用户的请求并给用户响应狭义上的定义:Servlet接口及其子接口,是javaee的一套规范广义上的定义:实现了Servlet接口的实现类我们都称它为ServletHelloWorld的步骤:1)创建一个类实现Servlet接口2)在web.xml配置文件中注册实现了Se
2017-12-06 16:14:46
6720
原创 软件开发时设计时要遵循的原则
软件开发原则开闭原则(OCP)开闭原则(OCP)是面向对象设计中“可复用设计”的基石,是面向对象设计中最重要的原则之一,其它很多的设计原则都是实现开闭原则的一种手段。1988年,勃兰特·梅耶(Bertrand Meyer)在他的著作《面向对象软件构造(Object Oriented Software Construction)》中提出了开闭原则,它的原文是这样:“Softwar
2017-12-06 15:20:54
7711
原创 开发要搞清楚什么是并发,并行,串行,同步,异步?
实际开发中很多人会因为并发,并行,串行,同步,异步等名词搞混,搞不清楚这些名称的意思和之间对应的关系。其实这也是实际开发中必须掌握一些知识点。掌握和理解这些概念也有助于我们去更好去开好。 1.并发编程又叫多线程编程。 在程序中,往往有很多很耗时的工作,比如上传文件、下载文件、跟客户聊天需要长时间建立连接。这种时候,一个线程是服务不了多个用户的,会产生因为资源独占产...
2017-12-06 14:21:45
11869
5
转载 大数据之hadoop面试题2
2.7. 用mapreduce来实现下面需求?现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。方法一:运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum,下一个job map用url作key,运用sum作二次排序,reduce中取top1000000
2017-12-05 12:35:50
801
原创 Spring之代理设计模式原理与代码展示
1.代理设计模式1.代理设计模式 代理设计模式的原理:使用一个代理将对象包装起来,然后用该代理对象取代原始对象。任何对原始对象的调用都要通过代理。代理对象决定是否以及何时将方法调用转到原始对象上。 - GoF95 一共定义了23种设计模式.代理设计模式是非常重要模式之一. - 作用: - 对目标对象访问进行控制.在访问目标前,后进行功能的扩展. -
2017-12-05 12:16:32
2913
原创 hadoop集群常见的报错原因
1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好5)root用户和robot两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unabl
2017-12-05 12:03:00
4325
原创 hadoop的三种运行模式区别及配置详解
基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。 首先配置hadoop的组件,均可以利用XML文件进行配置,四个配置文件:core-site.xml文件用于配置通用属性(common),h
2017-12-04 16:10:08
22931
2
原创 一个wordcount程序轻松玩转MapReduce编程模型
可以毫不夸张的说,几乎开发中绝大部分的MR程序都是基于wordcount编程模型而来,或者说用wordcount变化而来(改变的主要是业务方面的逻辑)。所以,熟练掌握wordcount编程模型,是掌握MR编程的基础。 MAPREDUCE示例编写及编程规范1.1编程规范1用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户...
2017-12-04 10:02:02
30619
原创 一张图让你轻松搞定yarn资源调度流程
1。yarn概述 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序 2.Yarn的重要概念1)yarn并不清楚用户提交的程序的运行机制2)yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)3)yarn中的主管角色叫Resour
2017-12-03 08:53:55
17412
2
原创 hadoop的HA高可用机制配置搭建
前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双
2017-12-03 08:45:27
7061
原创 hadoop之快照管理,存档,回收站等功能解说
HDFS其他功能1集群间数据拷贝1)scp实现两个远程主机之间的文件复制 scp -r hello.txtroot@hadoop103:/user/robot/hello.txt //推 push scp -rroot@hadoop103:/user/robot/hello.txt hello.txt
2017-12-03 08:21:36
6118
原创 开发中linux很实用命令和小技巧
1.which java 可以显示环境变量的路径,相当于echo 2.输入密码是输错了,可以用ctrl+backspace退格,单独按backspace也是密码 3.cd -返回上一步目录。 4.linux中一行命令没有打完或者没有结束换行时用空格+\反斜杠 5.mkdir hello ;touch 1.txt 分号表示...
2017-12-03 08:20:57
5527
原创 hadoop集群中运行中时服役和退役节点
集群中服役新数据节点0)需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1)环境准备 (1)克隆一台虚拟机(克隆已经配置好的主机,或者是服役中的节点。) 如果是没有配置7个配置文件的节点机,要用hadoop102分发hadoop102的hadoop文件覆盖配置(7个
2017-12-03 08:20:26
8479
1
原创 linux系统集群之centos6安装和克隆详解
一:配置vmware虚拟机 如果安装好的虚拟机要想和外部通信,或者说和本地win7系统通信,或者访问外网。那么要对其网络进行一番设置。首先要进行通信,则该虚拟机就要有一个虚拟的网络适配器,虚拟网卡等等。下面进行配置。(该虚拟机的网络适配器在win7的本地网络配置里也有一个。因为两台主机要想通信首先有 在同一个网段里。).1查看网络IP和网关1)查看虚拟网络编辑器 :选择NAT模式,就...
2017-12-03 08:19:54
6706
原创 日常开发中linux中最常用的100条命令
一:用户管理命令1.1 useradd添加新用户1)基本语法: useradd用户名 (功能描述:添加新用户) 2)案例: [root@hadoop101 opt]# useradd robot1.2 passwd设置用户密码1)基本语法: passwd用户名 (功能描述:设置用户密码)2)案例 [root@ha...
2017-12-03 08:19:23
7354
原创 SecondaryNameNode原理和配置解说
一.SecondaryNameNode的作用: 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。换句话说其实SecondaryNameNode是namenode的冷备份,而namenode的HA高可用才是namenode的热备份。区别是SecondaryNameNode中存储的元数据不是实时的,滞后于namenode主节点.Secondary N
2017-12-02 15:18:13
6064
原创 编译Hadoop源码全流程讲解
为什么需要编译Hadoop源码? 因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0
2017-12-02 14:43:58
10148
2
原创 hadoop完全分布式集群搭建全部流程之四:ssh和脚本补充
SSH无密码登录1)配置ssh:配置ssh无密码登录主要 是为了方便集群之间进行通信,方便运算。(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[root@hadoop2 opt]# ssh 192.168.1.103The authenticity of host '192.168
2017-12-02 14:25:56
7554
原创 hadoop完全分布式集群搭建全部流程之三:完全分布式集群搭建
分析:一台机器配置安装,其他机器分发修改 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装jdk:配置环境变量 3)安装hadoop:配置环境变量 4)安装ssh 5)编写xsync和xcall脚本 6)配置集群 7)启动测试集群步骤:选定一个台机器1.在一台机
2017-12-02 14:17:33
23741
原创 hadoop完全分布式集群搭建全部流程之二:伪分布式搭建
Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoo
2017-12-02 14:09:15
3604
原创 hadoop完全分布式集群搭建全部流程之一:hadoop和java安装
1.在linux里安装jdk1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e软件包2)用filezilla工具将jdk、Hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面 直接用crt即可:alt+p,直接传输 或者安装
2017-12-02 13:45:27
3674
原创 maven中依赖管理的详细解说
依赖基本概念当A jar包需要用到B jar包中的类时,我们就说A对B有依赖。例如:commons-fileupload-1.3.jar依赖于commons-io-2.0.1.jar。通过第二个Maven工程我们已经看到,当前工程会到本地仓库中根据坐标查找它所依赖的jar包。配置的基本形式是使用dependency标签指定目标jar包的坐标。例如:
2017-12-02 13:34:15
2373
原创 mave插件的安装和使用maven创建项目详细解说
在eclipse中使用maven管理项目,有利于我们更加方便管理代码,但是前提是本地系统得安装maven,以及相应的开发工具eclipse或者IDEA整合了maven插件。1.在本地安装maven程序。①检查JAVA_HOME环境变量。Maven是使用Java开发的,所以必须知道当前系统环境中JDK的安装目录。C:\Windows\System32>
2017-12-02 13:22:03
5712
原创 eclipse中打包maven项目完成流程
相对于idea工具来说,打包maven项目更加简单,可以直接通过点击命令按钮的方法,完成整个maven项目的编译打包过程。而eclipse打包maven则相对麻烦了一下。下面解析一下maven项目编译打jar包的过程(此处参考的是项目是大数据项目,web工程则是war包)第一步:右击项目--->点击Debug ----->点击 Maven install进行编译,编译成功后入图(要
2017-12-02 10:48:50
33743
原创 maven项目中pom文件报错xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)的解决
有时候在使用maven管理项目时,打包一个jar包,会出现pom文件报错的情况。当出现xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)可以选择如下方式解决。方法一: 1.找到eclipse的project菜单选择clean...选项 2.选择Clean all projects 或者 Clean
2017-12-02 10:18:34
5745
1
牛大财有大才的留言板
发表于 2020-01-02 最后回复 2020-05-09
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝