自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生手记

知道不去做,等于不知道。知行合一。

  • 博客(38)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 oozie使用常见的bug解决

1、Mysql权限配置    2、workflow.xml配置的时候不要忽略file属性    3、jps查看进程时,注意有没有bootstrap    4、关闭oozie        ** bin/oozied.sh stop)如果无法关闭,则可以使用kill        ** kill -9 11111            oozie-server/temp/xx

2017-12-14 21:19:26 2245

原创 Hive的Metastore三种配置方式分析

        Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。而metastore是Hive元数据的集中存放地。metastore元数据存储主要体现在两个方面:服务和后台数据的存储。      关于Metastore的三种配置:内嵌配置,本地配置,远程配置。      1. 默认情况下,metastore服务和Hive的服务运行在同...

2017-12-14 21:06:23 10063

原创 做Hive开发要了解的数据仓库知识

1.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2.数据仓库的特点1.数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,...

2017-12-14 18:23:57 15079

原创 hive建表的标准格式及其建表属性详解1

         Hive建表是学习使用hive的第一步,然后才能基于表对hive数据仓库进行操作。学习建表前,首先要知道hive表的构建属性 ,知道哪些属性是固定的,哪些属性是可以定制的等等。一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性)具体参考官网界面:HIVE官网建表说明文档  CREATE [EXTERNAL] TABLE ...

2017-12-14 17:52:48 24482 1

原创 ZooKeeper分布式锁与代码实现

1.zk的核心机制之一:分布式锁       分布式锁能够在一组进程之间提供互斥机制,使得在任何时候只有一个进程可以持有锁。分布式锁可以用于在大型分布式系统中实现领导者选举,在任何时间点,持有锁的那个进程就是系统的领导者。注意:不要将zookeeper自己的领导者选举和使用ZooKeeper基本操作实现的一般领导者选举服务混为一谈。事实上,zookeepr自己的领导者选举机制是不对外公开的。

2017-12-12 16:41:19 10377

原创 MR之自定义outputformat输出方式代码演示

.1需求现有一些原始日志需要做增强解析处理,流程:从原始日志文件中读取数据根据日志中的一个URL字段到外部知识库中获取信息增强到原始日志如果成功增强,则输出到增强结果目录;如果增强失败,则抽取原始数据中URL字段输出到待爬清单目录 .2分析程序的关键点是要在一个mapreduce程序中根据数据的不同输出两类结果到不同目录,这类灵活的输出需求可以通过自

2017-12-11 16:56:17 15998

原创 MapTask并行度和切片机制

一. MapTask并行度决定机制maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢?1.1 mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小

2017-12-11 16:40:58 30293 2

原创 Shuffle阶段:partition分区以及自定义使用注意事项

一:partition分区(shuffle阶段)Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask(所以这也决定了为什么最终的文件个数,即分区个数跟reducetask数量一样了。)。默认分区是根据key的hashCode对reduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。默认系统的patitioner类,实现类时ha

2017-12-11 16:28:51 29089 2

原创 hadoop项目:社交粉丝,共同好友数据分析实现

日常开发中,MR解决问题思想:决定谁是k,相同的k会被发送到reduce中进行汇总1.项目需求以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,

2017-12-10 21:47:32 6736

原创 开发中关于mapreduce中参数的调优策略

使用hadoop进行大数据运算,当数据量及其大时,那么对MapReduce性能的调优重要性不言而喻。尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面基于官网和工作中的情况总结和相关的调优策略。     1.关于map端的调优属性   属性名称类型默认值说明mapreduce.task.io.sort.mbint 10

2017-12-09 21:44:02 11168

原创 kafka拦截器原理剖析与演示

1.kafka拦截器原理(针对内部框架的信息进行在处理)  Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。  对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个inter

2017-12-07 14:34:19 8767

原创 用sqoop导入数据到HIVE和HDFS中

一:sqoop数据的导入1.使用sqoop将:mysql中的数据导入到HDFS(直接导入)Step1、确定Mysql服务的正常开启 service mysql status                            Step2、在Mysql中创建一张表                                 mysql> crea

2017-12-07 14:28:12 11687 3

原创 sqoop的安装与工作机制

一:sqoop=sql—>haoop 1.1sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。         导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;        导出数据:从Hadoop的文件系统中导出数据到关系数据库         1.2 工作机制(封装的mapre

2017-12-07 14:21:16 1742

原创 Servlet理论案例详解,面试必备

1.Servlet 简介Servlet全称:Server Applet,服务器端的小程序Servlet主要用来处理用户的请求并给用户响应狭义上的定义:Servlet接口及其子接口,是javaee的一套规范广义上的定义:实现了Servlet接口的实现类我们都称它为ServletHelloWorld的步骤:1)创建一个类实现Servlet接口2)在web.xml配置文件中注册实现了Se

2017-12-06 16:14:46 6720

原创 软件开发时设计时要遵循的原则

软件开发原则开闭原则(OCP)开闭原则(OCP)是面向对象设计中“可复用设计”的基石,是面向对象设计中最重要的原则之一,其它很多的设计原则都是实现开闭原则的一种手段。1988年,勃兰特·梅耶(Bertrand Meyer)在他的著作《面向对象软件构造(Object Oriented Software Construction)》中提出了开闭原则,它的原文是这样:“Softwar

2017-12-06 15:20:54 7711

原创 开发要搞清楚什么是并发,并行,串行,同步,异步?

实际开发中很多人会因为并发,并行,串行,同步,异步等名词搞混,搞不清楚这些名称的意思和之间对应的关系。其实这也是实际开发中必须掌握一些知识点。掌握和理解这些概念也有助于我们去更好去开好。 1.并发编程又叫多线程编程。 在程序中,往往有很多很耗时的工作,比如上传文件、下载文件、跟客户聊天需要长时间建立连接。这种时候,一个线程是服务不了多个用户的,会产生因为资源独占产...

2017-12-06 14:21:45 11869 5

转载 大数据之hadoop面试题2

2.7.  用mapreduce来实现下面需求?现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。方法一:运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum,下一个job map用url作key,运用sum作二次排序,reduce中取top1000000

2017-12-05 12:35:50 801

原创 Spring之代理设计模式原理与代码展示

1.代理设计模式1.代理设计模式  代理设计模式的原理:使用一个代理将对象包装起来,然后用该代理对象取代原始对象。任何对原始对象的调用都要通过代理。代理对象决定是否以及何时将方法调用转到原始对象上。  - GoF95  一共定义了23种设计模式.代理设计模式是非常重要模式之一.  - 作用:   - 对目标对象访问进行控制.在访问目标前,后进行功能的扩展.  -

2017-12-05 12:16:32 2913

原创 hadoop集群常见的报错原因

1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好5)root用户和robot两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unabl

2017-12-05 12:03:00 4325

原创 hadoop的三种运行模式区别及配置详解

基于hadoop进行开发时,有时候,会被hadoop的三种运行模式搞混,也会被hadoop集群有哪些配置弄得晕头转向,因为看不同的文档有不同的配置方法。所以要先弄明白hadoop的运行模式,以及对应模式的有哪些必须配置,尤为重要,做到心中有数。       首先配置hadoop的组件,均可以利用XML文件进行配置,四个配置文件:core-site.xml文件用于配置通用属性(common),h

2017-12-04 16:10:08 22931 2

原创 一个wordcount程序轻松玩转MapReduce编程模型

可以毫不夸张的说,几乎开发中绝大部分的MR程序都是基于wordcount编程模型而来,或者说用wordcount变化而来(改变的主要是业务方面的逻辑)。所以,熟练掌握wordcount编程模型,是掌握MR编程的基础。 MAPREDUCE示例编写及编程规范1.1编程规范1用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户...

2017-12-04 10:02:02 30619

原创 一张图让你轻松搞定yarn资源调度流程

1。yarn概述     Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序  2.Yarn的重要概念1)yarn并不清楚用户提交的程序的运行机制2)yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)3)yarn中的主管角色叫Resour

2017-12-03 08:53:55 17412 2

原创 hadoop的HA高可用机制配置搭建

前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA (2)HDFS的HA机制详解通过双namenode消除单点故障双

2017-12-03 08:45:27 7061

原创 hadoop之快照管理,存档,回收站等功能解说

HDFS其他功能1集群间数据拷贝1)scp实现两个远程主机之间的文件复制       scp -r hello.txtroot@hadoop103:/user/robot/hello.txt              //推 push       scp -rroot@hadoop103:/user/robot/hello.txt  hello.txt

2017-12-03 08:21:36 6118

原创 开发中linux很实用命令和小技巧

      1.which  java  可以显示环境变量的路径,相当于echo      2.输入密码是输错了,可以用ctrl+backspace退格,单独按backspace也是密码      3.cd -返回上一步目录。       4.linux中一行命令没有打完或者没有结束换行时用空格+\反斜杠        5.mkdir hello ;touch 1.txt 分号表示...

2017-12-03 08:20:57 5527

原创 hadoop集群中运行中时服役和退役节点

集群中服役新数据节点0)需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1)环境准备       (1)克隆一台虚拟机(克隆已经配置好的主机,或者是服役中的节点。)          如果是没有配置7个配置文件的节点机,要用hadoop102分发hadoop102的hadoop文件覆盖配置(7个

2017-12-03 08:20:26 8479 1

原创 linux系统集群之centos6安装和克隆详解

一:配置vmware虚拟机        如果安装好的虚拟机要想和外部通信,或者说和本地win7系统通信,或者访问外网。那么要对其网络进行一番设置。首先要进行通信,则该虚拟机就要有一个虚拟的网络适配器,虚拟网卡等等。下面进行配置。(该虚拟机的网络适配器在win7的本地网络配置里也有一个。因为两台主机要想通信首先有 在同一个网段里。).1查看网络IP和网关1)查看虚拟网络编辑器 :选择NAT模式,就...

2017-12-03 08:19:54 6706

原创 日常开发中linux中最常用的100条命令

一:用户管理命令1.1 useradd添加新用户1)基本语法:       useradd用户名             (功能描述:添加新用户) 2)案例:       [root@hadoop101 opt]# useradd   robot1.2 passwd设置用户密码1)基本语法:       passwd用户名      (功能描述:设置用户密码)2)案例       [root@ha...

2017-12-03 08:19:23 7354

原创 SecondaryNameNode原理和配置解说

一.SecondaryNameNode的作用:      用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。换句话说其实SecondaryNameNode是namenode的冷备份,而namenode的HA高可用才是namenode的热备份。区别是SecondaryNameNode中存储的元数据不是实时的,滞后于namenode主节点.Secondary N

2017-12-02 15:18:13 6064

原创 编译Hadoop源码全流程讲解

为什么需要编译Hadoop源码?   因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0

2017-12-02 14:43:58 10148 2

原创 hadoop完全分布式集群搭建全部流程之四:ssh和脚本补充

SSH无密码登录1)配置ssh:配置ssh无密码登录主要 是为了方便集群之间进行通信,方便运算。(1)基本语法ssh另一台电脑的ip地址(2)ssh连接时出现Host key verification failed的解决方法[root@hadoop2 opt]# ssh 192.168.1.103The authenticity of host '192.168

2017-12-02 14:25:56 7554

原创 hadoop完全分布式集群搭建全部流程之三:完全分布式集群搭建

分析:一台机器配置安装,其他机器分发修改       1)准备3台客户机(关闭防火墙、静态ip、主机名称)       2)安装jdk:配置环境变量       3)安装hadoop:配置环境变量       4)安装ssh       5)编写xsync和xcall脚本       6)配置集群       7)启动测试集群步骤:选定一个台机器1.在一台机

2017-12-02 14:17:33 23741

原创 hadoop完全分布式集群搭建全部流程之二:伪分布式搭建

Hadoop运行模式1)官方网址(1)官方网站:http://hadoop.apache.org/(2)各个版本归档库地址https://archive.apache.org/dist/hadoop/common/hadoop-2.7.2/(3)hadoop2.7.2版本详情介绍http://hadoop.apache.org/docs/r2.7.2/2)Hadoo

2017-12-02 14:09:15 3604

原创 hadoop完全分布式集群搭建全部流程之一:hadoop和java安装

1.在linux里安装jdk1)卸载现有jdk(1)查询是否安装java软件:rpm -qa|grep java(2)如果安装的版本低于1.7,卸载该jdk:rpm -e软件包2)用filezilla工具将jdk、Hadoop-2.7.2.tar.gz导入到opt目录下面的software文件夹下面     直接用crt即可:alt+p,直接传输    或者安装

2017-12-02 13:45:27 3674

原创 maven中依赖管理的详细解说

依赖基本概念当A jar包需要用到B jar包中的类时,我们就说A对B有依赖。例如:commons-fileupload-1.3.jar依赖于commons-io-2.0.1.jar。通过第二个Maven工程我们已经看到,当前工程会到本地仓库中根据坐标查找它所依赖的jar包。配置的基本形式是使用dependency标签指定目标jar包的坐标。例如:

2017-12-02 13:34:15 2373

原创 mave插件的安装和使用maven创建项目详细解说

在eclipse中使用maven管理项目,有利于我们更加方便管理代码,但是前提是本地系统得安装maven,以及相应的开发工具eclipse或者IDEA整合了maven插件。1.在本地安装maven程序。①检查JAVA_HOME环境变量。Maven是使用Java开发的,所以必须知道当前系统环境中JDK的安装目录。C:\Windows\System32>

2017-12-02 13:22:03 5712

原创 eclipse中打包maven项目完成流程

相对于idea工具来说,打包maven项目更加简单,可以直接通过点击命令按钮的方法,完成整个maven项目的编译打包过程。而eclipse打包maven则相对麻烦了一下。下面解析一下maven项目编译打jar包的过程(此处参考的是项目是大数据项目,web工程则是war包)第一步:右击项目--->点击Debug ----->点击 Maven install进行编译,编译成功后入图(要

2017-12-02 10:48:50 33743

原创 maven项目中pom文件报错xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)的解决

有时候在使用maven管理项目时,打包一个jar包,会出现pom文件报错的情况。当出现xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)可以选择如下方式解决。方法一:  1.找到eclipse的project菜单选择clean...选项        2.选择Clean all projects 或者 Clean

2017-12-02 10:18:34 5745 1

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

牛大财有大才的留言板

发表于 2020-01-02 最后回复 2020-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除