自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生手记

知道不去做,等于不知道。知行合一。

  • 博客(21)
  • 资源 (1)
  • 论坛 (1)
  • 收藏
  • 关注

原创 Hive的Metastore三种配置方式分析

        Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。而metastore是Hive元数据的集中存放地。metastore元数据存储主要体现在两个方面:服务和后台数据的存储。      关于Metastore的三种配置:内嵌配置,本地配置,远程配置。      1. 默认情况下,metastore服务和Hive的服务运行在同...

2017-12-14 21:06:23 11744

原创 做Hive开发要了解的数据仓库知识

1.什么是数据仓库数据仓库,英文名称为DataWarehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。2.数据仓库的特点1.数据仓库的数据是面向主题的 与传统数据库面向应用进行数据组织的特点相对应,...

2017-12-14 18:23:57 15244

原创 hive建表的标准格式及其建表属性详解1

         Hive建表是学习使用hive的第一步,然后才能基于表对hive数据仓库进行操作。学习建表前,首先要知道hive表的构建属性 ,知道哪些属性是固定的,哪些属性是可以定制的等等。一.标准hql建表语法格式1.官方标准语法:(hql不区分大小写,下面[]里的属性是可选属性)具体参考官网界面:HIVE官网建表说明文档  CREATE [EXTERNAL] TABLE ...

2017-12-14 17:52:48 25432 1

原创 ZooKeeper分布式锁与代码实现

1.zk的核心机制之一:分布式锁       分布式锁能够在一组进程之间提供互斥机制,使得在任何时候只有一个进程可以持有锁。分布式锁可以用于在大型分布式系统中实现领导者选举,在任何时间点,持有锁的那个进程就是系统的领导者。注意:不要将zookeeper自己的领导者选举和使用ZooKeeper基本操作实现的一般领导者选举服务混为一谈。事实上,zookeepr自己的领导者选举机制是不对外公开的。

2017-12-12 16:41:19 10541

原创 MapTask并行度和切片机制

一. MapTask并行度决定机制maptask的并行度决定map阶段的任务处理并发度,进而影响到整个job的处理速度那么,mapTask并行实例是否越多越好呢?其并行度又是如何决定呢?1.1 mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小

2017-12-11 16:40:58 30488 2

原创 Shuffle阶段:partition分区以及自定义使用注意事项

一:partition分区(shuffle阶段)Mapreduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask(所以这也决定了为什么最终的文件个数,即分区个数跟reducetask数量一样了。)。默认分区是根据key的hashCode对reduceTasks个数取模得到的。用户没法控制哪个key存储到哪个分区。默认系统的patitioner类,实现类时ha

2017-12-11 16:28:51 29349 2

原创 开发中关于mapreduce中参数的调优策略

使用hadoop进行大数据运算,当数据量及其大时,那么对MapReduce性能的调优重要性不言而喻。尤其是Shuffle过程中的参数配置对作业的总执行时间影响特别大。下面基于官网和工作中的情况总结和相关的调优策略。     1.关于map端的调优属性   属性名称类型默认值说明mapreduce.task.io.sort.mbint 10

2017-12-09 21:44:02 11353

原创 用sqoop导入数据到HIVE和HDFS中

一:sqoop数据的导入1.使用sqoop将:mysql中的数据导入到HDFS(直接导入)Step1、确定Mysql服务的正常开启 service mysql status                            Step2、在Mysql中创建一张表                                 mysql> crea

2017-12-07 14:28:12 11984 3

原创 开发要搞清楚什么是并发,并行,串行,同步,异步?

实际开发中很多人会因为并发,并行,串行,同步,异步等名词搞混,搞不清楚这些名称的意思和之间对应的关系。其实这也是实际开发中必须掌握一些知识点。掌握和理解这些概念也有助于我们去更好去开好。 1.并发编程又叫多线程编程。 在程序中,往往有很多很耗时的工作,比如上传文件、下载文件、跟客户聊天需要长时间建立连接。这种时候,一个线程是服务不了多个用户的,会产生因为资源独占产...

2017-12-06 14:21:45 13653 5

原创 Spring之代理设计模式原理与代码展示

1.代理设计模式1.代理设计模式  代理设计模式的原理:使用一个代理将对象包装起来,然后用该代理对象取代原始对象。任何对原始对象的调用都要通过代理。代理对象决定是否以及何时将方法调用转到原始对象上。  - GoF95  一共定义了23种设计模式.代理设计模式是非常重要模式之一.  - 作用:   - 对目标对象访问进行控制.在访问目标前,后进行功能的扩展.  -

2017-12-05 12:16:32 2940

原创 hadoop集群常见的报错原因

1)防火墙没关闭、或者没有启动yarnINFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:80322)主机名称配置错误3)ip地址配置错误4)ssh没有配置好5)root用户和robot两个用户启动集群不统一6)配置文件修改不细心7)未编译源码Unabl

2017-12-05 12:03:00 4434

原创 一个wordcount程序轻松玩转MapReduce编程模型

可以毫不夸张的说,几乎开发中绝大部分的MR程序都是基于wordcount编程模型而来,或者说用wordcount变化而来(改变的主要是业务方面的逻辑)。所以,熟练掌握wordcount编程模型,是掌握MR编程的基础。 MAPREDUCE示例编写及编程规范1.1编程规范1用户编写的程序分成三个部分:Mapper,Reducer,Driver(提交运行mr程序的客户...

2017-12-04 10:02:02 30690

原创 一张图让你轻松搞定yarn资源调度流程

1。yarn概述     Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而mapreduce等运算程序则相当于运行于操作系统之上的应用程序  2.Yarn的重要概念1)yarn并不清楚用户提交的程序的运行机制2)yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源)3)yarn中的主管角色叫Resour

2017-12-03 08:53:55 17869 2

原创 hadoop之快照管理,存档,回收站等功能解说

HDFS其他功能1集群间数据拷贝1)scp实现两个远程主机之间的文件复制       scp -r hello.txtroot@hadoop103:/user/robot/hello.txt              //推 push       scp -rroot@hadoop103:/user/robot/hello.txt  hello.txt

2017-12-03 08:21:36 6166

原创 hadoop集群中运行中时服役和退役节点

集群中服役新数据节点0)需求:随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。1)环境准备       (1)克隆一台虚拟机(克隆已经配置好的主机,或者是服役中的节点。)          如果是没有配置7个配置文件的节点机,要用hadoop102分发hadoop102的hadoop文件覆盖配置(7个

2017-12-03 08:20:26 8516 1

原创 日常开发中linux中最常用的100条命令

一:用户管理命令1.1 useradd添加新用户1)基本语法:       useradd用户名             (功能描述:添加新用户) 2)案例:       [root@hadoop101 opt]# useradd   robot1.2 passwd设置用户密码1)基本语法:       passwd用户名      (功能描述:设置用户密码)2)案例       [root@ha...

2017-12-03 08:19:23 7412

原创 SecondaryNameNode原理和配置解说

一.SecondaryNameNode的作用:      用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。换句话说其实SecondaryNameNode是namenode的冷备份,而namenode的HA高可用才是namenode的热备份。区别是SecondaryNameNode中存储的元数据不是实时的,滞后于namenode主节点.Secondary N

2017-12-02 15:18:13 6288

原创 编译Hadoop源码全流程讲解

为什么需要编译Hadoop源码?   因为hadoop官网只提供了32位,若想用64的,需要自己编译,或者下载别人已经编译好的版本。1前期准备工作1)CentOS联网,全程大概需要40分钟,[root@hadoop101桌面]# vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0

2017-12-02 14:43:58 10475 2

原创 maven中依赖管理的详细解说

依赖基本概念当A jar包需要用到B jar包中的类时,我们就说A对B有依赖。例如:commons-fileupload-1.3.jar依赖于commons-io-2.0.1.jar。通过第二个Maven工程我们已经看到,当前工程会到本地仓库中根据坐标查找它所依赖的jar包。配置的基本形式是使用dependency标签指定目标jar包的坐标。例如:

2017-12-02 13:34:15 2530

原创 eclipse中打包maven项目完成流程

相对于idea工具来说,打包maven项目更加简单,可以直接通过点击命令按钮的方法,完成整个maven项目的编译打包过程。而eclipse打包maven则相对麻烦了一下。下面解析一下maven项目编译打jar包的过程(此处参考的是项目是大数据项目,web工程则是war包)第一步:右击项目--->点击Debug ----->点击 Maven install进行编译,编译成功后入图(要

2017-12-02 10:48:50 36762 1

原创 maven项目中pom文件报错xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)的解决

有时候在使用maven管理项目时,打包一个jar包,会出现pom文件报错的情况。当出现xx\target\classes\META-INF\MANIFEST.MF (系统找不到指定的路径)可以选择如下方式解决。方法一:  1.找到eclipse的project菜单选择clean...选项        2.选择Clean all projects 或者 Clean

2017-12-02 10:18:34 6143 1

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

牛大财有大才的留言板

发表于 2020-01-02 最后回复 2020-05-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除