`
JerryLead
  • 浏览: 76366 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论
文章列表
Pig 调优实践经验总结 张贵宾 guibin.beijing@gmail.com 2012-01-17   本文会不断更新,欢迎大家补充。 1. pig.maxCombinedSplitSize 和 pig.splitCombination 在实际使用PIG处理数据时,会经常要处理大批量的小文件。在这种情况下,如果不对Pig脚本进行任何特别设置,默认情况下很有可能会遇到类似这样的“命名空间超过配额限制”的错误:   [plain] view plaincopy
1. 想要在JobTracker的WebUI上(master:50030)多保持几个job执行状态,默认是100个 调整Hadoop配置文件,比如调整为200个 <property> <name>mapred.jobtracker.completeuserjobs.maximum</name> <value>200</value>         </property>    2. 想要在JobTracker的WebUI上延长job执行状态的存放时间,默认是24小时,现在调整为72小时, ...
http://adaishu.blog.163.com/blog/static/175831286201151272221903/ 为了测试Hadoop用mapreduce方式读写文件系统的性能,开发了TestDFSIO,用法如下:写测试cd到hadoop安装目录:# cd hadoop看看内存情况:# free -g
  作者:Owen Omalley 2009-8-27 原文:http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/ 译者:phylips@bmy 2011-8-28 出处:http://duanple.blog.163.com/blog/static/70971767201172902737677/ 引言  在一个典型的Hadoop MapReduce job中,通常是从HDFS上读取输入文件。为减少文件大小,文件数据通常是压缩过的,因此读取之后需要进行解压 ...
  Compiling Gnuplot 4.4.2 on CentOS 5.5 CentOS is a really fine platform for professional Linux servers which is - among others - characterized by stable software releases. However, especially in a research environment every once in a while you need a recent version of a software. CentOS ships wi ...
  修改自http://sunshyfangtian.blog.51cto.com/1405751/503878 作业环境 服务器端操作系统:CentOS 6.3 final x86_64 IP: 133.133.10.50 Hostname:myKVMKVM:qemu-kvm-0.12.1.2-2.295.el6_3.2.x86_64   客户端:Ubuntu和Win7,先在服务器端装好VNC,通过VNC连接服务器CentOS   一、安装KVM及相关软件 1、KVM 需要有 CPU 的支持(Intel vmx 或 AMD svm),在安装 KVM 之前检查一下 CPU 是 ...
  转载自http://www.laozhe.net/articles/301.html CentOS 6.0 下 VNC 配置方法 2011年09月2日   系统专区   没有评论   1,255人围观过     最近找了一台 IBM 的老服务器折腾了一下,学习了一下 Linux 技术。这台服务器很老了,在安 ...
  } finally { RPC.stopProxy(umbilical); MetricsContext metricsContext = MetricsUtil.getContext("mapred"); //此处的“mapred”应该为“jvm” metricsContext.close(); // Shutting down log4j of the child-vm... // This assumes that on return from Task.run() // th ...
为了研究HBase,在Hadoop-0.20.2上安装HBase-0.90.4,结果出了很多问题。   先找了几虚拟机练练手,配置如下: 133.133.134.116 masster 133.133.134.115 slave1 133.133.134.80 slave2   当然事先已经装好了hadoop-0.20.2。   1、官网上下载hbase-0.90.4.tar.gz后解压到master节点上。 2、修改conf下的配置文件   2.1 修改hbase-site.xml如下     <?xml version="1.0"?&g ...
  Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks,默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。   比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段,slave节点会启动最多8个JVM用于map。如下:       root@slave1:~# jps 28291 Child 28290 Child 28281 Child 28293 Child 28277 Child 1487 DataNode 28298 ...
很早就装上了mahout-distribution-0.5,结果运行第一个例子Canopy Clustering的时候就报错,在Mahout的官方主页tutorial页面里写了comment,说明了出错的地方,结果没人搭理。   运行命令如下:   root@master:/opt/mahout-distribution-0.5# bin/mahout o ...
第一步是运行TeraGen来产生数据,原始命令如下:   root@master:/opt/hadoop-0.20.2# hadoop jar hadoop-0.20.2-examples.jar teragen 10000000000 /user/terasort/input1TB  由于Hadoop默认的配置文件中,设置的map task个数为2,而teragen也没给设定map task个数的 ...
package org.apache.hadoop.io; import java.io.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.util.ReflectionUtils; import java.util.zip.GZIPInputStream; import java.util.zip.GZIPOutputStream; public final class WritableUtils { /** * 压缩数据流 -> ...
打算将11台Linux集群时间同步一下,操作系统都为Ubuntu 11.04 x86 64位 选定其中一台133.133.10.2作为时间服务器(ntp server),其他节点与该节点进行时间同步。   1、在133.133.10.2(monitor)上安装ntp server。 root@monitor:~# apt-get install ntp   2、修改/etc/ntp.conf如下:(参考了http://blog.sina.com.cn/s/blog_6b86fdc50100ojfn.html)     # /etc/ntp.conf, configuratio ...
直接运行Hadoop-0.20.2的PiEstimator.java的话,会报"java.lang.ArithmeticException: Non-terminating decimal expansion; no exact representable decimal result." 的错误,原因是算出的Pi值没有设定小数位数(Pi是无理数)。 解决方法: 1、去https://issues.apache.org/jira/browse/MAPREDUCE-1880下载m1880_20100619_0.20.patch。 2、为hadoop-0.20.2打 ...
Global site tag (gtag.js) - Google Analytics