`

[同步]实习第二天

阅读更多

原文地址: http://nourlcn.ownlinux.net/2011/10/diary-practice-second-day.html

本博客订阅地址:http://feeds.feedburner.com/nourlcn


本该昨天晚上总结的.

但昨天下班后赶紧回去收拾一下,今天坐了12个小时的龟速大巴才到家,现在补上吧.

实习第二天,上午对第一天的工作进行了融合,写了一个shell脚本将数据抓取、导入Hive、MapReduce处理、导入Mysql等步骤进行自动处理.
中间因为不熟悉Hive的查询、join用法等花费了一些时间.

中午吃饭时,看见开复童鞋进来貌似拿了个包子回办公室了,哈哈~

下午写了个py文件,生成指定格式的测试log file,预期目标是生成300G的文件在hadoop集群上测试,考虑到实际的数据量可能不需要这么大,先设置i循环为5亿,生成50G的big file.

因为我使用shell远程链接服务器进行开发,shell session过期后程序可能会中断,因此学了一下daemon进程的编写,下班前将py程序改成daemon进程执行.

再一次感慨,实习所接触的东西比较实在,比在实验室强多了.

0
1
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics