2012-08-10から1日間の記事一覧

最近のMapper では progress() を呼ばなくてもよい?

(CDH4 CDH3u4のソースで確認)NewTrackingRecordReader で RecordReader を Wrap してくれているので、入力レコードを読む度に(nextKeyValue する度に)setProgress されるので、自作コードの中で progress とかよぶ必要はない。(MapTask.java 615行目) …

RCFile ののぞき方

hive --rcfilecat [--start=start_offet] [--length=len] fileNamestart, length は byte fileName はHDFSのパス。 コードは org.apache.hadoop.hive.cli.RCFileCat

圧縮ファイルの diff をとる(名前付きパイプ利用)

解凍したデータをディスクに書き出すことなく比較する方法。http://old.nabble.com/diff-on-.gz-and-.bz2-files-td27384658.htmlここでは、gzip ファイルと bzip2 ファイルの diff をとる例。mkfifo gzi mkfifo bzi gunzip -c file1.gzip > gzi & bunzip2 -c…