2014-03-12から1日間の記事一覧

HDFS の crc

HDFS の crc は、HDFS にデータ入った後の(datanodeとの通信なんかで生じる)破損を検知するためのものっぽい。 putとかでデータ入れてる最中に処理をkillし、中途半端な状態で書き込まれても、get する時に特にエラーは出ない。 なので、ちゃんと HDFS に…

やたらとIFS変数変えるとマズい件

タブ区切りでスペース含むカラムがあるファイルを処理したくて、 IFS=$'\t' while read ・・・ do ・・・ done < filename とかやってたら、 cmd="command --opt" $cmd ${params} とかした時に、cmd内のスペースも丸ごと一つの文字列と扱われてしまい、「"co…

hive のサンプリングの意味を勘違いしてた。

BUCKET x OUT OF yてやつだが、最初、「全体の x/y を抽出」だと思ったんだが、そうではなく、 「全体をy分割したx番目を抽出」て意味だったらしい。 なので、 BUCKET 1 OUT OF 100としても BUCKET 2 OUT OF 100としても抽出される件数はほぼ同じで1/100。但…