HDFS の crc

HDFScrc は、HDFS にデータ入った後の(datanodeとの通信なんかで生じる)破損を検知するためのものっぽい。
putとかでデータ入れてる最中に処理をkillし、中途半端な状態で書き込まれても、get する時に特にエラーは出ない。
なので、ちゃんと HDFS に書き込めたか保証するには、自分でチェックサムとって後で確認するしか無さそう。
HDFSにも md5sum とるAPIがあるらしいが、HDFSに入れる前に md5sum コマンドとかでとった値とは意味が違ってくるらしい・・・

http://stackoverflow.com/questions/14563245/hdfs-file-checksum