hive のサンプリングの意味を勘違いしてた。

BUCKET x OUT OF y

てやつだが、最初、「全体の x/y を抽出」だと思ったんだが、そうではなく、
「全体をy分割したx番目を抽出」て意味だったらしい。
なので、

BUCKET 1 OUT OF 100

としても

BUCKET 2 OUT OF 100

としても抽出される件数はほぼ同じで1/100。但し、抽出される対象が異なるってこと。
全体の何%を抽出したいかは、yの値で調整すべし。