クリックストリーム的なデータの扱い

window関数がないので、セッションやクリックストリーム的なデータ処理をするのは難しいと思っていたが、arrayを使えば同じようなことがそこそこできるかも!
ただ、group by から array を生成する関数は、重複を排除する collect_set しかないらしい。
重複を許した配列を作成するには、関数を自作する必要がありそう。

http://stackoverflow.com/questions/6445339/collect-set-in-hive-keep-duplicates

ただ、全て自作するより、hiveの関数を作ったほうが、柔軟なものが簡単にできそうだ。
(いろいろなスキーマに対してクエリ書くだけで使える仕組み。)