GCS(Google Cloud Storage)とBigQueryで連動するプログラムを作成したので共有する。
GCSは、ファイルデータ格納用ストレージのことをいい、BigQueryはSQL文によりデータ操作が行えるデータベース機能をもつビッグデータ解析プラットフォームのことをいう。
今回は、Windows 10が入っているローカル環境にて、Python 2.7の場合とJava 1.8の場合それぞれで作成した。作成した機能については以下の通りとなる。
1) BigQueryに、取り込むCSVファイルのデータを格納するテーブル(sales)を作成
2) GCS上に、取り込むCSVファイル(insert_bigquery_sales.csv)を配置
3) GCS上のファイルを、BigQuery内のsalesテーブルに取り込むプログラムを実行 (下記はPython 2.7での実行例)
4) BigQuery内のsalesテーブルに、CSVファイルの全データが入っていることを確認
5) BigQuery内のsalesテーブルの全データをjsonファイル(sales.json)に出力するプログラムを実行 (下記はPython 2.7での実行例)
6) jsonファイル(sales.json)に、全データがJSON形式で出力されていることを確認
なお、上記処理が行えるようになるまでの過程は、このブログにて、同名の記事(2)~(4)にて記載している。