日々地道に成長

思いついたことを書いていきます。

【Embulk BigQuery】embulk-input-bigqueryとembulk-output-bigqueryでのエラーについて

お疲れ様です。コーヒーです。

 

今回はembulk-input-bigqueryとembulk-output-bigqueryでのエラーについてまとめてみます。

プラグインのURLは以下になります。

github.com

github.com

 

上記プラグイン使用時に不定期で起こるエラーに以下のものがあります。

org.embulk.config.ConfigException: OutputPlugin 'bigquery' is not found.
org.jruby.proxy.org.embulk.config.ConfigException$Proxy1: Unknown output plugin 'bigquery'. embulk/output/bigquery.rb is not installed. Run 'embulk gem search -rd embulk-output' command to find plugins.

こちらのエラーが出現時は基本的には再実行で対処は可能です。

しかし、定期的に実行する場合などはそのままではあまりよくありません。

また、上記のプラグイン使用時にデータ量によってはCPU/メモリ使用率が大幅に上がってしまいます。

エラー対処法

対処法としてはGCSを一度経由する方法があります。

流れとしては以下のようになります。

  1. embulk-input-gcsもしくはembulk-output-gcsを使用しデータを転送
  2. bqコマンド等でGCSからデータの読み込み

使用するプラグインは以下になります。

github.com

github.com

 

上記エラーやCPU使用率を改善したい場合は遠回りになりますが上記方法を試してみてもよいと思います!

今回の内容は以上となります。

最後まで読んでいただきありがとうございました。