日々地道に成長

思いついたことを書いていきます。

【Embulk】分かりやすい!!Embulk入門講座【初心者】

お疲れ様です。コーヒーです。

 

今回はEmbulkについて、初心者による初心者向け解説をしてみようと思います。

EmbulkからETLに触れるという人にとっての記事となると思います。(自分がそうだったため)

詳しい内容というよりは、Embulkがどういったもので何ができるのかに重点を置いて説明します。

ETLツールとは

Embulkについて説明する前にETLツールについて先に説明します!

ETLとは

  • Extract(抽出)
  • Transform(変換)
  • Load(格納)

の頭文字からきています。

すなわちETLツールとは、「あるデータをどこからか抽出し、抽出したデータを変換後、どこかにデータを格納する」ことのできるツールとなっています。

以下は「CSVファイルをETLツールでMySQLに格納している図」です。

f:id:stady-diary:20200930001115p:plain

Embulkとは

先ほどETLツールについて説明しましたが、それはEmbulkはETLツールの一つであるためです。

Embulkの特徴としては以下のようなものがあります。

  • オープンソースのため、無料で使用できる
  • プラグイン(便利機能)が多数用意されている&独自実装が可能
  • 実行はコマンド実行(GUIではなくCUI
  • 並列分散処理のため、巨大なデータに対応可能
  • guess機能により、自動で推定してファイルを生成できる

 Embulkの設定ファイルについて

次にEmbulkの設定ファイルについて解説します。

Embulkは「YAML形式」で書き、拡張子は「.yml」です。YAMLとは構造化データの表現方法の一つで、設定ファイル等に使われている書き方です。

ここからは大雑把に設定ファイルの構成を見ていきます。

 

f:id:stady-diary:20200930013541p:plain

細かい設定については今回は触れませんが、上記画像のような構成になっています。

ETLツールとはの構成と合わせてみることで分かりやすいかなと思います!!

 

今回は以上となります。

最後まで読んでいただきありがとうございます!!