【Embulk】分かりやすい!!Embulk入門講座【初心者】
お疲れ様です。コーヒーです。
今回はEmbulkについて、初心者による初心者向け解説をしてみようと思います。
EmbulkからETLに触れるという人にとっての記事となると思います。(自分がそうだったため)
詳しい内容というよりは、Embulkがどういったもので何ができるのかに重点を置いて説明します。
ETLツールとは
Embulkについて説明する前にETLツールについて先に説明します!
ETLとは
- Extract(抽出)
- Transform(変換)
- Load(格納)
の頭文字からきています。
すなわちETLツールとは、「あるデータをどこからか抽出し、抽出したデータを変換後、どこかにデータを格納する」ことのできるツールとなっています。
以下は「CSVファイルをETLツールでMySQLに格納している図」です。
Embulkとは
先ほどETLツールについて説明しましたが、それはEmbulkはETLツールの一つであるためです。
Embulkの特徴としては以下のようなものがあります。
- オープンソースのため、無料で使用できる
- プラグイン(便利機能)が多数用意されている&独自実装が可能
- 実行はコマンド実行(GUIではなくCUI)
- 並列分散処理のため、巨大なデータに対応可能
- guess機能により、自動で推定してファイルを生成できる
Embulkの設定ファイルについて
次にEmbulkの設定ファイルについて解説します。
Embulkは「YAML形式」で書き、拡張子は「.yml」です。YAMLとは構造化データの表現方法の一つで、設定ファイル等に使われている書き方です。
ここからは大雑把に設定ファイルの構成を見ていきます。
細かい設定については今回は触れませんが、上記画像のような構成になっています。
ETLツールとはの構成と合わせてみることで分かりやすいかなと思います!!
今回は以上となります。
最後まで読んでいただきありがとうございます!!