日々地道に成長

思いついたことを書いていきます。

【Linux,windows,S3】ファイルの行数カウントについて

お疲れ様です。コーヒーです。

 

今回はデータ準備をする上でよく確認するファイルの行数カウントについてまとめてみました。

特にビッグデータはファイルを開いて確認することが出来ないので、今回紹介する方法は役に立ちます。

それぞれの状況別に確認方法を紹介していきます!

 

Linuxコマンドでの確認方法

Linuxコマンドでの確認にはwcコマンドを使用します。

wcコマンドはテキストファイルの行数や単語数、ファイルサイズ等を確認できるコマンドになっています。

今回は行数を確認するので以下のように入力します。

wc -l test.csv
201023 test.csv

[-l]オプションを使用することで上記のようにファイルの行数のみを表示してくれます。

Windowsでの確認方法

Windows環境ではFINDコマンドを使用します。

FIND /v /c "" test.csv 
test.csv: 201023

S3にあるファイルの確認方法

上記のLinuxコマンドの確認の応用としてS3にあるファイルをダウンロードせずに、確認する方法となります!

aws s3 cp s3://bucket_name/test.csv - | wc -l

上記のようにs3コマンドをwcコマンドに渡すことで確認することができます。

s3にあるファイルを直接確認できて手間が減るので、s3を使用している場合お勧めの方法です!

 

以上でファイルの行数カウント方法は終了となります。

データ準備においてファイルの取り込み件数は重要な確認事項となりますので、今回の方法を活用してみてください。

最後まで読んでいただきありがとうございました!!