Exploratoryでデータサイエンス100本ノックその0：データを読み込む - データとメディアの勉強帳（略称：デメ勉）

「Exploratoryでデータサイエンス100本ノック」の最初の投稿です。今回は「その0」と題して、データの読み込みをします。

必要なデータは、次の6つです。

Docker版では、Dockerイメージ内のデータベースから読み込むようになっているみたいですが、ここでは、データサイエンス協会のGithub リポジトリから読み込みます。

df_customer

df_category

df_product

df_receipt

df_store

df_geocode

f:id:buri-daicon:20210506210426p:plain

こちらがExploratoryの初期画面です。「新規作成」を押して、プロジェクト名を入力し、プロジェクトを作成します。

f:id:buri-daicon:20210506210759p:plain

ここでは、「100knocks-preprocess」という名前にします。

「作成」を押すと、データ読み込みのための画面になります。

f:id:buri-daicon:20210506210934p:plain

左上のデータフレームの右の「＋」ボタンを押すと、下記のようなポップアップが表示されますので、「ファイルデータ」を選びます。

f:id:buri-daicon:20210506211132p:plain

すると、ファイルソース（ファイルの読み込み元）の指定画面が出てきますので、「リモート」の「テキストファイル（CSV - カンマ区切り」を選びます。

f:id:buri-daicon:20210506211509p:plain

すると以下のように、URLを尋ねてきますので、Github上のファイルのURLを入れて指定します。

f:id:buri-daicon:20210506211839p:plain

無事データを読み込み終わると、「サマリービュー」が表示されます。

ビジュアリゼーションを駆使してデータの特性を見極めるプロセスを「EDA（Exploraotory Data Analysis）」と呼び、データサイエンスの大切な一過程として重要視されていますが、そのEDAの基本（いわゆる記述統計）が一瞬でできてしまうのが、Exploratoryです。

f:id:buri-daicon:20210506214601p:plain

これをぼーっと眺めているだけでも、いろんなことに気づかされます。

ともあれ、同じ操作を6回繰り返し、すべてのデータを読み込んだらこのステップはおしまいです。

お疲れさまでした。次回からはいよいよ「100本ノック」の課題に取り組んでいきます。