データとメディアの勉強帳(略称:デメ勉)

データでメディアを読み解く

Exploratoryでデータサイエンス100本ノックその0:データを読み込む

データを読み込む

「Exploratoryでデータサイエンス100本ノック」の最初の投稿です。今回は「その0」と題して、データの読み込みをします。

必要なデータは、次の6つです。

Docker版では、Dockerイメージ内のデータベースから読み込むようになっているみたいですが、ここでは、データサイエンス協会のGithubリポジトリから読み込みます。

  • df_customer
  • df_category
  • df_product
  • df_receipt
  • df_store
  • df_geocode

プロジェクトを作成

f:id:buri-daicon:20210506210426p:plain

こちらがExploratoryの初期画面です。「新規作成」を押して、プロジェクト名を入力し、プロジェクトを作成します。

f:id:buri-daicon:20210506210759p:plain

ここでは、「100knocks-preprocess」という名前にします。

「作成」を押すと、データ読み込みのための画面になります。

f:id:buri-daicon:20210506210934p:plain

左上のデータフレームの右の「+」ボタンを押すと、下記のようなポップアップが表示されますので、「ファイルデータ」を選びます。

f:id:buri-daicon:20210506211132p:plain

すると、ファイルソース(ファイルの読み込み元)の指定画面が出てきますので、「リモート」の「テキストファイル(CSV - カンマ区切り」を選びます。

f:id:buri-daicon:20210506211509p:plain

すると以下のように、URLを尋ねてきますので、Github上のファイルのURLを入れて指定します。

f:id:buri-daicon:20210506211839p:plain

無事データを読み込み終わると、「サマリービュー」が表示されます。

ビジュアリゼーションを駆使してデータの特性を見極めるプロセスを「EDA(Exploraotory Data Analysis)」と呼び、データサイエンスの大切な一過程として重要視されていますが、そのEDAの基本(いわゆる記述統計)が一瞬でできてしまうのが、Exploratoryです。

f:id:buri-daicon:20210506214601p:plain

これをぼーっと眺めているだけでも、いろんなことに気づかされます。

ともあれ、同じ操作を6回繰り返し、すべてのデータを読み込んだらこのステップはおしまいです。

お疲れさまでした。次回からはいよいよ「100本ノック」の課題に取り組んでいきます。