Exploratoryでデータサイエンス100本ノックその0:データを読み込む
データを読み込む
「Exploratoryでデータサイエンス100本ノック」の最初の投稿です。今回は「その0」と題して、データの読み込みをします。
必要なデータは、次の6つです。
Docker版では、Dockerイメージ内のデータベースから読み込むようになっているみたいですが、ここでは、データサイエンス協会のGithubリポジトリから読み込みます。
- df_customer
- df_category
- df_product
- df_receipt
- df_store
- df_geocode
プロジェクトを作成
こちらがExploratoryの初期画面です。「新規作成」を押して、プロジェクト名を入力し、プロジェクトを作成します。
ここでは、「100knocks-preprocess」という名前にします。
「作成」を押すと、データ読み込みのための画面になります。
左上のデータフレームの右の「+」ボタンを押すと、下記のようなポップアップが表示されますので、「ファイルデータ」を選びます。
すると、ファイルソース(ファイルの読み込み元)の指定画面が出てきますので、「リモート」の「テキストファイル(CSV - カンマ区切り」を選びます。
すると以下のように、URLを尋ねてきますので、Github上のファイルのURLを入れて指定します。
無事データを読み込み終わると、「サマリービュー」が表示されます。
ビジュアリゼーションを駆使してデータの特性を見極めるプロセスを「EDA(Exploraotory Data Analysis)」と呼び、データサイエンスの大切な一過程として重要視されていますが、そのEDAの基本(いわゆる記述統計)が一瞬でできてしまうのが、Exploratoryです。
これをぼーっと眺めているだけでも、いろんなことに気づかされます。
ともあれ、同じ操作を6回繰り返し、すべてのデータを読み込んだらこのステップはおしまいです。
お疲れさまでした。次回からはいよいよ「100本ノック」の課題に取り組んでいきます。