データとメディアの勉強帳(略称:デメ勉)

データでメディアを読み解く

うわ、日本、嫌われすぎ……? 「嫌われつつある日本と日本人」なる調査について調べてみた(心配なし)

web.archive.org

通称「親日度調査」というらしいです。

韓国・中国・台湾・香港・タイ・インドネシア・インド・アメリカ・オーストラリア・イギリスの世界10カ国の国民に「日本が好きですか?」と尋ねたところ、「嫌い+大嫌い」の合計値が前回調査(2020年)と比べて増えた、という内容の記事です。なぜかインドネシアのみ減った、と。

コロナ禍で海外旅行もままならないなか、いったいどんなわけで日本への反感が増えたのでしょうか? 実際の数値を拾って(「大嫌い」+「嫌い」をまとめて「嫌い度」としました)、改めてグラフにしてみました。

すると上記のように、たしかに韓国、中国、インドなどがものすご〜く「反日」になってる気がしてきますね。

とはいえこの調査、端的に言って無視してかまわないかと。なんとなればサンプル数が少なすぎるからです。

続きを読む

Exploratoryでデータサイエンス100本ノックその0:データを読み込む

データを読み込む

「Exploratoryでデータサイエンス100本ノック」の最初の投稿です。今回は「その0」と題して、データの読み込みをします。

必要なデータは、次の6つです。

Docker版では、Dockerイメージ内のデータベースから読み込むようになっているみたいですが、ここでは、データサイエンス協会のGithubリポジトリから読み込みます。

  • df_customer
  • df_category
  • df_product
  • df_receipt
  • df_store
  • df_geocode

プロジェクトを作成

f:id:buri-daicon:20210506210426p:plain

こちらがExploratoryの初期画面です。「新規作成」を押して、プロジェクト名を入力し、プロジェクトを作成します。

f:id:buri-daicon:20210506210759p:plain

ここでは、「100knocks-preprocess」という名前にします。

「作成」を押すと、データ読み込みのための画面になります。

f:id:buri-daicon:20210506210934p:plain

左上のデータフレームの右の「+」ボタンを押すと、下記のようなポップアップが表示されますので、「ファイルデータ」を選びます。

f:id:buri-daicon:20210506211132p:plain

すると、ファイルソース(ファイルの読み込み元)の指定画面が出てきますので、「リモート」の「テキストファイル(CSV - カンマ区切り」を選びます。

f:id:buri-daicon:20210506211509p:plain

すると以下のように、URLを尋ねてきますので、Github上のファイルのURLを入れて指定します。

f:id:buri-daicon:20210506211839p:plain

無事データを読み込み終わると、「サマリービュー」が表示されます。

ビジュアリゼーションを駆使してデータの特性を見極めるプロセスを「EDA(Exploraotory Data Analysis)」と呼び、データサイエンスの大切な一過程として重要視されていますが、そのEDAの基本(いわゆる記述統計)が一瞬でできてしまうのが、Exploratoryです。

f:id:buri-daicon:20210506214601p:plain

これをぼーっと眺めているだけでも、いろんなことに気づかされます。

ともあれ、同じ操作を6回繰り返し、すべてのデータを読み込んだらこのステップはおしまいです。

お疲れさまでした。次回からはいよいよ「100本ノック」の課題に取り組んでいきます。

データサイエンス100本ノック(構造化データ加工編)をExploratoryでやってみた!

データサイエンス100本ノックとは?

「データサイエンス100本ノック(構造化データ加工編)」とは、一般社団法人データサイエンティスト協会が公開・提供してくださっている、データサイエンスに必須の「データ前処理」能力開発に役立つ問題集です。

digitalpr.jp

対応言語は、SQLPython、Rで、Dockerファイルとして提供されています。

手元の環境が、Dockerだとちょっとやりにくいので、PythonとRについては、Google Colaboratory版を自作して勉強中なのですが、、、。

続きを読む