はじめに
会社のTableau研修の一環で面白そうなオープンデータを探してる。が、そもそも価値あるものって有料だから、そことのジレンマが難しくて厳しい
— AOKI Takashige (@aochan_0119) 2022年5月29日
e-statもぶっちゃけセンスなくて、意味不明な説明行とか空白があって、どのみち一旦加工が必要で使いにくいことこの上ない。。
ややネガティブな発言からにはなるが、背景としては上記の通り。
社内のネットワークを起点とした、普遍的なTableauの研修中。
概要
DATA Saber - Journey of Expanding Data Intelligence
本研修の概要等は上記に詳しい。
詳細はそちらに譲るとして、自分なりに養子をまとめるなら、、
要はTableauの勉強会であり、マーケティング施策の1つである。
そこで用意されたデータセットをお題に沿って可視化するものと、自身で新たなデータの可視化を提案する課題に二分される。要は先述の前者と後者に該当する。
前者は先駆者も多くおり、自分自身で試行錯誤する比率が高いので、ここでの取り扱いは軽くする。
そこで後者を集中的に取り扱う。これはコミュニティポイントという独自施策の課題として明文化されている。
Tableau関連のブログ記事の投稿 Tableauに関連するブログ記事を書き、そのURLをTwitterでシェアする。 10pt / 4週間以内に3回投稿
ところで上記のような動画もVlog的にカウント対象なのだろうか。
個人の目的
せっかくの初回なので、技術的なことは軽めにファンダメンタルズ的なことに今回は比重を置きたい。
ここでブログとして最も重要とも思えるのは、個人の目的、考えではないだろうか。
単刀直入にぶっちゃけてしまえば、汎用性のあるスキルを得るためだ。終身雇用も崩壊しつつある今、普遍的なスキルを磨く重要性は高い。
そこで国に認められた一般的な資格などを有する機運は高まっていると思う。せっかくなのでそれぞれの長所短所をまとめてみたい。
Data Saberの利点:資格の欠点
- 応用性:直ちに現場へ還元できる
- 独自のコミュニティが整備されている
- 特に弊社の他業種との人脈機会にも:役員発表機会もあるとか?
- 完走できずとも価値が担保されやすい
- 物珍しい
資格の利点:Data Saberの欠点
- 履歴書に書きやすい:普遍性が高い
- 結果主義:0 or 1
- Data SaberやTableauの知名度
- Tableauのライセンス料:これは会社負担でむしろ個人的には得
とはいえ、折を見て3年以内くらいを目標に基本情報は取りたい。
方法
引用の通りブログが手法に提示されているものの、その内容はかなり自由らしい。
正直書き手としてもどこまでがカウント対象なのか難しいところではある。
ひとまずそこそこの読み応えは担保したく思うが。
とはいえ、Tableauについて知らない人も多いだろうし、Data Saberという施策はさらにだ。そのため第1回はあまり深い内容には入り込めないだろう。
前置きは以上にして、具体的に何をするかだ。
基本的にVizをまとめ、その手法を記載し、せっかくなのでその考察も記載するといったところか。
しかし大前提のデータの入手が案外難しい。
データは21世紀の石油とも言われ、安価、とりわけ無料というものも限られる。仮に購入してもそれを世間一般に公開できるかも別問題だ。
分析対象
そのためまずは手軽な国勢調査等の統計データを扱いたいと思う。
同様のことは大学の研究における、研究背景の視覚化にも行っていたので、とっつきやすくもある。
あるいはせっかくなので社会的要請が比較的高いトピックも選んでみたい。
例えばジェンダーバイアスとか。
こんな感じでTwitter女子からは地獄扱いされている九州だけど幸福度調査では軒並み高い。特に当地で暮らす女性からの評価が高い。Twitter女子の主張は異様で奇妙である。 https://t.co/SoZ8i1TQY1 pic.twitter.com/5ZBDAGapRe
— 小森屋 (@komoriya81) 2022年5月24日
30-34歳女性の全国版。
— にゃんこそば🌘データ可視化 (@ShinagawaJP) 2022年5月29日
こちらも地域格差が大きく、三大都市圏(40~60%)と北海道・東北・九州南部(20~30%)で2倍の差がついています。
大企業を中心に、テレワークを前提とした「勤務地を限定しない人事制度」が試行されていますが、若年層(特に大卒者)の社会動態にどう影響してくるか・・・🧐 pic.twitter.com/kNb6y5p4Mu
仮説として地方ほど保守的そうなので、この地方さもうまい具合に定義させつつ、相関とかを追ってみたい。
産業構造、女性の社会進出、出生率、最終学歴、上京:人口移動とか色々な切り分け方がある。
ただ、試験的に色々データを入れて試してみたところ、以下のようなエラーも出てしまったりしたので、やはり元データの形式や特徴を把握しつつ、うまく整形しながら分析する必要がありそうだ。
政府統計のファイルの厄介な特徴として、都道府県欄に横幅調整の謎の空白があったり、セル結合されていたり、おかしなサマライズがあるのは、そこでざっくり見ていての不満になる。特に前者については、気にすることのほどでないし、セルの書式調整で対応して欲しい。DB形式もあるのがせめてもの救いとも言えるが、この環境ではデジタルトランスフォーメーション等も前途多難だ。
その他:分析対象候補等:バックグラウンドを活かすためにも土木系多め
Twitter可視化システムを作ってみたら日本に笑顔が溢れていた話 - NTT Communications Engineers' Blog
小売物価統計調査 小売物価統計調査(構造編) 年次 2021年 | ファイル | 統計データを探す | 政府統計の総合窓口
https://www.tepco.co.jp/forecast/html/images/juyo-2021.csv
日本銀行 資金循環にて2021年分のデータ更新がありましたので共有します。
— 小川製作所 (@OgawaSeisakusho) 2022年6月28日
まずフロー面(資金過不足)です。
家計、企業、政府、金融機関、海外の合計値は常にゼロです。
2021年も企業は黒字主体、政府と海外が赤字主体だったようです。 pic.twitter.com/Vc8TDwE5Nt
全データもぶら下げておきます~\(^o^)/ pic.twitter.com/gMHf8Tndbf
— まきしま (@knm393) 2022年6月27日
GitHub - MuseumofModernArt/collection: The Museum of Modern Art (MoMA) collection data