荻原和樹『データ思考入門』

データ可視化について、実践的な観点からその心構えを説いてくれる本。
データ可視化というのは、数表をグラフなど視覚的にわかりやすい形で表現することを指す。上で「心構え」と言ったのは、具体的なツールの使い方などではなく、データ可視化に取りかかる際の基本方針とか考え方とかを示してくれる、という意味。

本書を読んだ理由と筆者について

あまり、このブログでは普段取り上げなさそうな本ではあると思う。
あえて言うなら、データ可視化について、科学哲学や美学的な観点から関心がないわけではないし、また、このブログとはあまり関係ないが、データをExcelを使ってグラフにする作業をやることもあるので、実際的な関心もないわけではない。
しかし、この本を手に取った最大の理由は、本書の筆者が大学時代の後輩だからである。
以前、『ディミトリ~曙光に散る、紫の花~』 - logical cypher scape2を大学時代の先輩である並木さんが原作を書いた舞台作品として紹介したが、同じサークルである。
共通の知人から、この原作小説と本書が同時期に同じ書店に並んでいたと、聞いたりもしていた(自分は直接目撃できなかったが)。
さて、並木さんについては、大学卒業後も交流が続いており、その活動についてはわりと追っていたのだけれど、一方で、こちらの荻原くんについてはそうではなかった。
荻原くんが、東洋経済新報社に新卒で入社したことは知っていたが、その後の交流は途絶えており、何をしているかなどは全然知らないでいた。
そんな彼の名前を久しぶりに見たのは、コロナ禍の中の2021年のことだった。


toyokeizai.net
この東洋経済新型コロナウイルス国内感染の状況をまとめたダッシュボードの制作者として、彼の名前がクレジットされていたのである。
(なお、この記事を書くにあたり再確認したら、既に東洋経済を退社したためか、制作・運用は「東洋経済オンライン編集部」となっていた)
本書には、彼のこれまでのキャリアが分かる記述がいくつかあるが、採用時はデータベースの管理をしていて、その後、データ報道の仕事をしたいと考えて、デザインを勉強するためにエディンバラ大学の大学院へ留学。帰国後、少しずつデータ報道の仕事をするようになっていき、現在では、Googleに所属しているということらしい。
上に「実践的な観点から」と書いたが、実際にデータ報道に携わっていた経験をもとに本書は書かれている。実際に荻原くんが作成したデータ可視化の実例も紹介されているので、「へえ、大学卒業後はこんなことをやっていたんだあ」と思いながら読んでいた。
学生時代からアグレッシブなところがあったが(新規サークルの立ち上げとかをやっていた)、まさかこういう方向に進んで、講談社現代新書から単著を出すような人になるとは思っていなかったので、結構驚いた。


さて、そういう個人的な関係を横に置いておいても本書は面白い本であると思う。
対象としては「仕事で、Excelでグラフを作って人に見せたりすることはあるんだけど……」っていう人から、「ビジュアルとかインタラクション機能を用いた報道コンテンツについて興味がある」という人まで、という感じか。
個人的には、第3章から第5章あたりが特に面白かった。
そのあたりの章が、本書の内容のコアの部分だろうとも思う。


はじめに

データ思考=そのデータの価値を最大限に引き出す思考法
1~4章が基礎編、5~9章が応用編

第1章 データ可視化という強力な武器

データ可視化Data Visualization=理解させるためのデータ表現
グラフだけでなく、散布図、3Dグラフィック、地図、アニメーション、インタラクティブ表現なども含む

これについては以前、日経サイエンスでも読んだことがあった。

    • グラフの父ウィリアム・プレイフェア

1759年スコットランド生まれ
1786年『商業および政治のアトラス』などで、棒グラフ、折れ線グラフ、円グラフなどを発案・定式化(上部のタイトル、グリッド線、ラベルなどを整理)

  • データ可視化の伝達範囲の3段階

「自分のため」「組織のため」「社会のため」
筆者が報道分野でデータ可視化を行ってきたこともあり、本書は主に3つ目を対象とする

第2章 データを読み解く

データ可視化のためには、まずデータそのものの理解が重要
最終的に、データと現実を結びつける(具体的なイメージが湧く)ことが目標
データの定義、集計方法(重複はどの程度あるのか、全数調査か標本調査か)、更新タイミング(推定値か確定値かなど。訂正が生じたときどのように視覚表現に反映させるか考えるため、理解しておく必要がある)
因果と相関の違いや疑似相関について

第3章 データを編集する(理論編)

データの編集=読み込んだデータを視覚化するために、データの項目を取捨選択したり、集計したり、他のデータと組み合わせたりすること。
「データを絞る」「数字のメタファーを考える」「コンセプトを設定する」の3点からなる

  • データを絞る

多くのデータを見せる、のではなくて、ユーザーが得られる知見などが最大化することを目的とする
そのために、どのデータを提示するのかということを絞り込む

  • 数字のメタファーを考える

その数字は何を暗示しているのか、どういうことが読み取れるのか
例えば「国別の日本を訪れた観光客数」からは、日本を好きな国のメタファーかもしれないし、休暇の取りやすい国のメタファーかもしれない
数字やデータから読み取れる意味のことを「メタファー」と呼ぶのは、筆者の用語法のようだが、面白い言い回しだなと思った。
あまりこういうのをメタファーとは呼ばないような気がするが、言われてみると確かにメタファーっぽいなと思った。

  • コンセプトを設定する

データを伝える目的や、ユーザーに何をしてほしいかの設定
件の新型コロナウイルス感染状況ダッシュボードのコンセプトは「冷静にデータを吟味して現状を把握できること」
そこから、情報の速さよりも確かさを重視すること、配色には赤や黄色は使わず、ダークモードを基調とすることなどが決まっていった、と

  • 面白いデータを探す

普段から、どこにどういうデータがあるか把握しておくといいよ、という話
こういうことをやろうと思ってから探すより、普段からストックしておくといい、と

第4章 データを編集する(実践編)

  • データの「軸(次元)」とデータの構造

データの分類とか系列とかを「軸」と呼んでいる。
軸を把握することで、データの構造を把握しよう、と。
軸が分かると、その軸を例えばグラフの「縦軸」「横軸」にする。あるいは、バブルチャートの「大きさ」にする、あるいは「色」にするというように可視化していくことができる。

  • 尺度

軸の性質は、4種類の尺度に分類できる
比例尺度:AはBのX倍である、と表現できる尺度(身長、点数など)
間隔尺度:AはBのX倍である、と表現できない尺度(偏差値、気温など)
順序尺度:順位。間隔尺度と異なり、平均値をとれない
名義尺度:名称や分類(性別、国名など)
尺度によって、それに適した表現が定まる。
比例尺度は棒グラフにできるが、間隔尺度は棒グラフにはしないとか
これは結構勉強になった。

  • それぞれの軸を可視化する表現手法

縦軸、横軸、大きさ、色、アニメーション

地図による表現やネットワークによる表現もある

第5章 データをデザインする

データ可視化は翻訳(意訳)

  • データの情報量を落とさない

安易に集計や平均をしない、ということ
これも結構、ほーなるほど、言われてみれば、と思った。

  • 比較を活用する(データに補助線を引く)

データの意味が理解しやすいように、比較対象や基準を示すということ。
具体例として、筆者が作成した高校球児の投球数のグラフィックがある。
高校球児は投球しすぎ、というのを示すためのグラフィックだったが、単に投球数を示しても、熱心な野球ファンでないとその数が多いのか少ないのか判断がつかない。そこで、アメリカのガイドラインで定められている投球数との比較をした、というもの

  • 装飾性

シンプルな表現はあこがれるけど難しい、というのと、装飾を施したグラフの方が記憶に定着しやすいという実験結果もあり、装飾は実際的な効果もありうるのだ、という話

  • テキスト

テキストも重要という話

webなどであれば、インタラクションを用いることもできる。
ユーザーがクリックなりタップなりスクロールなりなんなりするほうが、自分の実感として理解できたりする。
例えば、日本全国の地図から自分の住んでる都道府県をアップにしたりする操作を通じてなど
データ報道では、スクローリーテリングと呼ばれたりもしている。

第6章 多様なデータの見せ方

ここまでの章でも実例は結構あったが、ここからの章はさらに実例が多いというか、実例紹介になっていく趣

  • 地図による表現とその注意点

地図と重ねる表現について、偏見や分断などに繋がる可能性もあるので注意が必要。これは第8章でもより詳しく説明される。

  • ランキングによる表現とその注意点

ランキングもまたデータ可視化の一例で、具体的なイメージがわきやすいという長所があるが、数値が見えにくくなるという注意点がある(1位と2位が僅差なのか大差なのかとか)

  • 予想データの可視化

台風の予報円は可視化の失敗例だよねーという話
予想であることを示すにはぼかしたりなんだり色々な方法がある。

  • シミュレーションの可視化

感染シミュレーションの可視化の実例とか

  • 不完全なデータの可視化

データに欠損があったりする。
可視化に取り組んでいるとそういうデータは使いたくない、と思ったりもするけれど、目的に応じてそういうのも使った方がよいことがある、というような話だったはず。

第7章 データ可視化をどのように改良するか

  • ユーザーの意見ではなく反応

これは筆者の実体験を中心にしている。「これを加えてほしい」という改良意見はくるが「これは外してほしい」という意見はなかなかこない。前者ばかりに応じているので、見難くなって一見さんが入りにくくなる。そして、入らなかった人は意見をくれない。
だから、意見をきかないことも時には大事。
件のダッシュボードでは、対数グラフにしてほしいという意見が多くあったが、コンセプトに照らしてその意見は採用しなかったということが書かれている。

  • 公開タイミング

まあこれは、主にweb記事を書いている人向けの話だなあと思う。
データ可視化は時間がかかるので、何かが話題になったときに作り始めても旬を逃す。
あらかじめ作っておいて、タイミングを見計らう方法

第8章 炎上や誤解を避ける

この章は、データ可視化への責任やデータ可視化の持つ力についての、筆者の考えが現れていると思う。

データ可視化は、差別や偏見の助長・風評被害につながることがあり、データ可視化の作成者をこれを避けなければならない、と。
章タイトルは「炎上や誤解を避ける」とあって、作成者側の身を守る方向性を受けるが、むしろ作成者側が負うべき社会的責任を示しているように思えた。

  • あえて解像度を下げる

筆者が実際に作成した図で、コロナ感染者を示す都道府県別の地図について、人数も分かるように示すと(比較的初期の頃の話でもあって)北海道が極端に目立つ等のことがあり、感染者の有無という二値で表現したという話があった。これが「あえて解像度を下げる」

  • 色使いの工夫

配色については、件のダッシュボードで色合いをなるべく穏やかなものにしたというのが、コンセプト設定のくだりであったが、それ以外にも、ジェンダー別のデータを示す際に、例えば男を青、女を赤にしない、といった実例が紹介されている(筆者が、男女を示す際に青・赤は使っていないのだが、それで全く問題なかった旨紹介されている)

  • 可視化しない

第6章で、地図を使った表現の問題点が挙げられていたが、ここでは、例えば破産者マップの件が挙げられている。
ここで筆者は、「もともと公表されているデータを地図化しただけ」といって責任を逃れることはできないのだと論じている。データ可視化というのは、元のデータに対して、それを理解しやすくする、あるいはそのデータに対して何らかの方向性をもって読み取らせるという付加価値をつける作業なのだから、というようなことが述べられている。
ここで挙げられているのはデータ可視化の負の側面ではあるが、筆者は、データ可視化が単にデータを見た目麗しくしているだけなのではなく、それ自体にパワーがある、価値を付け加える営みなのだ、ということを述べたいのだろうと思った。

  • データ可視化における誠実さ

ソースを明示するとか色々そういうこと
ダッシュボードのソースや履歴をGithubで公開したこととか。

第9章 データ可視化と報道

  • データ報道の歴史
  • 行政データと民間の関係

ここで筆者は、官民の分業を説いている。
近年、行政もわかりやすいデータ公開をすべきだ、という風潮があるけれど、しかし、行政というのはその性質上、第3章であげた「データを絞る」ということができない。
「わかりやすい」データを公開することによって、元データが捨象されてしまったりすることも多い。
一方、大規模に正確なデータ収集は民間では難しく、行政だからできることである。行政はその面に特化し、わかりやすいデータ可視化は民間が行う、という分業をすべきだと論じている。
確かにあるべき姿ではあるよな、と頷かされる議論になっている。


データ思考? データ可視化?

本書は「データ可視化」についての入門書であるが、タイトルは「データ思考」とある。
そもそもこの本のカテゴリは一体何なんだろ、とか考え始めるとよく分からなくなってきたので*1、ちょっと自分なりに整理してみることにした。
本書のタイトルやカテゴライズは、筆者や版元に色々な意図や思惑があるのだろうとは思うけど。
とりあえず「データ思考」でググってみると、実は本書関連のサイトが多くヒットする。
それを除くと、ほかにもタイトルに「データ思考」という言葉を使っている本があったり、大学の教育プログラムやビジネスセミナーなどで、この語が使われているのが分かるが、データサイエンスやDXをテーマにした時に用いられている、意味のふんわりとした造語なのかな、という印象で、特に共有された定義があるようにも見えない。
なお、Data thinkingにするとWikipedia記事があり、「データ思考とは、データサイエンスに重きを置いたプロダクトデザインのフレームワーク」とある*2
。本書ではデータ思考を「そのデータの価値を最大限に引き出す思考法」としており、英語のData thinkingとは若干違うな、という感じがする。
一方の「データ可視化」であるが、これは日本語でも英語でもWikipediaがある。

データ可視化とは、データのグラフィック表現を扱う学際分野
(中略)
データ可視化は統計学分野に根ざすもので、一般的には記述統計部門と見なされている。ただし、効果的な可視化にはデザイン能力と統計処理能力の両方が求められるため、それが美術と科学の両方にあたるものだと主張する著者もいる
データ可視化 - Wikipedia

Data and information visualization (data viz or info viz)[1] is the practice of designing and creating easy-to-communicate and easy-to-understand graphic or visual representation of a large amount[2] of complex quantitative and qualitative data and information from a certain domain of expertise with the help of static
データおよび情報の可視化とは、ある専門領域から得られる大量の複雑な定量・定性データおよび情報を、統計学の助けを借りて、伝えやすく、わかりやすいグラフィックまたはビジュアル表現を設計・作成する実践である
Data and information visualization - Wikipedia*3
(翻訳にあたってDeePLを使用し、一部引用者が修正した)

本書でも、データ可視化とは、データを分かりやすく表現すること、というような説明がなされていたかと思う。
日本語版Wikipediaでは「学際分野」「統計学に根差す」とあり、データ可視化という学問分野があるような印象も受けるが、英語版Wikipediaだと「表現を作成する実践」とあって、学問というほどかっちりしたものではない、という感じもする。それでも、統計学とは関係しているようだということはわかる。
ここで言いたいのは「データ思考」という言葉は曖昧模糊な言葉という感じだが、「データ可視化」の方はもう少し輪郭のはっきりしている言葉で、一つのジャンルとして成立しているようだな、ということ。
とはいえ、「データ可視化学」とでもいうべきディシプリンないしパラダイムが確立しているか、といえばおそらくそこまででもないのだろうな、ということ。
筆者自身、データ可視化を書籍などで学んだわけではなく、その場その場で習得してきたと述べており、体系化された教科書はまだない分野なのだろう。
で、本書の内容をそのままタイトル化するなら、「データ可視化入門」の方が本当は適切だと思う。
「データ思考」という言葉は指す範囲が曖昧な感じがあり、データサイエンス全般やDXを想起させるところがある。
もっとも、データ可視化が、データサイエンスやDXと無縁というわけではない。
例えばデータサイエンスのWikipediaを見てみると、
「データサイエンスで使用される手法は多岐にわたり、分野として数学、統計学、計算機科学、情報工学パターン認識機械学習データマイニング、データベース、可視化などと関係する。(データサイエンス - Wikipedia)」とあり、データ可視化は、データサイエンスの一部分なのかな、という感じがする。
ただ、データ可視化は、デザインという側面が強くそちらを強調するなら、データサイエンスに従属する下位分野なのではなく、データサイエンスからはある程度独立した分野なのである、ということもできそうな気がする*4
「データ思考」とタイトルにあるけれど、あくまでも「データ可視化」の話だよ、ということは強調しておきたい。
ところで、じゃあタイトル詐欺だ、と非難したいわけでもないということは述べておきたい。
このタイトルは内容を正確に表すタイトルではないと思うが、とはいえ、本のタイトルというのは、内容を正確に表すことだけが目的ではない。
ターゲット層に的確にリーチできるか、どれだけキャッチーさがあるか、といった観点もタイトルをつけるには必要になるだろうし、その点からいうと「データ可視化入門」より「データ思考入門」の方がいいんじゃないか、というのも理解できる。
だから、出版社がそういうタイトルをつけること自体は別に問題ないと思っているけれど、一方で、読者側はそういうのを踏まえて、そのあたりをデコードしておく必要がある、と思った次第。

*1:Amazonで科学・テクノロジーとか統計とかに分類されていたのだが、科学書なのか? ビジネス書なのではないのか? と思ったのがきっかけ。しかし、ビジネス書というのは自己啓発系が主たるもののようなので(それ以外のものもあるが)、ちょっと当てはまらないのかなとは思った

*2:Data thinking - Wikipedia

*3:ところで英語版のWikipediaには、データ可視化は、提示型可視化、探索型可視化であって、仮説を確認または否定するための確認型可視化・科学的可視化の分野とは異なるとあった

*4:なんでこんなことを言っているかというと、数式やプログラミングが出てこなくて分かりやすい的な書評があった気がするのだが、まあ多分、データ思考という言葉から、統計学的なものを想起するからだと思うのだけど、データ可視化は、統計学と関わりつつも統計学そのものではないから、必ずしも数式やプログラミングが出てこなくても成り立つのではないのか、とも思ったから