ウイルス、統計、ビデオゲーム

コロナウイルス問題で集団ヒステリー状態の昨今、あまり有益ではないと思わされるような数値の取り上げ方がよく見受けられる。

感染者数と死亡者数、そして感染拡大のスピードを表すグラフの値は勢いよく増加しているが、これらのデータがどのような基準で作られているのかは不明であり、正しい統計学の知識に基づいて作られているのか、疑問が残るようなものもある。

ここで簡単な反対意見を述べてみたい。当然ながら、私は法律家であって統計学者ではないので、この問題について科学的な専門知識を元に語れるような肩書きなどは持っていないし、そのようなことをするつもりもない。高校と大学で学んだ数学と、Giancarlo Livraghi (アドバタイジングの権威で、統計学への深い造詣を持つ人物) そして Riccardo Puglisi (経済学者、まさに統計学のプロ)の両者が監修と翻訳に携わったDarrell Huffの著書「How to lie with statistics」のイタリア語版で学んだ統計学の知識をベースに、見解を述べるに留めたい。”真実”を伝えているわけではなく、ただ解答を得るために疑問を投げかけているのだ。

第一の見解。”コロナウイルスによる死亡者”と一括りにされた、様々な症状で亡くなった人たちは、統計上の標本データとしては条件が偏っており、年齢や持病の有無などを考慮せずに算出された死亡率は統計結果としては信頼性を欠いている。ウイルスによる致死率を算出するためには、 以前から慢性疾患があり、それにウイルス感染が加わった人、自覚はないものの別の病気にかかっていた人、特殊な状況下で感染を拡大させてしまった人など、様々なカテゴリー別に算出をすべきである。

第二の見解。

統計学的に有効なサンプルを検証して分析することは、条件の偏ったサンプルを分析することと全く別次元にある。例えて言うとこうなる。あるサッカーチームのファンの数を調べたいとき、そのチームのサポーターが大勢集まるサッカー場のゴール裏で回答を得た場合と、様々な都市や国の人たちから回答を得た場合とでは、統計結果に明らかな違いが表れるのは言うまでもない。偏った統計というのも、まるきり無駄だと言うわけではないが、それによって導かれる見解には限界があることを知る必要がある。

第三の見解(そして結果)。世界各国の感染者と死亡率の絶対値を、統計量を用いることなしに変えることも方法論としては間違っている。新聞がよくやるような「3,858件の症例における死亡率は4%」などの表現は、症例数と死者数の割合を大雑把に比較しているだけのもので、誤った一般論を導いてしまうだけである。

結論としては、相当数の統計量が得られないうちに結果を公表することについては、かなり慎重にならなければならない、ということである。

一つのアンケートに10人中の7人がある一定の回答した場合と、1万人中の7千人が同じく一定の回答をした場合、どちらも同じように70%の人が共通の回答をしたと言うことができる。しかし(標本データが統計学的に有効なものであることを大前提として)これら二つが統計として全く違う意味を持つことは至極明白である。

今回のコロナウイルスに関して、サンプルとして使われている数値が、統計学的に有効であるために充分な量であるか否かを知る必要がある。

充分な場合は、有効な情報を得ることができる統計結果と言えるが、そうでない場合、それはただのインスタントな情報に過ぎないのである。

Darrell Huff(イタリア語版あり)を再読してみるのも悪くないかもしれない。

Leave a Reply