セイバーメトリクス・データ・統計・確率




[0] セイバーメトリクス・データ・統計・確率

投稿者: SABRmetrics 投稿日:2019年 2月11日(月)10時41分55秒 

タイトル通り





[2] Re: 統計について少しー2

投稿者: USA 投稿日:2019年 2月11日(月)21時54分52秒  返信

さて、賛成できかねる部分。

「期待値がどうのこうのって、標準偏差というものがあって、それで期待値は変わる」

この部分、全く間違い。

先の稿で書いたように、期待値の中央値と偏差。2つのパラメター(変数)がある。

別宅、好きに2で今連載中なのが、バントと通常攻撃の徹底数理分析。

そこからデータを借りる。

通常攻撃で、無死一塁、ここで、打者安打(のケイスのみを扱う)。
無死一塁だったら、得点期待値は0.837(MLBのもの、Tom Tangoのサイトから抜粋)
http://tangotiger.net/re24.html

安打後、
想定できる場面
1.無死1、2塁
2.無死1,3塁(走者がExtra Baseを稼ぐ)
3.無死1塁で走者が帰る(Extra baseにエラーなどが絡む)
4.無死2、3塁(エラーがらみ)
5.無死2塁、走者生還(再びエラーがらみ)
6.無死3塁、走者生還(エラーがらみ)
7.無死走者なし、2走者生還(エラー)
8.一死走者1塁(内野安打、しかしランナー封殺)
9.一死走者2塁(普通に1,2塁のあと、1塁ランナーがオーヴァーランなどで憤死)
もっとあるけれども、発現頻度が非常に低いからこのあたりでやめる。興味深い人は考察して見られると良い。


この中で、計算の必要なのは、実はケース1、2ぐらいになる。

1.無死1、2塁になる確率は、打者が単打(打率ではなく)、単打率 x(走塁で、ランナーが2塁を超えて進まない、英語でNo Extrabase Running
。この確率は、MLBの平均が75%*。もちろん、走者によってExtra Baseを稼ぐ率の高い選手がいて、そういう統計もMLBでは公開されている。

この75%の根拠は、例えば、
http://www.tangotiger.net/markov.html
を見てもらいたい。


だから、期待値は、無死1、2塁 1.472に、生じる確率、単打率(打者ごとに違う)*0.75を掛けて、
1.104*単打率。
もっとこれを打者走者の組み合わせで見たければ、その走者のExtra base率を考案すればよい。


2.Extra baseをランナーが稼いだ、あるいはエンドランをかけ、右方向へ安打が出たなど。
再び、MLBの平均だとこれは、25%の確率で起る。

無死1、3塁の得点期待値が1.696、そこに単打率*0.25だから、
0.424*単打率となる

これを足して、ざっと1.528*単打率が、期待値。

もともと、単打率という数字が、その打者、あるいはリーグ平均の中央値。それに、個人なりリーグなりの偏差を考慮することになる・・・

が、得られる期待値の中央値は、単打率の中央値(つまり、我々がデータベイスで見る数字)によってのみ規定される。

この過程は、単打率→得点期待値という変換(これが函数という概念)なのだが、単打率が、正規分布に従い、期待値も正規分布に従う(これが、大数の法則)以上、中央値同士に同じ変換を施せば、得点期待値の中央値が出てくる。
だから、偏差を知らなくても、中央値だけで、期待値が求められる。

では、偏差は何に利いてくるか?

まさに、前稿で触れたように、「信頼性」の指標。
ベル型分布が太っちょか、スリムか?を決める。

さて、中学の数学や化学で有効数字という概念を学んだはず。

いろいろな変数を組み合わせて得られた新しい変数の有効数字は、元の変数の中でもっとも粗い物と同じレヴェルになる。

これが、偏差の大小が意味すること。

得点期待値の偏差値は、得点期待値を導き出す式に含まれる変数(上の例で、単打率だが、もっと詳細に、2塁打、本塁打、3塁打のケースも含めると、これらすべての偏差値を計算する必要がある)
そして、それぞれの得点状況の数字(無死1,2塁が1.472という数字)の偏差値のうち、もっとも粗いものになる。
Run Expectancyは、およそ数万のゲームで規定されていて、標準偏差は大体平均値の0.5%以下。この中に含まれる変数の中で最も精度が高い。
打率の偏差は、結構大きい。なにせ、打数がせいぜい2~400ぐらいの数字から導き出されるのだから。

だから、得点期待値の偏差はほぼ、打率の偏差と比例すると考えてよいだろう。

ここで示したことは、
得点期待値の中央値を決定するためには、変数(打撃、走塁)の中央値だけでよい。それぞれの偏差は、入ってこない。
しかし、その信頼性を決める偏差は、それぞれの変数のうち、おそらくもっとも変動幅の大きい、打撃系の数値の偏差によって決定される

という2点。



[1] 統計について少しー1

投稿者: USA 投稿日:2019年 2月11日(月)21時52分30秒  返信

Yahoo掲示板が終了する直前にあった話題について。

期待値と偏差。

ここには科学的誤解があって、正確には、期待値の「中央値と偏差」の意義が問われている。

まず最初に、数学理論をできる限り簡単に理解できるように砕いてみよう。

統計・確率の基本は、十分に多数の母集団を集め、そこから属性(例えば、人間なら、身長とか、体重など)を抜き出して並べると、正規分布(ベル型をした集団)になるというもの。つまり、大きな数の母集団から規定される分布にはたった一通りの数学的関係式しか存在しない・・・これは科学的には実は驚異の事実でもある。

付図1にそれを示した。そもそも偏差とか標準偏差という数値が提議できるということは、この正規性を基にしている。

中央値とは、ベル型分布の頂点の位置、これが平均値だったり、期待値だったりする。
そして、偏差は、このベル型分布の「体型」を規定する因子。偏差が小さいと、分布はシャープ(右側)になる。偏差が大きければ左のように、緩い分布になる。
これが何を意味するか?

図2,3に移行する。

付図2は、ある簡単な実験の結果。Aという集団とBという集団とは、見た目、明らか違ったに平均値(違う人間集団の間の身長なりを想定してもらいたい)を持つ。
付図3もAとBとは同じ関係にあるように見える。なぜならそれぞれが同じ中央値(平均値)を持つから。
しかし、統計的にはこの2つは天と地ほど違う。
グラフの上に線で示しているのが、標準偏差。
図3は、図2よりも偏差が大きい。

図2のケースは、統計的にもAとBは差がある。
しかし図3のケースだと、平均値が見かけ上違っても、統計的には違いはない(これが評価結果)。

集団どうしの差異を検定する方法がいくつかあって(StudentのT検定と呼ばれるものが一般的)、信頼度95%で、両者の差があるとか無いとか吟味する。
世間一般にメディアが報告するのも、こういう検定を経た結果であることが多い。殆どのケースで、信頼性などという言葉すら見られないが・・・
私自身、好きにでは時々使っていたけれど、煩雑になって、読者(がもしいたとして、笑)がドロップアウトしてしまう。

実は、Puiさんが、好きにを覗く理由になった広島球場の件、最初に提議したヒトは、「今年の広島球場のパークファクターおかしいから何かあるに違いない」と主張。
そこで、「パークファクターの経年偏差値を見ないと、違うとはいえませんよ、これが過去10年のデータ」といったら、「自分が出したデータで議論しないと話にならない」と物別れ。

その人は「目で見てはっきりと違いがあるのに何をあほなこといっとるんじゃ」「煙に巻こうとしやがって」と思っているだろうが、
ここが、統計や確率の面白く怖いところ。目にはっきりと見える違いが、実は存在していない。
統計の前提である「大きな数」を経て判断するということの恐ろしさでもある。
パークファクターのケースは、統計的ばらつき、つまり偏差が大きいから、差があるかないかは、慎重に吟味しないといけない。

これは一般の人がなかなか理解できない統計確率の不思議さのひとつでもあるだろう。

ここで強調しておきたいのは、
「目で見える違いがあっても、それが本当は違いではないことは、往々にしてある」ということ。

ここは、Yahoo掲示板最後に提起された問題と根本的には同じことを言っている。
だから、ここまでは、論旨に賛成。


お知らせ · よくある質問(FAQ) · お問合せ窓口 · teacup.レンタル掲示板

© GMO Media, Inc.