ポアソン 回帰。 統計学入門−第15章

CiNii Articles

ポアソン 回帰

R glm 関数を利用してカウントデータの回帰モデルを作成 ポアソン回帰 2019. 25 ポアソン回帰はカウントデータあるいはイベントの発生率をモデル化する際に用いられる。 このページでは、島の面積とその島で生息している動物の種数を、ポアソン回帰でモデル化する例を示す。 このデータセットは R の faraway パッケージに保存されている。 また、このデータセットには、島の面積と種数以外のデータも記録されているが、ここでは使用しない。 09 346 0. 6 0. 6 1. 84 Bartolome 31 21 1. 24 109 0. 6 26. 3 572. 33 Caldwell 3 3 0. 21 114 2. 8 58. 7 0. 78 Champion 25 9 0. 10 46 1. 9 47. 4 0. 18 Coamano 2 1 0. 05 77 1. 9 1. 9 903. 82 Daphne. Major 18 11 0. 34 119 8. 0 8. 0 1. ここで、ポアソン回帰モデルのパラメーター推定を行うので、誤差構造をポアソン分布に、リンク関数を対数関数に指定する。 ただし、島の面積をそのまま使用すると、面積のスケールが大きすぎてうまく回帰できないので、ここでは面積を対数化してからモデルに入力する。 また、そのまま対数化すると、島の面積 1 km 2 未満のときは対数化面積がマイナスの値になる。 これを避けるために、島の面積の単位を m 2 にしてから対数化を行うことにする。 x z Intercept -1. 39281 0. 13694 -10. 77767 0. 01647 47. 73 on 29 degrees of freedom Residual deviance: 651. 67 on 28 degrees of freedom AIC: 816. 5 Number of Fisher Scoring iterations: 5 Coefficients の項目をみると Intercept と x の値は、それぞれ -1. 39281 と 0. 77767 である。 この数値をポアソン回帰のモデル式に代入すると次のようになる。 1 lines x. new, exp cbind 1, x. 05 ci. fit ci. fit lines x. new, exp ci. new, exp ci. また、図に示していないが、予測区間についても非常に狭くなっている。 つまり、観測値の多くは予測区間の外側にある状態となっている。 このとこから、このデータをポアソン回帰でモデル化すると、過分散問題が生じる。 そのため、このデータに関して負の二項回帰などの大きな分散を許容する確率分布でモデル化することがふさわしい。 References• 久保 拓弥. 2012. Dobson AJ. An Introduction to Generalized Linear Models. Second Edition. 2002.

次の

Rとカテゴリカルデータのモデリング(2)

ポアソン 回帰

author: Mr. Unadon 見習い飯炊き兵 動作環境:Mac OS Sierra 10. 1; R version3. 1; rstan 2. 2足くらい、片方だけの靴下を所持している」 「持っている靴下の数は個人で違っており、ひとそれぞれ」 はじめに 本稿は『StanとRでベイズ統計モデリング』の勉強会での発表の一部です。 11章で出てきましたゼロ過剰ポアソン分布について、実データで楽しく学んでいただけたら嬉しいなと思い、整理したものとなります。 なお、詳細は上記書籍を御覧ください。 この記事よりも間違いなく理解が進みます。 ところで、みなさま。 靴下って、なぜか片方だけなくなりませんか? 酔っ払って上着や財布を失うことはあっても、靴下だけは両方揃って履いて帰ってくる。 なのに、片方だけない靴下を、僕は6足持っていました。 ほんと不思議です。 僕の靴下たち…どこいったんやろか… 不思議で不思議でたまらなかったので、友人に「靴下って片方なくなるよね」と話しました。 そこで、「え?」という反応が帰ってきたとき、私は生まれて初めて知ったのです。 世の中には、片方の靴下をなくさない人もいるんだ! そして同時に、 片方しか無い靴下の所持数はゼロ過剰ポアソン分布に違いない! とも、感づきました。 ゼロ過剰ポアソン分布とはなんぞや。 靴下片方をなくさない人がいて、なくす人もいる。 「ある人が、靴下なくす人である確率」はどれくらいだろう? 片方なくすタイプの人は、「平均何足」くらい、なくしてるんだろう? そんな疑問に答えることのできる、統計学の一つのモデルです。 一般の方 + 統計にお詳しい方々の両方がご覧になられる可能性がありますので、 少し難しく、あるいは少し物足りなく感じられる内容になっていくこと、どうかご容赦くださいませ。 「片方しか無い靴下の所持数」データの概要 先日、Twitterでアンケートを取らせて頂きました。 「あなたは、片方しかない靴下を何足もっていますか?」 ご回答くださった方々は合計1304名!!! リツイートにより拡散してくださった方々は、 重複あり 125名様でした。 みなさま、本当にありがとうございます。 なお、今回のアンケートの最大値は7足でした。 7足以上持っている方は、7に投票していただいたと思います。 実際に、「7足以上持ってるよ」というコメントもありました。 こういうデータを、「打ち切りデータ」といいます。 ここも後々考慮していきますが、 まずはデータを見てみましょう。 データ解析に用いるR言語というプログラミング言語で、 片方しか無い靴下の数ごとに、 その人数をグラフ化してみます。 Figure1 【度数分布】片方しか無い靴下の所持数 回答者数1304名 このグラフですが、縦軸が人数、横軸が片方しか無い靴下の所持数です。 0足という方々が多いという特徴を持っていますね。 また、7足以上の方も一定数いらっしゃったようで、その方々のデータが7に含まれて、少し増えていることがわかります。 ゼロ過剰ポアソン分布について ゼロ過剰ポアソン分布は、「靴下をなくす確率」と「なくした靴下の平均的な数」を推定するのに便利な統計学の道具です。 靴下をなくすという事象の生起確率と、無くした数という数えられる値の平均値を、 統計理論に基づいて考えることができます。 専門的に言えば、ゼロ過剰ポアソン分布は、ベルヌイ分布とポアソン分布の混合分布。 下記の図で、およそのイメージを掴んでいただけたらと思います。 今回は、単純に無くした靴下の数の平均値や、無くした靴下の数が1足以上の方の割合を求めるだけにとどめません。 もう一歩踏み込んで、「靴下をなくすタイプな人がどれくらいいるか」、「平均的に何足くらいなくしているのか」を推定していきます。 ゼロ過剰ポアソン分布で片方しか無いくつ下をモデリング ゼロ過剰ポアソン分布を使ったモデリングでは、以下の2つの仮定をおきます。 靴下を片方なくすタイプの人と、なくさないタイプの人がいる その割合 確率 はなくす確率thetaのベルヌイ分布に従う• イメージで書くと、次のようになります。 このとき、「ポアソン分布を仮定する」という仮定の中に、 「靴下なくすタイプだけど、今は片方だけを1足も持っていない」という場合も含まれています。 捨てちゃったとか、そういうかんじです。 以下にベイズ統計の分析コードを紹介します。 所持数0のときは、ベルヌイ分布で0が出る場合と、ベルヌイ分布で1が出て、かつ、ポアソン分布で0が出る場合の尤度の積 対数尤度の和 を計算します。 所持数1以上のときは、ベルヌイ分布で1が出て、かつ、ポアソン分布で対象の値が出る場合の尤度の積(対数尤度の和)を計算します。 一気に結果の出力まで行きます。 収束は事前に確認しております。 density.. このモデルで考えると、 靴下をなくすタイプな確率は46. 平均的な片方靴下の数は2. 7足くらいですね。 Table1. ゼロ過剰ポアソン分布による推定結果 図にも出しておきましょう。 事後分布はこちら。 Figure ゼロ過剰ポアソンモデルで推定した靴下なくす確率と、靴下数の平均 事後分布 この結果をそのまま鵜呑みにすれば、 約半数の人たちが靴下をなくすタイプであるということになります。 で、平均的に2足くらい持っているわけですね。 打ち切りデータのゼロ過剰ポアソンモデリング しかし、上の分析方法は実は適切とは考えにくい側面があります。 なぜなら、「7足以上」とお答えくださった方々が、全部7に吸収されてしまっているからです。 そのことを考慮していない分析は、結果が少しゆがんでしまっていると考えられます。 「7足以上の人が全部7に回答している。 」 こういうデータを打ち切りデータと呼びますが、 以下のような方法で対処することができます。 詳細はやはり、『StanとRでベイズ統計モデリング』の第7章を御覧くださいませ。 以下は. stanファイルのStanモデルです。 一気に結果の出力まで行います。 density.. 平均的な片方靴下の数は1. 2足くらいですね。 Table2. 打ち切りデータを考えた場合の、ゼロ過剰ポアソン分布による推定結果 図にも出しておきましょう。 事後分布はこちら。 Figure ゼロ過剰ポアソンモデルで推定した靴下なくす確率と靴下数の平均 事後分布 「無くした靴下の数はポアソン分布に従う」という仮定が効いてますね。 というのは、 「靴下をなくすタイプの人は8割くらいなんだけど、今は所持数ゼロ。 平均は1. 2足」という、 単純にデータを見ているだけでは分からない情報が得られています。 片方なくしたからもう片方を捨ててしまった。 とか、そういう方々を上手く反映できているのかなぁ。 真実はわかりません。 しかし、そういう眼差しで考えた時の数値を求めることはできました。 結果のまとめと総括 統計学の得意技は、「要約」です。 「平均値」などという一つの値にまとめて、理解しやすくする機能をもっています。 平均値も大事ですが、それにとらわれ過ぎると、個性を見落とします。 バランスが大切ですね。 また、 統計学が教えてくれるのは、真実ではありません。 「こういうふうに考えてデータを見たいんだ」と思った時の、その答えを教えてくれます。 「片方しかない靴下の話」であっても、本当に色々な見方ができます。 最後に、「いろんなモノの見方」で捉えた、結果を表にまとめます。 どれが真実かはわかりません。 しかし僕は、 「靴下をなくすタイプの人が一定数いて」、 「なくす数は個人によって違う」、 「なくすタイプであっても、捨ててしまって今は片方だけの靴下を一足も持っていない人もいる」 という見方が現状一番説得力があると考えておりますので、 下記の表の一番右、 「打ち切りデータを考慮したゼロ過剰ポアソン分布の推定結果」を採用したいと思います。 いやーしかし、ホントどこいったんやろ僕の片方の靴下… Enjoy!!

次の

ポアソン分布とは何か。その性質と使い方を例題から解説 【馬に蹴られて死ぬ兵士の数を予測した数式】|アタリマエ!

ポアソン 回帰

ポアソン分布は、2項分布のnを限りなく大きくすることによって得られることが知られている。 ポアソン分布は、与えられた単位時間内で事象Aがy回起こる確率を示す。 事象がポアソン分布に適応するためには、次に示す条件を満たすことが必要である。 1 事象Aが同時に2回起こらない。 2 事象の生起は独立である。 3 単位時間内の事象の平均生起の数は一定である。 大きな集団の中で起こる偶発的事故や病気の頻度、コールセンターに掛かってくる電話の回数などはポアソン分布に従うと仮定して解析することが多い。 回帰係数の項目が多いので、具体的なモデルの書き式は省略する。 リンク関数negative. binomial 1 に用いた1は、自由に指定することができる。 モデルの推測結果はパラメータ に依存する。 nbがある。 関数glm. nbを用いた例を次に示す。 多項ロジットモデルのパラメータは、一般的に使用されている尤度を最大化する方法で推測する。 多項ロジットモデルの推測には、パッケージneetの中の関数multinom、パッケージVGAMの中の関数vlgmを用いることが可能である。 パッケージVGAMはCARNミラーサイトからダウンロードできる。 花菖蒲のデータirisを用いて、多項ロジスティック回帰の例を示すことにする。 データirisの第5列Speciesは3つの異なる種類を示すカテゴリカルデータである。 変数Speciesを応答変数、その他を説明変数とし、パッケージVGAMを用いることにする。 関数vglmを用いて多項ロジットモデルを推測するためには、リンク関数multinomialを引数として指定することが必要である。

次の