ほとんど寝ていた気がする...
タバコのせいで集中力を削がれている気がする...
学習理論的なこと
今日も(Ω,F,P)を忘れない.
generalization errorとempirical errorを誤解していたかもしれない.
サンプルS:ω↦(X1(ω),…,Xm(ω))を用意.
今回から,hsというのを考える.
generalization error:
R(hs)=PX({x∈X∣hs(x)=c(x)})
これは,確率変数.なので,以下のように確率を考えられる.
P∘S−1({s∈Xm∣R(hs)>ϵ})
次に,empirical error.
R^(hs)=D({x∈X∣hs(x)=c(x)})
これも確率変数なので,
P∘S−1({s∈Xm∣R^(hs)>ϵ})
を考えられる.
empirical distributionについてもう少し詳しく
empirical distribution:
Dm=m1i=1∑mδXi
Xiは(Ω,F,P)上で定義された確率変数.
empirical distributionの値:
Dm(B)(ω)Dm(B)(s)=m1i=1∑mδXi(ω)(B) ⋯ (1)=m1i=1∑m1B(xi) ⋯ (2)
どっちも同じことなのだけれど,(1)のようにみれば,Pで測れて,(2)のようにみれば,P∘S−1で測れる.だいたい(2)なのではないかと思う.試しにempirical errorの期待値を見てみる.sampleは独立に同一の分布に従うとする.
Bh={x∈X∣h(x)=c(x)}
empirical error:
EP[R^(h)]=m1i=1∑mEP[1Bh∘Xi]=m1i=1∑mEPX[1Bh] (transformation formula)=R(h)
どう頑張っても,R(h)は確率変数ではない.R(hs)は確率変数だが.
確率変数R^(h)の期待値がR(h)なことを利用して様々なことが言える.
Hoeffding’s inequality
独立な確率変数の和Sm=∑i=1mXiを考える.Xi:Ω→[ai,bi]とする.
P({ω∈Ω∣Sm(ω)−E[Sm]≥ϵ})P({ω∈Ω∣Sm(ω)−E[Sm]≤−ϵ})≤exp(−2ϵ2/i=1∑m(bi−ai)2)≤exp(−2ϵ2/i=1∑m(bi−ai)2)
ってのが,Hoeffding’s inequalith.
Sm=∑i=1mm1Bh∘Xiという確率変数を考えれば,m1Bh∘Xi∈{0,1/m}なので,
P({ω∈Ω∣R^(h)−R(h)≥ϵ})P({ω∈Ω∣R^(h)−R(h)≤−ϵ})≤exp(−2mϵ2)≤exp(−2mϵ2)
が言える.さらに,
P({ω∈Ω∣∣R^(h)−R(h)∣≥ϵ})≤P({ω∈Ω∣R^(h)−R(h)≤−ϵ})+P({ω∈Ω∣R^(h)−R(h)≥ϵ}) (union bound)≤2exp(−2mϵ2)
も言える.
Learning boundの話
本当に最小化したいのはR(h)なのだけど,実際に評価できるのはR^(h).
この差がどれくらいあるのかに興味がある.ものすごく開いているなら,そもそも意味がないからだ.
実際に差を出せればいいのだが,R^(h)がsampleに依存するので確率的に評価しなければならない.まあこの辺がPAC learningのモチベ.
Hoeffding’s inequalityから,すぐにlearning boundがでる.
P({ω∈Ω∣∃h∈H:∣R^(h)(ω)−R(h)∣>ϵ})≤h∈H∑P({ω∈Ω∣∣R^(h)(ω)−R(h)∣>ϵ})≤2∣H∣exp(−2mϵ2)=:δ
最後ちょっと疑問.
≥ϵじゃなくて,>ϵだけど,不等式適用していいのだろうか?
−2mϵ2=log2∣H∣δ⇔ϵ2=2m1logδ2∣H∣⇔ϵ=2mlog∣H∣+logδ2
となって,少なくとも1−δの確率で,∀h∈Hに対して
∣R^(h)−R(h)∣≤2mlog∣H∣+logδ2
が成り立つと.
R(h)≤R^(h)+2mlog∣H∣+logδ2
とみるのが良さそうね.左辺を小さくしたいなら,
- R^(h)を小さくすればいい
- サンプル数mを大きくすればいい
- Hが大きいとまずい.でもlogなので一定のところからは気にならなくなる
こうすると,どの項がどれぐらい寄与するかを見れるのかもしれない.
今日はここまで.
今日もガンバった!
Written with StackEdit.
0 件のコメント:
コメントを投稿