わかったこと
なんか基礎的なこと
確率変数の概念を導入しよう.
(Ω,F,P)を確率空間とし,X:Ω→Xを確率変数とする.それでもって,述語f∘Xが成り立つ確率を考える.
これは,Bf={x∈X∣f(x)}と定義して,
P∘X−1(Bf)=P({ω∈Ω∣X(ω)∈Bf})
と表せる.
二変数の場合,Y:Ω→Yを用意して,(X,Y):ω↦(X(ω),Y(ω))とする.さらに,Bf={(x,y)∈X×Y∣f(x,y)}とする.こうすると,fが成り立つ確率が,
P∘(X,Y)−1(Bf)=P({ω∈Ω∣(X,Y)(ω)∈Bf})
と書ける.
昨日は,
P({y∈Y∣∃x∈X:f(x,y)})
というのを考えたけど,これ,fy(x)を考えている.つまり,∣Y∣の数だけ述語を考えている.関数の集合を考えるのではなくて,yを使って関数を表している.この考え方はだいぶ使えそう.
述語の集合をFと書くと確率空間のσ-algebraと混同して紛らわしいので,述語をhで表して,その集合をHと書くことにする.
ωを使って関数を表そう!
学習理論的なこと
裏にある,(Ω,F,P)という確率空間を忘れないこと.
扱う問題が,ωの述語になっていることが多いが,それがほとんどの場合省略されている.
Bh,c={x∈X∣h(x)=c(x)}という集合を考える.
generalization errorはPX=P∘X−1でBh,cを測ったもの.
R(h)=P({ω∈Ω∣X(ω)∈Bh,c})=P∘X−1(Bh,c)
empirical distribution
Dm=m1i=1∑mδxi
empirical errorは,empirical distributionでBh,cを測ったもの.
R^(h)=Dm(Bh,c)
empirical distributionの値は確率変数(多分).なのでempirical errorも確率変数.
R^(h)(ω)=Dm(Bh,c)(ω)=m1i=1∑m1Bh,c∘Xi(ω)
これはサンプルによるのだから,当たり前といえば当たり前.
一方で,generalization errorは定数.
R^(h)=0なるhを,consistent hypothesisと呼ぶ.
これは常に存在するとは限らないので,存在確率を考えてみよう.
P({ω∈Ω∣∃h∈H:R^(h)(ω)=0})=P({ω∈Ω∣∨h∈HR^(h)(ω)=0})=P(∪h∈H{ω∈Ω∣R^(h)(ω)=0})≤h∈H∑P({ω∈Ω∣R^(h)(ω)=0})
右辺の中身を少し調べると,
R^(h)(ω)=0⇔∧i=1m1Bh,c∘Xi(ω)=0⇔∧i=1mXi(ω)∈/Bh,c
となるので,
P({ω∈Ω∣∃h∈H:R^(h)(ω)=0})≤h∈H∑P(∩i=1mXi−1(Bh,cc))=h∈H∑i=1∏mP∘Xi−1(Bh,cc)=h∈H∑i=1∏m(1−P∘Xi−1(Bh,c))=h∈H∑(1−P∘X−1(Bh,c))m=h∈H∑(1−R(h))m=∣H∣(1−R(h))m=:δ
consistent hypothesisが存在する確率が,generalization errorを使って抑えられている.
ちょっとよくわからんけど,こんなバウンドを出せたのは初めてなので進歩したと思っておく.
sampleの話
S:ω↦(X1(ω),…,Xm(ω))という確率変数を考える.
B⊂Xmに対して
P∘S−1(B)=P({ω∈Ω∣S(ω)∈B})
を考える.これとempirical distributionとの関係は?
P∘S−1はXm上の測度っぽいけど,empirical distributionはX上の測度.で,多分これもいろいろなところで使う.
hSなんかはサンプルに依存してるので,R(hS)とかを扱う際にはこれで測ることになる.結構複雑だ.あれ,ちょっと思いついた.
学習理論的なこと part 2
サンプルを使って出したhS∈Hがconsistentだとする.これは,Sに依存していて,確率変数とみなせる.
Bc={s∈Xm∣P∘X−1({x∈X∣hs(x)=c(x)})}
これはまさに,hをsで表している!P∘S−1で測れる.多分sは無限個あるので,hsも無限個ある.
0 件のコメント:
コメントを投稿