学習理論的な話
今日も(Ω,F,P)を忘れない.
昨日の疑問
以下は言っていいんだと思う.なぜなら,左辺の集合は右辺の集合の部分集合だから.
P({ω∈Ω∣∣R^(h)(ω)−R(h)∣≥ϵ})≤P({ω∈Ω∣∣R^(h)(ω)−R(h)∣>ϵ})
これは解決.今日はもう少し進む.
今まで有限個の仮説集合Hを考えてきたけど,現実的にはこれは無限個ある.例えば線形モデルの場合,仮説集合は,Rd.
直感的には,仮説集合が大きければ大きいほどempirical errorを小さくできる.
有限個の仮説集合では,learning boundにlog∣H∣が出てきていて,仮説集合を大きくしすぎると,generalization errorが大きくなる恐れがある.要はトレードオフだ.この辺をやるのが正則化なんだろうけど,それはまたの話.
「大きさ」という表現をしてきたが,「複雑度」という言葉に変えようと思う.個人的には「対応力」がしっくりくるんだけども.
変な脱線
想像しやすいところから.
2クラス分類問題.
y∈{−1,1}
g:X→R
yg(x)は大きければ大きいほどいい.
多分これはマージン最大化の考え方でここでは適切ではないかもしれない.
Y:Ω→{−1,1}
X:Ω→X
Y(⋅)g∘X(⋅)っていう確率変数を考える.
この期待値が大きいfがいいよね.
というわけで,
R(G)=g∈GsupEP[Y(⋅)g∘X(⋅)]
を一種の複雑度として見ても良いような気がする.
サンプル
サンプルS:ω↦(X1(ω),…,Xm(ω))と,関数f:Xm→[0,∞)の合成関数f∘Sをよく考える.
例えば,サンプルをS:ω↦((X1,Y1)(ω),…,(Xm,Ym)(ω))として,以下の関数を考える.
Rf:s↦m1i=1∑mℓ(yi,f(xi))
で,この期待値は,
EP[Rf∘S]
と表される.
適当に関数書いて,あとで引数を確率変数化すると楽しそう.
学習理論的な話に戻る
empirical系は全部(Ω,F,P)上の確率変数なんじゃないかな.
Empirical Rademacher complexity
R^S(G)=EPσ[g∈Gsupm1i=1∑mσig(zi)]
σiはindependent uniform random variable.
この辺もσ:ω↦(σ1(ω),…,σm(ω))を用意して,
f:σ↦g∈Gsupm1i=1∑mσig(zi)
EP[f∘σ]=EPσ[f].
Rademacher complexity
EPS[R^(G)]
empirical distributionについて(何回目だろうか...)
(Z,FZ,PZ)上のFZ-可測な関数g:Z→R+を考える.
gに単調増加に各点収束する非負の単関数列{gn}n∈Nが存在する.
gn(z)=j=1∑naj1Aj(z)
とする.
Dm=m1i=1∑mδzi
とする.
EDm[gn]=∫gndDm=j=1∑najDm(Aj)=m1i=1∑mj=1∑naj1Aj(zi)=m1i=1∑mgn(zi)
なので,
EDm[g]=n→∞limEDm[gn]=m1i=1∑mg(zi)
となる.
で,ziも確率変数とみなせば,EDm[g]も確率変数なのでは.
つまり,Zi:Ω→Zとして,
EDm[g]=m1i=1∑mg∘Zi
これは,(Ω,F,P)上の確率変数になっているのだろうか.
Markov’s inequality
P({ω∈Ω∣X(ω)≥ϵ})
以下を確認する.
1{ω∈Ω∣X(ω)≥ϵ}(ω)≤ϵ∣X(ω)∣
これより,両辺期待値をとって,
P({ω∈Ω∣X(ω)≥ϵ})≤ϵE[∣X∣]
今日は色々やって力尽きた.明日に持ち越し.
Written with StackEdit.
0 件のコメント:
コメントを投稿