20190823

20190823

学習理論的な話

今日も(Ω,F,P)(\Omega, \mathcal{F}, P)を忘れない.

昨日の疑問

以下は言っていいんだと思う.なぜなら,左辺の集合は右辺の集合の部分集合だから.

P({ωΩR^(h)(ω)R(h)ϵ})P({ωΩR^(h)(ω)R(h)>ϵ}) \begin{aligned} P \left(\left\{\omega \in \Omega | |\hat{R}(h)(\omega) - R(h)| \geq \epsilon\right\}\right) \leq P \left(\left\{\omega \in \Omega | |\hat{R}(h)(\omega) - R(h)| > \epsilon\right\}\right) \end{aligned}

これは解決.今日はもう少し進む.

今まで有限個の仮説集合H\mathcal{H}を考えてきたけど,現実的にはこれは無限個ある.例えば線形モデルの場合,仮説集合は,Rd\mathbb{R}^d

直感的には,仮説集合が大きければ大きいほどempirical errorを小さくできる.
有限個の仮説集合では,learning boundにlogH\log|H|が出てきていて,仮説集合を大きくしすぎると,generalization errorが大きくなる恐れがある.要はトレードオフだ.この辺をやるのが正則化なんだろうけど,それはまたの話.

「大きさ」という表現をしてきたが,「複雑度」という言葉に変えようと思う.個人的には「対応力」がしっくりくるんだけども.

変な脱線

想像しやすいところから.
2クラス分類問題.

y{1,1}y \in \{-1, 1\}
g:XRg: \mathcal{X} \to \mathbb{R}

yg(x)yg(x)は大きければ大きいほどいい.
多分これはマージン最大化の考え方でここでは適切ではないかもしれない.

Y:Ω{1,1}Y: \Omega \to \{-1, 1\}
X:ΩXX: \Omega \to \mathcal{X}

Y()gX()Y(\cdot) g \circ X(\cdot)っていう確率変数を考える.
この期待値が大きいffがいいよね.
というわけで,

R(G)=supgGEP[Y()gX()] \begin{aligned} \mathscr{R}(G) = \sup_{g \in G} \mathbb{E}_P \left[Y(\cdot) g \circ X(\cdot)\right] \end{aligned}

を一種の複雑度として見ても良いような気がする.

サンプル

サンプルS:ω(X1(ω),,Xm(ω))S: \omega \mapsto (X_1(\omega), \ldots, X_m(\omega))と,関数f:Xm[0,)f: \mathcal{X}^m \to [0, \infty)の合成関数fSf \circ Sをよく考える.

例えば,サンプルをS:ω((X1,Y1)(ω),,(Xm,Ym)(ω))S: \omega \mapsto ((X_1, Y_1)(\omega), \ldots, (X_m, Y_m)(\omega))として,以下の関数を考える.

Rf:s1mi=1m(yi,f(xi)) \begin{aligned} R_f: s \mapsto \frac{1}{m} \sum_{i=1}^m \ell(y_i, f(x_i)) \end{aligned}

で,この期待値は,

EP[RfS] \begin{aligned} \mathbb{E}_P \left[R_f \circ S\right] \end{aligned}

と表される.

適当に関数書いて,あとで引数を確率変数化すると楽しそう.

学習理論的な話に戻る

empirical系は全部(Ω,F,P)(\Omega, \mathcal{F}, P)上の確率変数なんじゃないかな.

Empirical Rademacher complexity

R^S(G)=EPσ[supgG1mi=1mσig(zi)] \begin{aligned} \hat{\mathscr{R}}_S(G) = \mathbb{E}_{P_\sigma} \left[\sup_{g \in G} \frac{1}{m}\sum_{i=1}^m \sigma_i g(z_i)\right] \end{aligned}

σi\sigma_iはindependent uniform random variable.

この辺もσ:ω(σ1(ω),,σm(ω))\bm{\sigma}: \omega \mapsto (\sigma_1(\omega), \ldots, \sigma_m(\omega))を用意して,

f:σsupgG1mi=1mσig(zi) \begin{aligned} f: \bm{\sigma} \mapsto \sup_{g \in G} \frac{1}{m} \sum_{i=1}^m \sigma_i g(z_i) \end{aligned}

EP[fσ]=EPσ[f]. \begin{aligned} \mathbb{E}_P \left[f \circ \bm{\sigma}\right] = \mathbb{E}_{P_{\bm{\sigma}}} \left[f\right]. \end{aligned}

Rademacher complexity

EPS[R^(G)] \begin{aligned} \mathbb{E}_{P_S} \left[\hat{\mathscr{R}}(G)\right] \end{aligned}

empirical distributionについて(何回目だろうか...)

(Z,FZ,PZ)(\mathcal{Z}, \mathcal{F}_Z, P_Z)上のFZ\mathcal{F}_Z-可測な関数g:ZR+g: \mathcal{Z} \to \mathbb{R}_+を考える.

ggに単調増加に各点収束する非負の単関数列{gn}nN\{g_n\}_{n \in \mathbb{N}}が存在する.

gn(z)=j=1naj1Aj(z) \begin{aligned} g_n(z) = \sum_{j=1}^n a_j 1_{A_j}(z) \end{aligned}

とする.

Dm=1mi=1mδzi \begin{aligned} D_m = \frac{1}{m}\sum_{i=1}^m \delta_{z_i} \end{aligned}

とする.

EDm[gn]=gndDm=j=1najDm(Aj)=1mi=1mj=1naj1Aj(zi)=1mi=1mgn(zi) \begin{aligned} \mathbb{E}_{D_m} \left[g_n\right] &= \int g_n dD_m \\ &= \sum_{j=1}^n a_j D_m(A_j) \\ &= \frac{1}{m} \sum_{i=1}^m \sum_{j=1}^n a_j 1_{A_j}(z_i) \\ &= \frac{1}{m} \sum_{i=1}^m g_n(z_i) \\ \end{aligned}

なので,

EDm[g]=limnEDm[gn]=1mi=1mg(zi) \begin{aligned} \mathbb{E}_{D_m} \left[g\right] &= \lim_{n \to \infty} \mathbb{E}_{D_m} \left[g_n\right] \\ &= \frac{1}{m} \sum_{i=1}^m g(z_i) \end{aligned}

となる.
で,ziz_iも確率変数とみなせば,EDm[g]\mathbb{E}_{D_m} \left[g\right]も確率変数なのでは.
つまり,Zi:ΩZZ_i: \Omega \to \mathcal{Z}として,

EDm[g]=1mi=1mgZi \begin{aligned} \mathbb{E}_{D_m} \left[g\right] = \frac{1}{m} \sum_{i=1}^m g \circ Z_i \end{aligned}

これは,(Ω,F,P)(\Omega, \mathcal{F}, P)上の確率変数になっているのだろうか.

Markov’s inequality

P({ωΩX(ω)ϵ}) \begin{aligned} P(\left\{\omega \in \Omega | X(\omega) \geq \epsilon\right\}) \end{aligned}

以下を確認する.

1{ωΩX(ω)ϵ}(ω)X(ω)ϵ \begin{aligned} 1_{\left\{\omega \in \Omega | X(\omega) \geq \epsilon\right\}}(\omega) \leq \frac{|X(\omega)|}{\epsilon} \end{aligned}

これより,両辺期待値をとって,

P({ωΩX(ω)ϵ})E[X]ϵ \begin{aligned} P(\left\{\omega \in \Omega | X(\omega) \geq \epsilon\right\}) \leq \frac{\mathbb{E}[|X|]}{\epsilon} \end{aligned}

今日は色々やって力尽きた.明日に持ち越し.

Written with StackEdit.

0 件のコメント:

コメントを投稿

機械学習の問題設定

機械学習の問題設定 機械学習の問題設定を見直したのでメモ. ( Ω , F , P ) (\Omega, \mathcal{F}, P) ( Ω , F , P ) : ベースとなる確率空間 ( X , F X ) (\mathcal...