pillyshi: シンプルな分類器を作りました (Simple-Classifier)

シンプルな分類器 (Simple Classifier)を作ったので，その仕組みをここに書きたいと思います．

まず，線形モデルについて少し深く考えてみたいと思います．入力を $\mathbf{x} \in \mathbb{R}^d$ , 出力を $y \in \{-1, 1\}$ とします．パラメータ $\mathbf{w} \in \mathbb{R}^d$ を用いて，パラメータに関する線形モデル $f: \mathbb{R}^d \rightarrow \mathbb{R}$ を以下のように定義します．

$f(\mathbf{x}) = \sum_{j=1}^d w_j x_j = \mathbf{w}^T \mathbf{x}$

簡単のため， $\mathbf{x} \in \{-1, 1\}$ として， $x_j$ を $\mathbf{x}$ の第j成分とします． $j$ を人として考えましょう．つまり， $d$ 人の人がいます．そして， $x_j$ を人 $j$ が賛成した（+1）か反対した（-1）かを表すものと考えます．こう考えると， $y$ を正解として， $y x_j$ が $1$ なら， $j$ は正解したと言えます．
この観点から線形モデルを見てみましょう．簡単のため， $\mathbf{w} \in \{-1, 1\}^d$ とします．こうすると， $w_j$ は人 $j$ を信用する（+1）か信用しない（-1）かを表してると考えられます．信用しているなら， $j$ の意見 $x_j$ をそのまま通しますが，信用していないなら，その反対を選びます．
今，学習データ $\{(\mathbf{x}^{(i)}, y^{(i)})\}_{i=1}^n$ が与えられているとします． $\mathbf{w}$ をどのように決めたらいいでしょうか？直感的には，「多く正解している人をより信じる」ように選んだらいいような気がします． $j$ の正解率は，

$\frac{1}{n} \sum_{i=1}^n y_i x^{(i)}_j$

で表されます．これをそのまま $w_j$ として使います．つまり，

$w_j = \frac{1}{n} \sum_{i=1}^n y_i x^{(i)}_j$

とします．これがプラスなら信用し，マイナスなら信用しないということです．さらに，値が大きいなら，より信用する（しない）ことになります．

今回作った分類器，Simple Classifierは，基本的にはこれだけの仕組みに基づきます．

さて，入力は $\mathbf{x} \in \mathbb{R}^d$ であることが多いのが現実です．これを， $\mathbf{x} \in \{-1, 1\}$ に変換しなければなりません．もっとも簡単なのは， $j$ 毎に，閾値 $t_j \in \mathbb{R}$ を用意して，それで以下のように判断することです.

$x_j \leftarrow \left\{\begin{array}{ll} 1 & x_j \geq t_j \\ -1 & x_j < t_j \end{array}\right.$

それでは， $t_j$ はどのように選んだらいいでしょうか？今回は， $x_j$ の平均を使って，

$t_j = \frac{1}{n} \sum_{i=1}^n x_j$

とします．これは，中立な人の立場から見て，その人が賛成か反対かを決めていることに相当すると考えられます．

以上がSimple Classifierの仕組みです．実装はGithubにあります，ぜひ使ってみてください．

simple-classifier

Written with StackEdit.

pillyshi

シンプルな分類器を作りました (Simple-Classifier)

0 件のコメント:

コメントを投稿

機械学習の問題設定