ニューラルネットワーク/パターン識別 専門用語集

2008-10-03

専門分野を進めば進むほど、必ず専門用語に出くわす。 僕はニューラルネットワークやパターン識別、進化計算あたりに関連した分野を研究しているので、 これまでに調べたその分野の専門用語の一部を、ここに記そう。

僕はただの一学生でしかないから、ここに記す情報は、 同じ立場の学生が「こんなものがあるのか」と概要を知ることができる程度のものである。 厳密な説明は他の優れたサイトや書籍、論文誌などを参照されたい。 なお、掲載にあたっていくつかの書籍やウェブサイトを参考にさせて頂いたが、 具体的には、中野良平 著「ニューラル情報処理の基礎数理」(2005.11) などが詳しい。



ニューラルネット関連(モデル)

用語 英語表記 説明
人工ニューラルネット artificial neural network いわゆるニューラルネットだが,脳内に実在する物理的ネットワークと区別するためにこう呼ばれることもある.
パーセプトロン perceptron 最も基本的な2層のニューラルネット.1957年にRosenblattが発表.
単層パーセプトロン single-layer perceptron 入力層と出力層だけのパーセプトロン.線形モデルに対応.非線形の問題は解けない.回帰では平面でしか近似できない.層の数の数え方には入力層を含める流儀と含めない流儀がある.
多層パーセプトロン multi-layer perceptron 隠れ層が1層以上ある層状のニューラルネット.中間ニューロンの数を無限に増やせば,理論的には任意の関数を表現できる.
隠れ層 hidden layer 中間層とも呼ぶ.
フィードフォワードネット feedforward network 情報の流れが入口から出口まで一方向のもの.パーセプトロンやRBFなどがある.
リカレントネット reccurent network ネット内にフィードバックループがあるもの.HopfiledモデルやBoltzmannマシンなどがある.
RBFネットワーク radial basis function フィードフォワードネットのひとつ.
ホップフィールドモデル Hopfield model リカレントネットのひとつ.相互結合型で,非同期型.
ボルツマンマシン Boltzmann machine リカレントネットのひとつ.確率的に動作する.ホップフィールドにシミュレーテッド・アニーリングの機構を加えたような感じ.
隠れMarkovモデル(HMM) hidden Markov model 時空間パターンの認識や合成に適したモデル.音声認識や合成に適用され,動画像認識や合成などへの適用も期待される.HMMは深みがあるらしい.
サポートベクターマシン support vector machine 教師あり学習を用いる識別手法のひとつ.Vapnikが1970年代末に始めた研究に端を発するが,1990年代から急速に注目を集めるようになった. 線形SVMと非線形SVMがあり,未知サンプルに対する分類誤りが小さいなどの特徴がある.
線形パーセプトロン linear perceptron 出力ユニットの活性化関数が線形の単層パーセプトロン.
砂時計型ニューラルネットワーク Sand-glass type neural network 砂時計のように中間層に行くほどニューロンの数が少なくなる多層パーセプトロン。通常は5層。学習を行うと、入力が中間層に向けて圧縮され、出力に向けて復元されるような形になる。 学習後の中間ニューロンからは入力信号の特徴分布が得られる。



ニューラルネット関連(学習アルゴリズム)

用語 英語・数式表記 説明
活性化関数 activation function ニューロンの発火を表す関数.シグモイド関数が有名.
Heaviside関数(ヘヴィサイド関数) 1(h) マイナーな活性化関数のひとつ.h≧0 のとき1を,h<0 のとき0を返す.
シグモイド関数 sigmoid function
シグモイド関数
代表的な活性化関数.sigma + oid で「(昔の筆記体の)シグマのような」の意.シグモイドさんが考えたわけではない.
符号関数 sign function
sgn(h)
h>0 のとき1を,h<0 のとき-1を返す.
バックプロパゲーション法(BP法,誤差逆伝播法) back-propagation algorithm 1986年にRumelhart, Hinton, Williamsによって提案.最初の多層パーセプトロン学習法として名高いが,収束は遅い.
最急降下法 steepest descent 制約条件がない数値最小化問題を解く最も基本的な反復法.ポテンシャル面の傾き(一階微分)のみから、エネルギー最小値を探索する方法。 傾きしか見ないので計算は速いが、局所解に陥りやすい.
反復法 iterative method 適当な初期点から始めて,重みの更新を繰り返して解を求める方法.オンライン学習とバッチ学習がある.
オンライン学習 online learning サンプル毎に重みを更新する反復法.
バッチ学習 batch learning 多くのサンプルの影響を加算してはじめて重みを更新する学習.
慣性項 momentum term
α
反復法による学習時に,振動を起こさないように,なおかつ速く学習できるように導入されたもの. 慣性パラメータαは0.9が多く採用される.α=0.9のとき,学習率は実質10倍になるらしい.
Newton法 Newton method BPより高速な学習法.勾配の他にHesse行列を用いるから収束が速い.計算は面倒. 初期点によっては極大点に向かうので大域収束性は保証されないが, 探索点が最適解の近傍にくれば最適解への収束は速い(2次収束).
修正Newton法 modified Newton method Newton法を,探索空間の形状にかかわらず最適解を探索できるように拡張した方法.最急降下法の大域収束性とNewton法の最適解近傍での2次収束性を兼ね備えている. 更新式をよく見ると両者の折衷が含まれている.
準Newton法 quasi-Newton method 修正Newton法を,Hesse行列を直接計算せず,探索過程得られる複数の勾配からHesse行列の逆行列を近似する形にしたもの.近似の方法などにさまざまなバリエーションがある.
共役勾配法 conjugate gradient method 最急降下法とNewton法の中間である準Newton法と同じ位置づけにある,別の有力な解法.準Newton法と比較して,大規模な問題に適する.しかし直線探索に高い精度が必要となる.
BPQ法 Back Propagation based on Quasi-Newton BPより速い学習法.SaitoとNakanoが1997年に提案.準Newton法を枠組みにして,Hesse行列の逆行列近似に小メモリBFGS法を用い,最適探索幅を2次のTailor展開で近似して求める.
Hesse行列 Hessian matrix なんか偏微分がたくさんつまった面倒くさい行列.Newton法とかやるときにはこの面倒な計算をしなければならない.
デルタ則 delta rule 出力と教師信号の差(デルタ)に基づいて結合荷重を修正する学習規則.いわゆるBP法とか.
前向き伝播 forward propagation 多層パーセプトロンに情報を入力してから出力するまでの信号の流れ.



学習/パターン識別関連

用語 英語表記 説明
自己組織化 self-organization 望ましい振舞いがデータとして与えられない学習.競合学習,Hebb学習,自己組織化特徴写像などがある.
EMアルゴリズム expectation-maximization algorithm ニューラル情報処理のモデルのひとつ.不完全データに対して最尤推定を行う汎用アルゴリズム.HMMを始めとして広い応用範囲を持つ.
学習 learning 一般に,ニューラルネットなどの識別器を望み通りのものにするように調整する処理のこと.
競合学習 competitive learning 自己組織化の一形態.出力ユニットが同時にはただ一つしか発火できない特徴がある.よく知られた深刻な問題として,学習に貢献しないデッドユニットの問題がある.
強化学習 reinforcement learning 未知環境に置かれた知能体が環境から与えられる報酬のみを手掛かりに,経験を重ねるうちに徐々に賢い行動ができるようになる学習.
分類問題 classification problem 教師有り学習問題のひとつ.多次元空間内においてサンプル x がどのパターン(クラス)に属すかを判断する問題.
判別分析 discriminant analysis いくつかの変数に基づいて,各データがどの群に所属するかを判定すること.
事前確率 prior probability 例えば,サイコロ振る前に6の目が出る確率.
事後確率 posterior probability 例えば,サイコロ振った後に「偶数だったよ」って言われたときの「6の目が出た」確率.
線形分離可能性 liner separability 識別平面を用いれば100%正しく分類できるという性質.
超平面 hyperplane 空間をまっすぐに分断するもの.一本の一次方程式の解空間として定義されるk^nの空間内における,n-1次の部分線形空間. k-1次元の識別図形は,k=2のとき直線,k=3のとき平面,そしてk≧4のとき超平面となる.
最小2乗法 method of least squares 関数近似の方法のひとつ.残差の二乗和を最小とするように係数を決める.LMSと混合しないように.
LMS則 least mean square rule 最急降下法に基づいた最適化アルゴリズムのこと.
回帰問題 regression problem 一般に既知の情報を用いて未知の特性を推定すること.端的に言うと関数近似.最小2乗法がよく使われる.
関数近似問題 function approximation 回帰問題に同じ.
従属変数 dependent variable いわゆるyのこと.被説明変数とも呼ぶ.
独立変数 independent variable いわゆるxのこと.説明関数(explanatory variable)とも呼ぶ.
重回帰 multiple regression 複数の独立変数でひとつの従属変数を予測すること.(※重回帰分析:3つ以上の数値の相関関係を分析すること)
多重共線性 multi-colinearity 説明変数間に線形従属関係があるかどうか.多重線形性をもつとき,最小2乗解に現れる逆行列は求まらない.
勾配 gradient ベクトル解析における勾配とは,スカラー場φに対して、φが最も大きく変化する方向を向き、その変化量と同じ大きさを持つベクトルのこと.
局所最適解 local optimum /
local minimum /
relative minimum
解が局所最小点(local minimum)になっていること.目的関数が多峰だとこれに陥りやすい.反復法としてのこの性質は局所最適性(local optimality)と呼ばれる.
疑似局所最適解   〃 点 w* がその近傍の任意の点 w* に対して E(w*)≦E(w) を満たす時を局所最適解と呼ぶが そのとき w* よりも誤差の低い点へ誤差を単調に減少させながら移動する経路が存在するときは,これを区別して疑似局所最適解と呼ぶ. 要はプラトー内の局所最適解.水を注げたとするなら,水が溜まらないイメージ.
プラトー plateau 学習曲線がフラットとなる現象.探索空間のフラットな形状を指すこともある.
真性局所最適解 regional minimum 疑似局所最適解でない局所最適解を,こう呼んで区別する.
大域最適解 global optimum 真の最適解.反復法が初期点によらず大域最適解に収束することが保障されるとき,大域最適性(global optimality)を有すという.
大域収束性 global convergence 任意の初期点に対して最適解に収束することが保証されるかどうか.「大域最適解への収束保証」ではない.
収束次数 order of convergence 収束する速さ(次元的な意味で).「1次収束」はlinear convergence, 「2次収束」はquadratic convergence.「超1次収束」(superlinear convergence)ってのもある.ちなみに,BP法は1次収束で,遅い部類に入る.
鞍点(あんてん) saddle point 馬の鞍(くら)のような形の,中央の部分.山頂と谷底が重なった状態.微分すると0なのに,極大でも極小でもない. 極値問題では「極値をとらない停留点」とも呼ぶ.鞍点や極大点であるかを調べるには,近傍の形状を見るかHesse行列を調べる.
確率近似法 stochastic approximation 1951年にRobbinsとMonroが提案.確率環境において回帰関数の根を求める反復法.
直線探索 line search 探索方向を与えられて最適探索幅を求める処理.準Newton法などで出てくる.
フィボナッチ探索法 Fibonacci section search 直線探索法のひとつ.フィボナッチ数列に従って探索点を生成する.
黄金分割探索法 golden section search 直線探索法のひとつ.黄金分割に従って探索点を生成する.
探索空間 search space パラメータ空間上に目的関数が作る曲面.誤差関数を目的関数とする探索空間は誤差曲面(error surface)と呼ばれる.
臨界点 critical point 探索空間上で,極値条件 ∂E/∂w を満たす点.
同値 equivalent 関数として全く等価な働きをする二つの多層パーセプトロンを同値と呼ぶ.同値であってもネットワーク構成が同一とは限らない.
可約 reducible 多層パーセプトロンにおいて,隠れユニット数が少ない同値のものが存在すること.無駄な結線がある感じ. 2000年にFukumizuとAmariによって,「可約条件がプラトーを形成すること」が発見されている.
特異領域 singular region 探索空間における部分的にフラットな臨界点領域.そこでは一部パラメータの同定ができない.探索点がこの領域に入ると,勾配が0のため探索が難渋し,プラトーを招くか,終了条件を満たして終了してしまう.
汎化 generalization 未知システムを正確にモデル化すること.汎化性能が高いほど,未知データに対して正確な予測ができるということになる.オブジェクト指向の用語だと「継承」の逆.
汎化誤差 generalization error 汎化における誤差のこと.
偏り分散トレードオフ bias-variance trade-off 汎化性能を求めるときに出てくる枠組み.汎化誤差は推定値の偏り(bias)と推定値の分散と誤差分散(データ固有のノイズ)に分解できる.単純すぎる学習モデルは分散が小さいが偏りが大きく, 複雑すぎる学習モデルは偏りは小さいが分散が大きくなる.
情報量基準AIC Akaike's information criterion 回帰分析などの場合に,観測データがモデルにどの程度一致するかを表す基準。元統計数理研究所所長の赤池弘次が1971年に考案し1974年に発表. AIC = -2(モデルの最大対数尤度)+2(モデルの自由パラメータ数)
正則化 regularization 学習の汎化性能を上げるために,目的関数に正則化項(regularization term)を導入する方法.何も考えずに強力な学習モデルに学習させてしまうと,過学習(over fitting)になり,汎化性能が下がってしまうので,こういったことをする. 正則化項はペナルティ項(penalty term)とも呼ばれる.
重み共有法 weight sharing 学習モデルの汎化性能を上げる手法のひとつ.
収束前停止法 early stopping 多層パーセプトロンのような強力な非線形学習モデルの複雑度を制御する方法のひとつ.
ノイズ付加学習 training with noise 強力な非線形学習モデルの複雑度を制御する方法のひとつ.訓練データにノイズを付加しながら学習を進める.学習の繰り返しの度に新たなノイズを訓練サンプルに付加するので,データへの過度な適合が起こらなくなる.
データマイニング data mining 統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識(役立ちそうな情報)を取り出す技術.
シミュレーテッド・アニーリング simulated annealing 組合せ最適化問題を解く汎用解法のひとつ.アニーリングとは焼きなましのこと.難しい最適化問題を解くとき,温度をあげて広い空間を動き回れるようにすることで,最適でない状態に落ち着かないようにする方法.温度Tを徐々に下げて解を誘導する.
確定的アニーリング DA:deterministic annealing 統計力学のアナロジーを用いて,低温時に原問題に帰着するよう問題を一般化し,解くのが容易な高温から徐々に冷やして良質の解を誘導し,大域最適解や準最適解を得る方法.各温度では確定的に解を探索する.
尤度(ゆうど) likelihood 観察結果から前提条件を推測するときの尤も(もっとも)らしさ.
最尤法 maximum likelihood estimation 学習データから導かれる尤度を最大にするようなパラメータを探索する汎用解法.
EMアルゴリズム EM algorithm 不完全データ問題を逐次的に解く最尤法.



その他

用語 英語表記 説明
オッカムの剃刀 Occam's razor
(Entities should not be multiplied beyond necessity.)
与えられたデータを最もよく説明するモデルを選択する際,考慮すべき原則の一つ.14世紀英国のOccam村に生まれたWilliam修道士が用いた.「存在(説明)は必要以上に増やしては(複雑にしては)ならない」というもの.NewtonやEinsteinも科学に関して同様の原則を述べている.
次元の呪い curse of dimensionality データが高次元になると状態数が指数関数的に増加して、汎化誤差が向上しなくなるという傾向のこと.