こんにちは、ディープラーニング老人こと糟谷です。
前回は2006年の技術を追実験しましたが、まだ13年の隔たりがあります。今日も隔たりを埋めていきたいと思います。
長らく冬の時代が続いていたニューラルネットワークであるが、2006年にジェフリー・ヒントンによってスタックドオートエンコーダなど多層にネットワークを積み重ねる手法が提唱され、さらに2012年には物体の認識率を競うILSVRCにおいてジェフリー・ヒントン率いるトロント大学のチームがディープラーニングによって従来の手法(エラー率26%)に比べてエラー率17%と実に10%もの劇的な進歩を遂げたことが機械学習の研究者らに衝撃を与えた。
引用:「ディープラーニング」『フリー百科事典 ウィキペディア日本語版』より。(最終日付 2019年8月15日 (木) 21:34)
ということで、今回は2012年のAlexNetについて学んでいきたいと思います。
AlexNetについての論文はここから読むことができます。
https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
2006年のAutoEncoderは、層を重ねることで3層のニューラルネット以上の性能を出すことを示したものの、画像処理の応用においては当時流行っていた、SURF特徴量を用いた方法ほどの実用性はなく、私の周りではあまり話題になりませんでした。
一方の2012年のAlexNetは実用性を兼ね備え、一世を風靡しました。私も出張中に海外の研究者から、ニューラルネットが現状の最高の精度を出していると聞きジョークなのかと疑ったものでした。
AlexNetは様々な特徴があります。
・活性化関数ReLU
・Max Pooling
・GPUの活用
・Data Augmentation
・Dropout
どれも今も使われている技術ですが、一度に理解するのは大変なので、今回はReLUについて実験してみます。
続きを読む