Konvolutsiooniline närvivõrk

Konvolutsiooniline närvivõrk (CNN) on mitmekihiline tehisnärvivõrkude klass, mis võib koosneda eri tüüpi kihtidest.^[1] Konvolutsioonilised närvivõrgud leiavad peamiselt rakendust pildi-^[2] ja videotuvastuses^[3] (sh näotuvastus), piltide klassifitseerimises,^[2] meditsiinis^[4] ja loomuliku keele töötluses.^[5]

Ajalugu

Konvolutsioonilised võrgud on inspireeritud bioloogilistest protsessidest, täpsemini nendes võrkudes sisalduvate tehisneuronite vaheliste ühenduste mustrid meenutavad loomade nägemiskeskuse (visuaalse ajukoore) organisatsioonilist struktuuri,^[6] mille avastasid 1950. ja 1960. aastatel Nobeli auhinna laureaatidest neuroteadlased David Hubel ja Torsten Wiesel.^[7]

Nimetatud neuroteadlaste tööst inspireerituna tutvustas Kunihiko Fukushima 1980. aastal esimest konvolutsioonidel põhinevat neurovõrku, mille ta nimetas neocognitron'iks.^[8]

Konvolutsioonilised võrgud jõudsid laiema tähelepanu alla 2012. aastal, kui Krizhevsky juhitud uurimisrühm võitis ImageNet esemete äratundmise võistluse.^[9]

Arhitektuur

Konvolutsioonilised närvivõrgud koosnevad sisendkihist, ühest või rohkemast konvolutsioonikihist, millele järgneb, sarnaselt tavalisele mitmekihilisele tehisnärvivõrgule, üks või mitu omavahel täielikult ühendatud peidetud kihti, ning väljundkihist. CNN-s kasutatakse tüüpiliselt aktivatsioonifunktsioonina mittenegatiivset lineaarfunktsiooni (ReLU) ning normalisatsiooni- ja ahenduskihte. Viimane konvolutsioonikiht sisaldab tavaliselt tagasilevi, et anda lõpptulemusele täpsemad kaalud.

Tüüpiline konvolutsioonilise võrgu kiht koosneb kolmest etapist. Esimeses etapis vaatluse all olevas kihis rakendatakse paralleelselt mitmeid konvolutsioone, mille tulemuseks on lineaarsete aktivatsioonide hulk. Teises etapis igale lineaarsele aktivatsioonile rakendatakse mittenegatiivne lineaarfunktsioon (ingl rectified linear unit). Kolmandas etapis rakendatakse eelmiste etappide tulemusele ahendus (ingl pooling).^[6]

Järgnevalt kirjeldatakse konvolutsioonivõrgu arhitektuuri tähtsamaid osi.

Konvolutsioonikiht

Mõiste konvolutsiooniline närvivõrk tuleneb sellest, et seda tüüpi võrkudes kasutatakse matemaatilist operatsiooni, mida kutsutakse konvolutsiooniks ehk konvolutsioonteisenduseks, ning vähemalt ühes peidetud kihis kasutatakse tavapärase maatriksite korrutamise asemel konvolutsioonteisendust. Kuigi neid kihte nimetatakse konvolutsioonilisteks, siis matemaatilises mõistes on tehniliselt tegemist ristkorrelatsiooniga.^[10]

Konvolutsioonivõrgu kontekstis nimetatakse konvolutsioonteisenduse esimest argumenti sisendiks ja teist argumenti konvolutsiooni suuruseks. Väljundit nimetatakse enamasti tunnuste kaardiks.^[6]

Mittenegatiivse lineaarfunktsiooni (ReLU) kiht

Mittenegatiivseks lineaarfunktsiooniks nimetatakse funktsiooni

${\textstyle f(x)=\max(0,x)}$ .^[9]

Selle funktsiooni rakendamine sisendile eemaldab negatiivsed väärtused aktivatsioonikaardilt, andes neile väärtuseks 0, ning efektiivselt tõstab otsustusfunktsiooni ja ülejäänud närvivõrgu mittelineaarseid omadusi.^[11]

Ahendus

Ahenduse idee seisneb selles, et suvalise tunnuse täpne asukoht pole sama tähtis kui selle ligikaudne asukoht relatiivselt teiste seda ümbritsevate tunnustega. Ahenduse tulemusel asendatakse võrgu väljund mingis neuronis kokkuvõttega selle neuroni naabrite väljunditest.^[6] Levinumaid ahenduse funktsioone on maksimaalne ahendus (ingl max pooling).^[12]

Rakendused

Konvolutsiooniliste närvivõrkude rakenduste hulka kuuluvad:

loomuliku keele töötlus (NLP);^[5]
näotuvastus;^[13]
videoanalüüs;^[3]
pildituvastus;^[2]
kõnetuvastus;^[2]
aegridade ennustamine;^[2]
uute ravimite väljatöötamine;^[4]
ajulainete klassifitseerimine.^[14]
lauamängude kabe ja go arvutiprogrammid.

Viited

↑ Islam, M. S., Foysal, F. A., Neehal, N., Karim, E., & Hossain, S. A. (2018). InceptB: A CNN Based Classification Approach for Recognizing Traditional Bengali Games.
↑ ^2,0 ^2,1 ^2,2 ^2,3 ^2,4 LeCun, Yann; Bengio, Yoshua (1995). "Convolutional networks for images, speech, and time series" (PDF). In Arbib, Michael A. (ed.). The handbook of brain theory and neural networks (Second ed.). The MIT press. pp. 276–278.
↑ ^3,0 ^3,1 Ji, S., Xu, W., Yang, M., & Yu, K. (2013). 3D Convolutional Neural Networks for Human Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1), 221–231. doi:10.1109/tpami.2012.59
↑ ^4,0 ^4,1 Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). "AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery". arXiv:1510.02855 [cs.LG]
↑ ^5,0 ^5,1 Collobert, Ronan; Weston, Jason (2008-01-01). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA
↑ ^6,0 ^6,1 ^6,2 Ian Goodfellow, Yoshua Bengio and Aaron Courville (2016). Deep Learning. MIT Press. p. 321. ISBN 9780262035613
↑ David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. p. 106. ISBN 9780195176186
↑ Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. doi:10.4249/scholarpedia.1717.
↑ ^9,0 ^9,1 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386
↑ Parchami, M., Bashbaghi, S., & Granger, E. (2017). CNNs with cross-correlation matching for face recognition in video surveillance using a single training sample per person. 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). doi:10.1109/avss.2017.8078554
↑ Romanuke, Vadim (2017). "Appropriate number and allocation of ReLUs in convolutional neural networks" (PDF). Research Bulletin of NTUU "Kyiv Polytechnic Institute". 1: 69–78. doi:10.20535/1810-0546.2017.1.88156. Vaadatud 18.12.2019.
↑ Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan.
↑ Ranjan, R., Sankaranarayanan, S., Castillo, C. D., & Chellappa, R. (2017). An All-In-One Convolutional Neural Network for Face Analysis. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). doi:10.1109/fg.2017.137
↑ Cecotti, H., & Graser, A. (2011). Convolutional Neural Networks for P300 Detection with Application to Brain-Computer Interfaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(3), 433–445. doi:10.1109/tpami.2010.125

[1] Islam, M. S., Foysal, F. A., Neehal, N., Karim, E., & Hossain, S. A. (2018). InceptB: A CNN Based Classification Approach for Recognizing Traditional Bengali Games.

[:0-2] 2,0 ^2,1 ^2,2 ^2,3 ^2,4 LeCun, Yann; Bengio, Yoshua (1995). "Convolutional networks for images, speech, and time series" (PDF). In Arbib, Michael A. (ed.). The handbook of brain theory and neural networks (Second ed.). The MIT press. pp. 276–278.

[:1-3] 3,0 ^3,1 Ji, S., Xu, W., Yang, M., & Yu, K. (2013). 3D Convolutional Neural Networks for Human Action Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1), 221–231. doi:10.1109/tpami.2012.59

[:2-4] 4,0 ^4,1 Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (2015-10-09). "AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery". arXiv:1510.02855 [cs.LG]

[:3-5] 5,0 ^5,1 Collobert, Ronan; Weston, Jason (2008-01-01). A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning. Proceedings of the 25th International Conference on Machine Learning. ICML '08. New York, NY, USA

[:4-6] 6,0 ^6,1 ^6,2 Ian Goodfellow, Yoshua Bengio and Aaron Courville (2016). Deep Learning. MIT Press. p. 321. ISBN 9780262035613

[7] David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. p. 106. ISBN 9780195176186

[:5-8] Fukushima, K. (2007). "Neocognitron". Scholarpedia. 2 (1): 1717. doi:10.4249/scholarpedia.1717.

[:6-9] 9,0 ^9,1 Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey E. (2017-05-24). "ImageNet classification with deep convolutional neural networks" (PDF). Communications of the ACM. 60 (6): 84–90. doi:10.1145/3065386

[10] Parchami, M., Bashbaghi, S., & Granger, E. (2017). CNNs with cross-correlation matching for face recognition in video surveillance using a single training sample per person. 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS). doi:10.1109/avss.2017.8078554

[11] Romanuke, Vadim (2017). "Appropriate number and allocation of ReLUs in convolutional neural networks" (PDF). Research Bulletin of NTUU "Kyiv Polytechnic Institute". 1: 69–78. doi:10.20535/1810-0546.2017.1.88156. Vaadatud 18.12.2019.

[12] Yamaguchi, Kouichi; Sakamoto, Kenji; Akabane, Toshio; Fujimoto, Yoshiji (November 1990). A Neural Network for Speaker-Independent Isolated Word Recognition. First International Conference on Spoken Language Processing (ICSLP 90). Kobe, Japan.

[13] Ranjan, R., Sankaranarayanan, S., Castillo, C. D., & Chellappa, R. (2017). An All-In-One Convolutional Neural Network for Face Analysis. 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017). doi:10.1109/fg.2017.137

[14] Cecotti, H., & Graser, A. (2011). Convolutional Neural Networks for P300 Detection with Application to Brain-Computer Interfaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(3), 433–445. doi:10.1109/tpami.2010.125

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]