Johdatus tekoälyn taustalla olevaan matematiikkaan (Heli Tuominen)

Yleistä tietoa kurssista ja luentokalvot löytyvät kurssin kotisivulta.

Kiinnostaako tekoäly? Miten koneet oppivat? Kurssilla tutustutaan koneoppimiseen, lähinnä neuroverkkoihin ja niiden toiminnan takana olevaan matematiikkaan. Neuroverkkojen opettamisessa käytetyn virhefunktion minimoinnissa tarvitaan differentiaalilaskentaa ja suurten datamäärien käsittelyssä matriisilaskentaa. Kurssilla opiskellaan näiden alojen perusasioita. Lisäksi kurssilla tutustutaan Python-kieleen.

Tekoälyn sanastoa
activation function	aktivointifunktio
artificial intelligence (AI)	tekoäly
artificial neural network (ANN)	(keinotekoinen) neuroverkko
backpropagation	vastavirta(-algoritmi)
bias	vakiotermi
binary classification	luokittelu kahteen luokkaan
classification	luokittelu
clustering	klusterointi, ryhmittely
cost function	virhefunktio
cross-entropy	ristientropia
decision tree	päätöspuu
gradient descent	gradienttimenetelmä
data maining	tiedonlouhinta
decision boundary	päätöspinta
deep learning	syväoppiminen
feed forward network	eteenpäin kytketty verkko
hidden layer	piilokerros
input layer	syötekerros
k-nearest neighbors algorithm (kNN)	k:n lähimmän naapurin menetelmä
learning rate	oppimisnopeus
logistic regression	logistinen regressio
loss function	tappiofunktio
machine learning	koneoppiminen
mean squared error	keskineliösumma
multiclass classification	luokittelu moneen luokkaan
output leyer	ulostulokerros
perceptron	perseptroni
regression	regressio
self-organizing Map	itseorganisoituva kartta
supervised learning	ohjattu oppiminen
support vector machine	tukivektorikone
test example	testiesimerkki
training example	opetusesimerkki
unsupervised learning	ohjaamaton oppiminen
validation example	vahvistusesimerkki

Matematiikan sanastoa
assosiative	liitännäinen
bounded	rajoitettu
chain rule	ketjusääntö
closed	suljettu
coefficient	kerroin
column	sarake
commutative	vaihdannainen
composite function	yhdistetty funktio
continuos	jatkuva
contour curve	korkeuskäyrä
curve	käyrä
decreasing	vähenevä
derivative	derivaatta
diagonal matrix	diagonaalimatriisi
differentiable	derivoituva, differentioituva
domain	lähtöjoukko
dot/inner/scalar product	sisätulo, pistetulo
eigenvalue	ominaisarvo
eigenvector	ominaisvektori
function	funktio
gradient	gradientti
graph	kuvaaja, graafi
identity matrix	yksikkömatriisi, identtinen matriisi
increasing	kasvava
interval	väli
inverse matrix	käänteismatriisi
invertible	kääntyvä
level curve, level set	tasa-arvokäyrä, tasa-arvojoukko
limit	raja-arvo
linearly separable	lineaarisesti erotettavat
lower triangular matrix	alakolmiomatriisi
matrix	matriisi
partial derivative	osittaisderivaatta
plane	taso
range	arvojoukko, kuvajoukko
row	rivi
saddle point	satulapiste
solution	ratkaisu
tangent	tangentti
target set	maalijoukko
unbounded	rajoittamaton
upper triangular matrix	yläkolmiomatriisi
vector	vektori
vector field	vektorikenttä

1. Koneoppiminen (Machine learning)

Koneoppiminen on tekoälyn osa-alue, jossa kone/ohjelma oppii pohjatiedon ja käyttäjän toiminnan perusteella. Kaikkia erilaisia tilanteita varten ei ole erillistä ohjetta vaan oppiminen tapahtuu kokemuksen avulla.

Mitchell 1997: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.

Koneoppiminen voidaan jakaa kolmeen luokkaan oppimisen tyylin perusteella.

Ohjattu oppiminen: Konetta opetetaan luokitellun aineiston (syöte-tavoite-parit) avulla. Tavoitteena on, että kone osaa tehdä luokittelun samankaltaiselle aineistolle. Ohjattu oppiminen voidaan jakaa tavoitedatan luonteen perusteella kahteen luokkaan, luokittelu ja regressio. Jos syötteet voidaan luokitella erillisiin ryhmiin, niin kyse on luokittelusta, jos se on jatkuvaa, niin regressiosta. Esimerkki luokittelusta on käsinkirjoitettujen numeroiden tunnistus ja regressiosta jonkin tuotteen hinta.
Ohjaamaton oppiminen: Jäljittelee ihmisen oppimista. Opettamiseen käytetään raakadataa, josta kone pyrkii löytämään samankaltaisuuksia ja suhteita eri syötteiden välille. Syötteet pyritään ryhmittelemään niin, että yksittäisellä syötteellä on enemmän samanlaisia ominaisuuksia samaan ryhmään kuuluvien syötteiden kuin muihin ryhmiin kuuluvien syötteiden kanssa. Esimerkki ohjaamattomasta oppimisesta on akateemikko Teuvo Kohosen (1934) 1980-luvulla kehittämä itseorganisoituva kartta.
Vahvistettu oppiminen Kone oppii ympäristön antaman palautteen perusteella. Kone saa toiminnastaan dynaamisessa ympäristössä positiivista ja negatiivista palautetta ja oppii toimimaan niin, positiivisen palautteen määrä kasvaa ja negatiivisen vähenee. Esimerkkejä vahvistetusta oppimisesta ovat itseohjautuvat autot ja robotiikka.

Kuhunkin oppimistyyliin sopivia algoritmeja on useita. Ratkaistavana olevaan ongelmaan sopivan algoritmin valinta riippuu oppimistyylin lisäksi esimerkiksi datan koosta ja tyypistä, algoritmin oppimisnopeudesta ja opetuksessa tarvittavasta tallennustilasta ja siitä, kuinka tehokasta tai yleistettävää ratkaisua ollaan etsimässä. Paras algoritmi ei välttämättä löydy ensimmäisellä kokeilulla.

Tällä kurssilla käsitellään pääasiassa ohjattua oppimista neuroverkkojen avulla. Ennen neuroverkkoihin siirtymistä tutustutaan hyvin lyhyesti muutamaan muuhun ohjatun oppimisen algoritmiin.

Ohjatun oppimisen luokittelu voi olla binääristä luokittelua tai luokittelua useampaan luokkaan. Binäärisessä luokittelussa mahdollisia luokkia, joihin yksittäinen datan alkio voi kuulua, on kaksi. Esimerkiksi sähköposti on roskapostia tai oikeaa postia ja vain kissojen ja koirien kuvia sisältävässä joukossa jokainen kuva on joko kissan tai koiran kuva, ei molempia. Jotkut algoritmit, kuten logistinen regressio, on suunniteltu erityisesti binääriseen luokitteluun ja ne ovat tehtävässään tehokkaita. Useampaan luokkaan luokittelu vaatii monimutkaisemman algoritmin.

Luokittelualgoritmeja

Logistinen regressio: Sopii binääriseen luokitteluun. Malli kertoo, millä todennäköisyydellä datapiste kuuluu ongelmassa oleviin luokkiin. Se sopiii parhaiten tilanteisiin, jossa data voidaan erottaa lineaarisesti (suoralla, hypertasolla).
k:n lähimmän naapurin menetelmä: K:n lähimmän naapurin menetelmässä datapisteet (opetusesimerkit) ovat pisteitä -ulotteisessa avaruudessa. Jokaiselle datapisteelle etsitään euklidisen (tai muun) etäisyyden mielessä K lähintä pistettä ja datapiste luokitellaan naapureiden luokkien avulla käyttäen esimerkiksi keskiarvoa regression ja moodia luokittelun tapauksessa. Koko data on kerralla muistissa.
Tukivektorikone: Tukivektorikoneen perusversiota käytetään binääriseen luokitteluun. Se luokittelee dataa etsimällä lineaarista päätöspintaa (hypertasoa), joka erottaa kahteen eri luokkaan kuuluvat datapisteet toisistaan. Jos data on lineaarisesti erotettava, niin paras erotteleva hypertaso on se, joka erottelee luokat toisistaan suurimmalla marginaalilla. Jos data ei ole lineaarisesti erotettava, niin väärällä puolella hypertasoa oleville pisteille käytetään virhefunktiota.
Naiivi Bayes-luokittelija: Naiivi Bayes-luokittelija on yksinkertainen luokittelija, joka käsittelee alkioiden ominaisuuksia toisistaan riippumattomina. Luokittelu tehdään todennäköisyyksien avulla. Se on helppo toteuttaa ja hyvä menetelmä pienehkölle datalle, jossa on useita parametreja.
Diskriminanttianalyysi Diskriminattianalyysi luokittelee dataa etsimällä sellaisia ominaisuuksien lineaarikombinaatioita, jotka joko karakterisoivat tai erottavat eri luokkiin kuuluvia datapisteitä. Diskriminantissa analyysissä oletetaan, että eri luokat noudattavat normaalijakaumaa. Opetettaessa etsitään normaalijakauman parametreja eri luokille ja niiden avulla etsitään luokkia erottavat lineaariset tai kvadraattiset funktiot.
Päätöspuut Päätöspuu on helposti toteutettava ja vähän muistia käyttävä luokittelualgoritmi. Luokittelu tehdään valitsemalla luokiteltavan data-alkion ominaisuuksien perusteella binääripuun solmuissa vasen tai oikea haara. Datapiste viedään ensin juurisolmuun, josta se lopulta päätyy lehteen, joka kertoo luokan.
Neuroverkot Ihmisen aivojen toimintaa jäljitteleviä oppivia verkkoja käsitellään seuraavissa luvuissa tarkemmin.

Lisätietoa koneoppimisesta

2. Keinotekoiset neuroverkot (Artificial neural networks)

Keinotekoinen neuroverkko jäljittelee ihmisen aivoja. Se koostuu syöte- ja ulostulokerroksesta ja niiden välissä olevista piilokerroksista.

Neuroverkkoa voi ajatella funktiona $f\colon\mathbb R^n\to\mathbb R^m$ ; syöte on -ulotteinen vektori $x=(x_1,x_2,\dots,x_n)$ , piilokerrokset hoitavat laskutehtävän ja funktion arvo $f(x)=y=(y_1,y_2,\dots,y_m)\in\mathbb R^m$ saadaan ulostulokerroksesta. Verkon käyttötarkoitus määrää, miten funktion arvo tulkitaan.

Piilokerroksien ja ulostulokerroksen jokaisessa neuronissa lasketaan syötekerroksesta tai piilokerroksesta tulleiden syötteiden painotettu summa ja siihen lisätään neuronin vakiotermi. Ennen neuronin tuloksen lähettämistä seuraavalle neuronille summa viedään aktivointifunktioon. Aktivointifunktiot muuttavat lineaarisen (affiinin eli ensimmäisen asteen polynomin) syötteen epälineaariseksi.

Esimerkki

Verkossa on yksi piilokerros, jossa on neljä neuronia. Syöte on vektori $x=(x_1,x_2)\in\mathbb R^2$ . Ulostulokerroksessa on yksi neuroni.

Syötevektorin komponentit kerrotaan piilokerroksen neuroneiden painoilla $w^1_{ij}$ , lasketaan yhteen ja summaan lisätään piilokerroksen neuronin vakiotermi b_i : $\begin{aligned} z^1_1&=w^1_{11}x_1+w^1_{21}x_2+b_1=\sum_{i=1}^2w^1_{i1}x_i+b_1,\\ z^1_2&=w^1_{12}x_1+w^1_{22}x_2+b_2=\sum_{i=1}^2w^1_{i2}x_i+b_2\\ z^1_3&=w^1_{13}x_1+w^1_{23}x_2+b_3=\sum_{i=1}^2w^1_{i3}x_i+b_3\text { ja }\\ z^1_4&=w^1_{14}x_1+w^1_{24}x_2+b_4=\sum_{i=1}^2w^1_{i4}x_i+b_4. \end{aligned}$ Nämä summat viedään piilokerroksen aktivointifunktiolle, jolloin piilokerroksen neuronien antamat syötteet ulostulokerrokselle ovat $a_1=\varphi(z_1), a_2=\varphi(z_2), a_3=\varphi(z_3)\text{ ja }a_4=\varphi(z_4).$ Verkon antama tulos saadaan käyttämällä piilokerroksen ja ulostulokerroksen välisiä painoja ja aktivointifunktiota (ulostulokerroksen vakiotermi on nolla): $t=\varphi(z_1^2)=\varphi\Big(\sum_{i=1}^4w^2_{i1}a_i\Big).$

2.1 Neuroverkkoihin liittyviä määritelmiä ja merkintöjä

Neuroneihin liittyvistä parametreistä käytetään seuraavia merkintöjä. Kerrosindeksi l=0 viittaa syötekerrokseen ja kerrosindeksi l=L ulostulokerrokseen:

kerroksen neuronien lukumäärä,
$w_{ij}^l=$ kerroksen neuronin ja kerroksen neuronin välillä oleva paino,
kerroksen neuronin vakiotermi,
kerroksen neuronia vastaava summa $z_j^l=\sum_{i=1}^{N_{l-1}}w_{ij}^la_i^{l-1}+b_j^l,$
kerroksen neuronin tulos eli syöte seuraavaan kerrokseen $a_j^l=\varphi(z_j^l)=\varphi\Big(\sum_{i=1}^{N_{l-1}}w_{ij}^la_i^{l-1}+b_j^l\Big),$

missä $\varphi$ on aktivointifunktio (joka voi vaihdella kerroksesta toiseen).

Olisi kiva, jos tässä w:n indeksinä l käytettäisiin samaa indeksiä kuin edellisessä esimerkissä, tai päinvastoin.

— 18 Jun 18

# neuroni

Neuroni

Piilokerroksen neuronit voidaan tulkita funktioiksi $f_j^l\colon \mathbb R^{N_{l-1}}\to\mathbb R^{N_{l+1}}$ , $j\in\{1,2,\dots,N_l\}$ , $f_j^l(v)=(\varphi_l(g_j^l(v)),\dots,\varphi_l(g_j^l(v))),$ missä g_j^l on yleensä edellisen kerroksen painotettu summa lisättynä vakiotermillä eli $g_j^l(v)=\sum_{i=1}^{N_{l-1}}w_{ij}^lv_i+b_j^l$ ja $\varphi_l$ on kerroksen aktivointifunktio. Ulostulokerroksen funktioille f^L_j arvojoukko on $\mathbb R$ .

# kaavat-vektorimuodossa

Kaavat vektorimuodossa

Merkintöjen yksinkertaistamiseksi kaavat kirjoitetaan monesti vektori- ja matriisimuodossa, joilloin kerroksen vakiotermejä vastaa vektori $b^l= (b^l_1,\dots,b^l_{N_l}),$ kerroksen neuronien painotettuja summia vektori $z^l= (z^l_1,\dots,z^l_{N_l}),$ ja kerroksen neuronien tuloksia vektori $a^l= (a^l_1,\dots,a^l_{N_l}).$ Kerroksen painoja vastaa $N_{l-1}\times N_l$ -matriisi $W^l= \begin{pmatrix} w^l_{11} & w^l_{12} & \dots & w^l_{1N_l}\\ w^l_{21} & w^l_{22} & \dots & w^l_{2N_l}\\ & &\dots\\ w^l_{N_{l-1}1} & w^l_{N_{l-1}2} & \dots & w^l_{N_{l-1}N_l}, \end{pmatrix}$ jolloin $z^l=a^{l-1}W^l+b^l\text{ ja } a^l=\varphi(z^l)=(\varphi(z^l_1),\dots,\varphi(z^l_{N_l})).$ Huomaa, että jos vektorit , ja määriteltäisiin pystyvektoreina, niin olisi $z^l=(W^l)^Ta^{l-1} +b^l.$

W, ensimmäinen sarake, toinen rivi, ensimmäinen alkio: tulisiko indeksi olla 21 eikä 12?

— 19 Nov 17

Pitäisi. Kiitos.

— 21 Nov 17

Huomautus

Joissain lähteissä painojen $w^l_{ij}$ neuroni-indeksit ja ovat päinvastaisessa järjestyksessä. Tällöin vastaava matriisi W^l on $N_l\times N_{l-1}$ -matriisi ja $(z^l)^T=W^l(a^{l-1})^T+(b^l)^T$ , missä v^T on vektorin transpoosi.

2.1.1 Harjoitustehtäviä

Tarkastellaan neuroverkkoa, jonka syöte on $x=(x_1,x_2)\in\mathbb R^2$ , jossa on yksi neljän neuronin piilokerros, jonka ulostulokerroksessa on kaksi neuronia ja jonka aktivointifunktio sekä piilo- että ulostulokerroksessa on $\varphi\colon\mathbb R\to\mathbb R$ . (Kuvassa vain osa painoista merkitty.)

Kirjoita verkkoon liittyvät neuronien painotetut summat z^l_i ja neuronien tulokset a_i^l vektoreiden ja painomatriisien avulla.

2.2 Perseptroni (Perceptron)

Perseptroni on syötekerroksen ja yhden neuronin muodostama "minimaalinen neuroverkko", jonka syöte on $x=(x_1,x_2,\dots,x_n)\in\mathbb R^n$ ja tulos on $t\in\{0,1\}$ . Perseptonia, jonka painojen muodostama vektori on $w=(w_1,w_2,\dots w_n)\in\mathbb R^n$ , vakiotermi on , ja aktivointifunktio on yksikköporrasfunktio (Heavisiden funktio) $h\colon\mathbb R\to\{0,1\}$ , $h(s)= \begin{cases} 1,&\text{ jos }s>0\\ 0,&\text{ jos }s\le 0, \end{cases}$ vastaa funktio $P\colon \mathbb R^n\to\{0,1\}$ , $P(x)= \begin{cases} 1,&\text{ jos }w\cdot x+b> 0\\ 0,&\text{ jos }w\cdot x+b\le0, \end{cases}$ missä $w\cdot x$ on vektoreiden ja sisätulo.

Kysymykseen, millaiset funktiot voidaan esittää perseptronilla, on yksinkertainen vastaus nollan ja ykkösen alkukuvien lineaarisen erotettavuuden avulla.

Joukot $A\subset\mathbb R^n$ ja $B\subset\mathbb R^n$ ovat lineaarisesti erotettavat, jos on vakiot $c_1,c_2,\dots,c_n\in\mathbb R$ ja $b\in\mathbb R$ , joille $\sum_{i=1}^nc_ix_i>b\quad\text{kaikilla }x\in A$ ja $\sum_{i=1}^nc_ix_i\le b\quad\text{kaikilla }x\in B.$

Tasossa $\mathbb R^2$ tämä tarkoittaa sitä, että joukoja ja vastaavat pisteet voidaan erottaa suoralla ja $\mathbb R^3$ :ssa sitä, että pistejoukot voidaan erottaa tasolla.

Lause

Funktio $f\colon\mathbb R^n\to\{0,1\}$ voidaan esittää perseptronilla jos ja vain jos alkukuvat $f^{-1}(\{0\})$ ja $f^{-1}(\{1\})$ ovat lineaarisesti erotettavat.

Esimerkki

Ensimmäisen kuvan pistejoukko ei ole lineaarisesti erotettava, toisen kuvan on. Funktio, jonka arvot vihreitä palloja vastaavissa tason pisteissä on 1 ja sinisiä palloja vastaavissa pisteissä on 0, voidaan siis toisessa tapauksessa esittää perseptronilla, ensimmäisessä ei.

Esimerkki

Looginen konnektiivi AND (JA) voidaan esittää yhdellä perseptronilla mutta konnektiivia XOR (poissulkeva TAI) ei voi. Konnektiiveja vastaavat funktiot ovat $AND\colon\{0,1\}\times\{0,1\}\to\{0,1\}$ ja $XOR\colon\{0,1\}\times\{0,1\}\to\{0,1\}$ $\begin{aligned} AND(0,0)&=AND(0,1)=AND(1,0)=0\\ AND(1,1)&=1 \end{aligned}$ ja $\begin{aligned} XOR(0,0)&=XOR(1,1)=0\\ XOR(0,1)&=XOR(1,0)=1. \end{aligned}$ Nollan ja ykkösen alkukuvat ovat siis $AND^{-1}(\{0\})=\{(0,0), (0,1),(1,0)\},\quad AND^{-1}(\{1\})=\{(1,1)\}$ ja $XOR^{-1}(\{0\})=\{(0,0), (1,1)\},\quad XOR^{-1}(\{1\})=\{(0,1),(1,0)\}.$

Edellisen esimerkin looginen konnektiivi AND saadaan perseptronilla Muuttamalla painoiksi w_1=w_2=-2 ja vakiotermiksi b=3 , saadaan AND-konnektiivin negaatio, NAND, jonka arvo parille (1,1) on ja muille lukupareille . NAND konnektiivin esityksen olemassaolosta seuraa, että perseptronien avulla voidaan rakentaa verkko, joka tekee minkä tahansa halutun loogisen päättelyn.

Perseptronin ongelma on se, että pienet muutokset painoissa tai syötteissä aiheuttavat ison muutoksen tuloksessa (0/1) . Tämä on huono asia verkon opettamisen kannalta. Perseptronin yksikköporrasfunktion sijaan käytetäänkin yleensä verkon opettamiseen paremmin soveltuvia aktivointifunktioita.

2.2.1 Harjoitustehtäviä

Loogista konnektiivia OR (TAI) vastaa funktio $OR\colon\{0,1\}\times\{0,1\}\to\{0,1\}$ , $OR(1,1)=OR(0,1)=OR(1,0)=1 \quad\text{ja}\quad OR(0,0)=0.$

Määritä alkukuvat $OR^{-1}(\{0\})$ ja $OR^{-1}(\{1\})$ .
Voidaanko OR esittää perseptronilla? Jos voidaan, niin etsi kertoimet ja ja perseptronin vakiotermi .

(1,1)=1 OR

— 14 Nov 17

Joo. Kiitos.

— 22 Nov 17

2.3 Aktivointifunktiot (Activation functions)

Neuroverkon piilo- ja ulostulokerroksissa käytetään aktivointifunktioita. Ennen neuronin tuloksen lähettämistä seuraavalle neuronille tai ulostulokerroksesta ulos, edellisen kerroksen syötteistä laskettu painotettu summa viedään aktivointifunktioon $f\colon\mathbb R\to\mathbb R$ . Aktivointifunktiot muuttavat lineaarisen (affiinin) syötteen epälineaariseksi ja niillä olisi toivottavaa olla seuraavia ominaisuuksia:

epälineaarisuus: Koska summa ja yhdistetty funktio lineaarisista funktioista on lineaarinen ja affiineista affiini ja neuroneiden summalausekkeet $a\mapsto wa+b$ ovat affiineja, niin lineaarisilla (tai affiineilla) aktivointifunktioilla saadaan affiini kuvaus.
(jatkuvasti) derivoituvuus: Vastavirta-algoritmissa ja muissa virhefunktion minimointitavoissa tarvitaan aktivointivointifunktion derivaattaa. Jos aktivointifunktio ei ole derivoituva, niin virhefunktion minimoinnissa pitää käyttää muita kuin gradienttiin perustuvia keinoja.
identtisen funktion approksimointi: Jos aktivointifunktio on lähellä identtistä funktiota nollan lähellä, niin neuroverkko oppii tehokkaasti kun painot alustetaan satunnaisluvuilla. Muussa tapauksessa painot pitää alustaa huolellisesti.

Se, onko aktivointifunktio rajoitettu vai ei, vaikuttaa verkon oppimisnopeuteen ja oppimisen vakauteen. Rajoitetuilla aktivointifunktioilla oppiminen on yleensä vakaata ja rajoittamattomilla monesti tehokasta. Rajoittamattomia aktivointifunktioita käytettäessä kannattaa käyttää pieniä oppimisnopeuksia.

Esimerkkejä aktivointifunktioista ovat sigmoid-funktio, hyperbolinen tangentti ja ReLu-funktio.

# sigmoid-funktio-logistinen-funktio

Sigmoid-funktio (logistinen funktio)

Sigmoid-funktiolla $\sigma\colon\mathbb R\to]0,1[$ , $\sigma(x)=\frac1{1+e^{-x}}$

on seuraavat ominaisuudet:

rajoitettu, aidosti kasvava ja jatkuva
$\lim_{x\to-\infty}\sigma(x)=0$ , $\lim_{x\to\infty}\sigma(x)=1$
$\sigma\in C^\infty(\mathbb R)$ eli funktiolla $\sigma$ on kaikkien kertalukujen jatkuvat derivaatat ja $\sigma'(x)=\frac{e^{-x}}{(1+e^{-x})^2}=\sigma(x)(1-\sigma(x)).$

Sigmoid-funktio on (binäärisen) porrasfunktion (Heaviside step function) $f\colon\mathbb R\to[0,1]$ , f(x)=0 kun x<0 , f(x)=1 kun $x\ge0$ , silotettu versio. Sigmoid-funktion huono ominaisuus on se, että se kasvaa hyvin hitaasti kun kasvaa ja vähenee hyvin hitaasti kun vähenee. Sen derivaatta on hyvin lähellä nollaa kun on suuri tai pieni. Tästä seuraa ongelmia kun verkkoa opetetaan derivaattoihin perustuvilla menetelmillä. Vastavirta-algoritmia käsittelevässä luvussa nähdään, että virhefunktion osittaisderivaatat neuronin painojen ja vakiotermien suhteen riippuvat aktivointifunktion derivaatasta ja että painojen ja vakioiden muutoksen koulutettaessa ovat pieniä jos osittaisderivaatat ovat pieniä. Tällöin verkko oppii hitaasti. Toinen sigmoid-funktion huono puoli on se, että se ei ole symmetrinen nollan suhteen. Nykyisin sitä käytetään lähinnä ulostulokerroksessa varsinkin jos verkon tulokset ovat välillä [0,1] .

# tanh

Hyperbolinen tangentti (tanh)

Hyperbolisella tangenttilla $\tanh\colon\mathbb R\to]-1,1[$ , $\tanh(x)=\frac{1-e^{-2x}}{1+e^{-2x}}$ on monia samoja ominaisuuksia kuin sigmoid-funktiolla mutta se on symmetrinen nollan suhteen ja se kasvaa nopeammin nollan lähellä, jolloin sen derivaatta on suurempi. Hyperbolinen tangentti on

rajoitettu, aidosti kasvava ja jatkuva
$\lim_{x\to-\infty}\tanh(x)=-1$ , $\lim_{x\to\infty}\tanh(x)=1$
$\tanh\in C^\infty(\mathbb R)$ ja $\tanh'(x)=1-\tanh^2(x)$ .

Gradientin pienuus isoilla ja pienillä arvoilla on myös hyperbolisen tangentin ominaisuus, joten sen käyttö aktivointifunktiona saattaa aiheuttaa verkon oppimisen hitautta.

Hyperbolinen tangentti on -listan toisessa kohdassa pitäisi varmaan puhua tanh:sta.

— 11 Apr 18

Joo. Kiitos.

— 31 Aug 18

# relu

ReLu (Rectified Linear Unit)

Neuroverkkojen piilokerroksissa paljon käytetty aktivointifunktio on ReLu-funktio $f\colon\mathbb R\to[0,\infty[$ , $f(x)=\max\{0,x\}.$

Jotta verkon toimintaan saadaan epälineaarisuutta, niin ulostulokerroksessa käytetään jotain epälineaarista aktivointifunktiota. ReLu-funktio ei ole derivoituva nollassa. Sen toinen huono ominaisuus on se, että se on nolla ja sen derivaatta on nolla negatiivisilla arvoilla. Tästä syystä joidenkin neuronien painot saattavat päivittyä oppimisen aikana nollaksi jolloin neuronit kuolevat. Neuronien kuoleentumisongelmaa pyritään välttämään muuttamalla aktivointifunktiota hieman. Yksi ReLun variantti on "Leaky ReLu", $f\colon\mathbb R\to\mathbb R$ , $f(x)=\max\{ax,x\}\, 0<a<1.$

Toimivimpien aktivointifunktioiden valinta riippuu siitä, mitä verkolla ollaan tekemässä eli mitä funktiota sillä approksimoidaan. Jos verkkoa vastaavalla funktiolla on samoja ominaisuuksia kuin aktivointifunktiolla, niin oppiminen on nopeampaa. Esimerkiksi sigmoid-funktiota kannattaa käyttää ulostulokerroksessa jos verkkoa käytetään luokitteluun 0/1 .

# universaali-approksimointilause

Universaali approksimointilause

Funktionaalianalyysin keinoin voidaan todistaa neuroverkkojen universaali approksimointilause, joka sanoo, että jos aktivointifunktio on rajoitettu, kasvava ja jatkuva, niin mille tahansa $\mathbb R^n$ :n kompaktin joukon jatkuvalle funktiolle on tätä aktivointifunktiota käyttävä neuroverkko, joka approksimoi haluttua funktiota hyvin. (Joukko on kompakti, jos se on suljettu ja rajoitettu.)

Lause

Olkoon $\varphi$ rajoitettu, kasvava ja jatkuva funktio. Olkoon $K\subset\mathbb R^n$ kompakti joukko. Olkoon $\varepsilon>0$ ja olkoon $f\colon K\to\mathbb R$ jatkuva funktio. Tällöin on $N\in\mathbb N$ , $v_{i},b_{i}\in\mathbb R$ , ja $w_{i}\in \mathbb R^n$ , $i=1,\dots ,N$ , siten, että $|F(x)-f(f)|<\varepsilon$ kaikilla $x\in K$ funktiolle

$F(x)=\sum _{i=1}^{N}v_{i}\varphi \big(w_{i}^{T}x+b_{i}\big).$

2.3.1 Harjoitustehtäviä

Näytä, että jos aktivointifunktiona käytetään affiinia funktiota $\varphi\colon\mathbb R\to\mathbb R$ , $\varphi(z)=az+b$ , $a,b\in\mathbb R$ , niin neuroverkkoa vastaava kuvaus on affiini. Huomaa, että riittää todeta, että affiinien kuvausten summa ja yhdistetty kuvaus ovat affiineja.
Laske sigmoid-funktion ja hyperbolisen tangentin derivaatat osamäärän derivointisäännön ja ketjusäännön avulla. Muista, että eksponenttifunktiolle $f\colon\mathbb R\to]0,\infty[$ , on kaikilla $x\in\mathbb R$ . (Derivointia käsitellään luvussa Analyysia.)

Lisätietoa aktivointifunktioista

2.4 Neuroverkon opettaminen

Ohjattua oppimista käytettäessä neuroverkkoa opetetaan syöte-tavoite-pareilla (x,y) eli opetusesimerkeillä (training examples). Verkon syötteelle antamaa tulosta verrataan valitulla virhefunktiolla tavoitteeseen . Opettamisen aikana yritetään minimoida virhefunktioita ja piilokerroksen parametreja muutetaan esimerkiksi vastavirta-algoritmin avulla. Kun verkko toimii halutulla tavalla opetusesimerkeille, sen toimintaa tarkastetaan testiesimerkeillä (test examples).

# vastavirta

2.4.1 Vastavirta-algoritmi (backpropagation)

Eteenpäin kytketyssä neuroverkossa syötekerroksen syötteen komponentit kerrotaan ensimmäisen piilokerroksen neuroneita vastaavilla painoilla, jokaista ensimmäisen piilokerroksen neuronia vastaavat tulot lasketaan yhteen ja summaan lisätään neuronin vakiotermi (bias). Tämä summa syötetään aktivointifunktioon, joka antaa kyseisen neuronin syötteen seuraavalle kerrokselle. Tämä kerros käyttää omia painojaan, vakiotermejään ja aktivointifunktioitaan. Näin jatketaan kaikkien kerrosten läpi.

Syötteen (tai syötejoukon) antamaa tulosta verrataan tavoitteeseen ja lasketaan virhefunktion arvo. Tavoitteena on minimoida opetusesimerkkijoukkoa vastaava virhefunktio ja löytää minimointia vastaavat painot neuroneille. Monissa virhefunktion minimointikeinoissa, esimerkiksi gradienttimenetelmässä (gradient descent), tarvitaan virhefunktion osittaisderivaatat $\frac{\partial E}{\partial w}$ ja $\frac{\partial E}{\partial b}$ verkon kaikkien painojen ja vakiotermien suhteen. Osittaisderivaatat ja jokaisen neuronin vaikutus virheeseen lasketaan usein vastavirta-algoritmilla (backpropagation). Gradienttimenetelmässä neuroneille saadaan uudet painot ja vakiotermit muuttamalla edellisiä arvoja neuronien parametrien osittaisderivaatoista koostuvan gradientin vastavektorin suuntaan (eli virhefunktion nopeimman pienenemisen suuntaan).

Monesti yksittäistä syötettä vastaavan tavoitteen $y\in\mathbb R^m$ ja verkon antaman tuloksen $t\in\mathbb R^m$ virhefunktiona käytetään erotuksen euklidisen normin neliötä $E=\frac 12 \|t-y\|^2=\frac 12\sum_{k=1}^m(t_k-y_k)^2$ ja opetusesimerkkijoukon virhefunktiona keskineliösummaa (mean squared error) $E_A=\frac{1}{2N} \sum_{x\in A}\|(t(x)-y(x)\|^2,$ missä on joukon opetusesimerkkien lukumäärä.

Seuraavaksi lasketaan virhefunktion osittaisderivaatat $\frac{\partial E}{\partial w}$ ja $\frac{\partial E}{\partial b}$ verkon kaikkien painojen ja vakiotermien suhteen vastavirta-algoritmilla. Derivaatan ja osittaisderivaattojen määritelmät esimerkkeineen ja lukuvinkkeineen löytyvät luvusta Analyysia.

Virhefunktion osittaisderivaatat ulostulokerroksen parametrien suhteen

Ulostulokerroksen parametreihin liittyvät osittaisderivaatat on helppo laskea. Aloitetaan esimerkillä.

Esimerkki

Ulostulokerroksessa (. kerros) on kaksi ja viimeisessä piilokerroksessa ( (L-1). kerros) kolme neuronia. Virhefunktio on $E=\frac12\Big((t_1-y_1)^2+(t_2-y_2)^2\Big)$ ja ulostulokerroksen neuronien tulokset ovat $z_j=\sum_{k=1}^3w^L_{kj}a_k^{L-1} + b^L_j\text { ja } t_j=\varphi(z_j),\quad j=1,2.$

Oletetaan, että aktivointifunktio on identtinen funktio $\varphi(t)=t$ ja että ulostulokerroksen vakiotermit ovat nollia. Tällöin t_1=z_1 ja t_2=z_2 .

Lasketaan virhefunktion osittaisderivaatat painojen $w_{ij}^L$ suhteen. Koska kaavan perusteella painot $w_{11}$ , $w_{21}$ ja $w_{31}$ eivät vaikuta ulostuloon t_2 , niin virhefunktion termi (t_2-y_2)^2 on vakio osittaisderivoinneissa painojen $w_{11}$ , $w_{21}$ ja $w_{31}$ suhteen. Siten derivoinnin ketjusäännön avulla nähdään, että kaikilla i=1,2,3 on $\frac{\partial E}{\partial w^L_{i1}} =\frac{\partial }{\partial w^L_{i1}}\frac12(t_1-y_1)^2 =(t_1-y_1)\frac{\partial }{\partial w^L_{i1}}(t_1-y_1).$ Koska summan termit, joissa on kertoimena $w^L_{k1}$ , $k\ne i$ , ovat muuttujan $w_{i1}^L$ suhteen vakiota, niin kaikilla i=1,2,3 on $\frac{\partial }{\partial w^L_{i1}}(t_1-y_1) =\frac{\partial }{\partial w^L_{i1}}\sum_{k=1}^3w^L_{k1}a_k^{L-1} =a_i^{L-1}$ ja siten $\frac{\partial E}{\partial w^L_{i1}} =(t_1-y_1)a_i^{L-1}.$ Vastaavasti saadaan, että $\frac{\partial E}{\partial w^L_{i2}} =\frac{\partial}{\partial w^L_{i2}}\frac12(t_2-y_2)^2 =(t_2-y_2)\frac{\partial }{\partial w^L_{i2}}(t_2-y_2)$ ja $\frac{\partial }{\partial w^L_{i2}}(t_2-y_2) =\frac{\partial }{\partial w^L_{i2}}\sum_{k=1}^3w^L_{k2}a_k^{L-1} =a_i^{L-1}.$

Palataan yleiseen tilanteeseen. Olkoon ulostulokerros verkon . kerros ja olkoon siinä neuronia.

Osittaisderivaatat painojen $w^L_{ij}$ suhteen

Koska virhefunktiossa termit $(t_k-y_k)^2 =\Big(\varphi\Big(\sum_{i=1}^{N_{L-1}}w_{ik}^La_i^{L-1}+b_k^L\Big)-y_k\Big)^2$ ovat vakioita painon $w^L_{ij}$ suhteen kun $j\ne k$ , niin derivoinnin ketjusääntöä käyttämällä saadaan $\frac{\partial E }{\partial w^L_{ij}} = \frac{\partial}{\partial w^L_{ij}} \frac12 \sum_{k=1}^m(t_k - y_k)^2 = (t_j - y_j)\frac{\partial}{\partial w^L_{ij}}(t_j - y_j).$ Huomaa, että syötteiden tulokset y_k ovat vakioita kaikkien painojen $w_{ij}^L$ suhteen ja siten niiden osittaisderivaatat ovat nollia. Siten kaikilla $j=1,\dots m$ saadaan ketjusäännön avulla $\frac{\partial}{\partial w^L_{ij}}(t_j - y_j) =\frac{\partial}{\partial w^L_{ij}}t_j =\frac{\partial}{\partial w^L_{ij}}a^L_j =\frac{\partial}{\partial w^L_{ij}}\varphi(z^L_j) =\varphi'(z_j^L)\frac{\partial}{\partial w^L_{ij}}z^L_j.$ Koska $z^L_j=\sum_{k=1}^{N_{l-1}}w_{kj}^La_k^{L-1}+b_j^L$ ja muut termit summassa paitsi $w_{ij}^La_i^{L-1}$ ovat vakioita painon $w^L_{ij}$ suhteen, niin $\frac{\partial}{\partial w^L_{ij}}z^L_j =\frac{\partial}{\partial w^L_{ij}}\Big(\sum_{k=1}^{N_{L-1}}w_{kj}^La_k^{L-1}+b_j^L\Big) =\frac{\partial}{\partial w^L_{ij}}\big(w_{ij}^La_i^{L-1}\big) =a_i^{L-1}.$ Yhdistämällä nämä laskut saadaan $\frac{\partial E }{\partial w^L_{ij}}= (t_j - y_j)\varphi'(z_j^L)a_i^{L-1}.$ Tämän kaavan indeksistä riippuvaa osaa merkitään usein $\delta^L_j=(t_j-y_j)\varphi'(z_j^L).$ Laskemalla huomataan, että $\delta^L_j=\frac{\partial E}{\partial z_j^L} =\frac{\partial E}{\partial a_j^L}\frac{\partial a_j^L}{\partial z_j^L} =\frac{\partial E}{\partial a_j^L}\varphi'(z_j^L).$ Siten on $\frac{\partial E }{\partial w^L_{ij}} = \delta_j^La_i^{L-1}.$

Osittaisderivaatat vakiotermien $b^L_{j}$ suhteen

Ulostulokerroksen osittaisderivaatat vakiotermien suhteen saadaan laskettua samaan tapaan kuin painojen suhteen. Virhefunktiossa termit $(t_k-y_k)^2=\Big(\varphi\Big(\sum_{i=1}^{N_{L-1}}w_{ik}^La_i^{L-1}+b_j^L\Big)-y_k\Big)^2$ ovat vakioita termin $b^L_{j}$ suhteen kun $j\ne k$ , joten ketjusääntöä käyttämällä saadaan $\begin{aligned} \frac{\partial E }{\partial b^L_{j}} &= \frac{\partial}{\partial b^L_{j}} \frac12 \sum_{k=1}^m(t_k - y_k)^2 = (t_j - y_j)\frac{\partial}{\partial b^L_{j}}(t_j - y_j)\\ &=(t_j-y_j)\frac{\partial}{\partial b^L_{j}}\varphi(z_j^L) =(t_j-y_j)\varphi'(z_j)\frac{\partial}{\partial b^L_{j}}z_j^L\\ &=(t_j-y_j)\varphi'(z_j), \end{aligned}$ sillä viimeisessä osittaisderivoinnissa ainoastaan summan termi b_j^L vaikuttaa derivointiin ja sen osittaisderivaatta b_j^L :n suhteen on . Siten saadaan $\frac{\partial E }{\partial b^L_{j}}= (t_j - y_j)\varphi'(z_j)=\delta_j^L.$

# virhe

Huomautus

Ulostulokerroksen . neuroniin liittyvää virhettä $\delta_j^L=\frac{\partial E}{\partial z_j^L}$ , ketjusääntöä ja z_j^L :n kaavaa käyttäen saadaan vastaavat kaavat myös muille virhefunktioille, joita merkitään tässä myös :llä, $\frac{\partial E }{\partial w^L_{ij}} =\frac{\partial E }{\partial z^L_{j}}\frac{\partial z^L_{j} }{\partial w^L_{ij}} =\delta_j^L a_i^{L-1}\quad\text{ ja }\quad \frac{\partial E }{\partial b^L_{j}} =\frac{\partial E }{\partial z^L_{j}}\frac{\partial z^L_{j} }{\partial b^L_{j}} =\delta_j^L.$

Seuraavaksi lasketaan virhefunktion osittaisderivaatat piilokerroksien painojen ja vakiotermien suhteen. Laskun avulla nähdään, että osittaisderivaatat kerroksen suhteen saadaan laskettua rekursiivisesti kun tiedetään yhtä ylemmän kerroksen osittaisderivaatat. Osittaisderivaattoja laskettaessa lähdetään siis liikkeelle ulostulokerroksen osittaisderivaatoista ja niitä käytetään ensimmäisen piilokerroksen derivaattojen laskemiseen. Osittaisderivaatat viimeisen piilokerroksen painojen ja vakioiden suhteen antavat vastaavat osittaisderivaatat viimeistä edelliselle piilokerrokselle. Näin jatketaan kunnes virhefunktion kaikki osittaisderivaatat saadaan laskettua. Nimi vastavirta-algoritmi tulee siitä, että osittaisderivaattoja lasketaan takaperoisesti ulostuloskerroksesta syöttökerrosta kohti "vastavirtaan".

# osittaisderivaatat-piilokerroksen-painojen-w_ijl-suhteen

Osittaisderivaatat piilokerroksen painojen $w_{ij}^l$ suhteen

Lasketaan virhefuntion osittaisderivaatat piilokerroksen painojen suhteen Huomatuksen tyylillä. Lasku on teknisesti hieman haastavampi sillä paino, jonka suhteen osittaisderivoidaan, vaikuttaa virheeseen yhden tai useamman piilokerroksen kautta. Siksi laskussa tarvitaan tavallisen ketjusäännön lisäksi osittaisderivaattojen ketjusääntöä. Käytetään tässäkin merkintää $\delta_j^l=\frac{\partial E }{\partial z^l_{j}}$ kerroksen neuroniin liittyvälle virheelle.

Ketjusääntöä ja kaavaa $z_j^l=\sum_{n=1}^{N_{l-1}}w_{nj}^la_n^{l-1}+b_j^l$ käyttäen saadaan $\frac{\partial E }{\partial w^l_{ij}} =\frac{\partial E }{\partial z^l_{j}}\frac{\partial z^l_{j} }{\partial w^l_{ij}} =\delta_j^l a_i^{l-1}$ Osittaisderivaattojen ketjusäännön, ketjusäännön ja kaavojen $z_k^{l+1}=\sum_{n=1}^{N_{l}}w_{nj}^{l+1}a_n^{l}+b_j^{l+1}$ ja $a_j^l=\varphi(z_j^l)$ perusteella on $\begin{aligned} \delta_j^l &=\frac{\partial E }{\partial z^l_{j}} =\sum_{k=1}^{N_{l+1}}\frac{\partial E }{\partial z^{l+1}_{k}}\frac{\partial z^{l+1}_{k}}{\partial z^l_j} =\sum_{k=1}^{N_{l+1}}\delta_k^{l+1}\frac{\partial z^{l+1}_{k}}{\partial a^l_j}\frac{\partial a^l_j}{\partial z^{l}_{k}}\\ &=\sum_{k=1}^{N_{l+1}}\delta_k^{l+1}w_{jk}^{l+1}\varphi'(z_j^l) \end{aligned}$ ja siten $\frac{\partial E }{\partial w^l_{ij}} =a_i^{l-1}\varphi'(z_j^l)\sum_{k=1}^{N_{l+1}}\delta_k^{l+1}w_{jk}^{l+1}.$

Osittaisderivaatat piilokerroksen vakiokertoimien $b_{j}^l$ suhteen

Samaan tapaan kuin painojen tapauksessa saadaan $\frac{\partial E }{\partial b^l_{j}} =\frac{\partial E }{\partial z^l_{j}}\frac{\partial z^l_{j} }{\partial b^l_{j}} =\delta_j^l\cdot1$ ja $\frac{\partial E }{\partial b^l_{j}} =\varphi'(z_j^l)\sum_{k=1}^{N_{l+1}}\delta_k^{l+1}w_{jk}^{l+1}.$

# huomioita-osittaisderivaattojen-kaavoista

Huomioita osittaisderivaattojen kaavoista

Kaavasta nähdään, että jos edellisen kerroksen l-1 syöte $a^{l-1}_i$ on pieni, niin kerroksen painoa vastaava virheen osittaisderivaatta $\frac{\partial E }{\partial w^l_{ij}}$ on pieni. Tällaiset painot muuttuvat vastavirta-algoritmin aikana vähän, monesti sanotaan, että ne oppivat hitaasti.

Kaavoista nähdään myös, että aktivointifunktion derivaatat vaikuttavat virheen osittaisderivaattoihin ja siten neuroneiden parametrien muutokseen. Jos derivaatta on hyvin pieni, niin parametrit muuttuvat vähän ja neuronit oppivat hitaasti. Tästä syystä verkon käyttötarkoitukseen sopivan virhefunktion valinta on tärkeää.

Verkon eri kerroksissa voidaan käyttää eri aktivointifunktioita. Jos näin on, niin äskeisissä laskuissa ja kaavoissa aktivointifunktioon $\varphi$ lisätään verkon kerrosta vastaavat alaindeksit .

2.4.2 Harjoitustehtäviä

Laske virhefunktion osittaisderivaatat piilokerroksen painojen $w_{ij}^{L-1}$ suhteen samaan tapaan kuin ulostulokerroksen osittaisderivaatat. Mieti, mitkä painoista $w^{L-1}_{ij}$ vaikuttavat ulostuloon .
Koodissa on kätevää ja nopeaa käyttää vastavirta-algoritmin kaavojen vektori- ja matriisiversioita. Lue näistä esimerkiksi linkkilistan lähteestä. Lähteessä pohditaan myös sitä, miksi vastavirta-algoritmi on paljon nopeampi tapa laskea tarvittavat osittaisderivaatat kuin osittaisderivaattojen erotusosamäärien raja-arvomääritelmään pohjautuva tapa.
Tarkastellaan neuroverkkoa, jonka syöte on $x=(x_1,x_2,x_3)\in\mathbb R^3$ , jossa ei ole piilokerroksia, jonka ulostulokerroksessa on yksi neuroni ja jonka ulostulokerroksen aktivointifunktio on derivoituva funktio $\varphi\colon\mathbb R\to\mathbb R$ . Käytetään syöte-tavoiteparin ja verkon antaman tuloksen $t=\varphi(\sum_{i=1}^3x_iw_i+b)$ vertailuun virhefunktiota $E=\frac12\|t-y\|^2=\frac12(t-y)^2 =\frac12\Big(\varphi\big(\sum_{i=1}^3x_iw_i+b\big)-y\Big)^2.$ Laske virhefunktion osittaisderivaatat painojen , ja suhteen.

# lisätietoa-vastavirta-algoritmista

Lisätietoa vastavirta-algoritmista

Vastavirta-algoritmista löytyy paljon monentasoista luettavaa, esimerkkejä ja koodia. Osassa selitetään matemaattinen tausta ja painojen muutoksen vaikutus verkon toimintaan hyvin, osan selitys on turhan monimutkaista. Kaavoissa indeksien käyttö on monesti epämatemaattista (osittaisderivaatan indeksit ja summausindeksit samoja).

# gradienttimenetelma

2.4.3 Gradienttimenetelmä (gradient descent)

Tavoitteena on minimoida verkon parametreista riippuvaa virhefunktiota eli syötteiden ja verkon antamien tulosten välistä virhettä. Virhefunktio on monen muuttujan (kaikkien neuronien painojen ja vakiotermien) funktio, jolle etsitään pienintä arvoa.

Matemaattisen analyysin keinoin monen muuttujan funktion ääriarvoja etsitään riittävän siistille funktiolle gradientin nollakohdista ja niistä pisteistä, joissa funktiolla ei ole osittaisderivaattaa.

Gradientin nollakohtien etsimisen sijaan virhefunktion minimoinnissa käytetään erilaisia algoritmeja kuten gradienttimenetelmää. Siinä minimin etsiminen aloitetaan laskemalla tarkasteltavan funktion arvo aloitusparametreilla. Funktion gradientti kertoo nopeimman kasvun ja siten gradientin vastavektori nopeimman vähenemisen suunnan. Sopivilla askelilla nopeimman vähenemisen suuntaan siirtymällä löydetään (menetelmään sopiville funktioille) lokaali minimi.

Minimin etsimistä gradienttimenetelmällä havainnollistetaan usein yhden tai kahden muuttujan funktiolla. Kahden muuttujan tilanteessa funktion kuvaajan voi ajatella kumpuilevaksi maastoksi, missä rinteellä seisova ihminen haluaa mennä laakson pohjalle jyrkkyydestä välittämättä. Gradienttimenetelmän keinolla alas mennään vähän matkaa jyrkintä rinnettä (gradientin vastavektorin suuntaan), pysähdytään ja valitaan taas jyrkin suunta. Näin jatketaan, kunnes päästään laakson pohjalle. Huomaa, että jos maastossa on useita laaksoja, niin liian pitkä siirtymä yhteen suuntaan voi johtaa väärän laakson pohjalle.

# verkon-opettamisen-vaiheet

Verkon opettamisen vaiheet

Vastavirta-algoritmia ja gradienttimenetelmää käytettäessä suoritetaan seuraavat tehtävät:

Syötetään opetusesimerkkijoukon kaikki opetusesimerkit verkolle.
Kaikille opetusesimerkeille $x\in A$ :

Lasketaan vastavirta-algoritmissa tarvittavat neuronikohtaiset summat ja ulostulot $a^l_{j}$ .
Lasketaan syötettä vastaavan virhefunktion osittaisderivaatat vastavirta-algoritmin avulla (ensin ulostulokerroksen painojen ja vakiotermien suhteen, sitten kerros kerrallaan alaspäin).

Korjataan neuronien parametrit gradienttimenetelmän avulla. Matriisi- ja vektorimuodossa ilmoitettuna uudet parametrit ovat $w^l\rightsquigarrow w^l -\frac{\alpha}{N}\sum_{x\in A}\delta_x^l(a_x^{l-1})^T \quad\text{ja}\quad b^l\rightsquigarrow b^l -\frac{\alpha}{N}\sum_{x\in A}\delta_x^l,$ missä $\alpha$ on verkon oppimisnopeus ja opetusesimerkkijoukon alkioiden lukumäärä.

Huomaa, että jos opetusesimerkkijoukko koostuu yhdestä syötteestä, niin yksittäisten neuronien uudet painot vastavirta-algoritmin jälkeen ovat $w_{ij}^l\rightsquigarrow w_{ij}^l -\alpha\frac{\partial E}{\partial w_{ij}^l} \quad\text{ja}\quad b_{j}^l\rightsquigarrow b_{j}^l -\alpha\frac{\partial E}{\partial b_{j}^l}.$

Gradienttimenetelmän eri versioita

(Satsi)gradienttimenetelmä (Gradient descent/ batch gradient descent/ vanilla gradient descent)

Perinteisessä gradienttimenetelmässä yksittäistä opetusesimerkkiä x^i vastaava virhe $\mathcal E_i(x^i)$ lasketaan jokaisen opetusesimerkin jälkeen ja minimoitavana virhefunktiona käytetään opetusesimerkkien virheiden summaa $\mathcal E=\frac1N\sum_{i=1}^N\mathcal E_i,$ missä on opetusesimerkkijoukon alkioiden lukumäärä. Verkon parametrit päivitetään vasta, kun koko opetusesimerkkijoukko on käyty läpi. Jos parametrit laitetaan jonoon ja niistä muodostetaan vektori , niin päivitetyt parametrit ovat $w\rightsquigarrow w-\alpha\nabla \mathcal E(w),$ missä $\alpha$ on verkon oppimisnopeus ja virhefunktion osittaisderivaatat parametrien suhteen ovat gradientissa samassa järjestyksessä kuin parametrit vektorissa .

Gradienttimenetelmässä koko opetusesimerkkijoukon tiedot ovat kerralla muistissa, ja verkko saattaa oppia hitaasti isoilla opetusesimerkkijoukoilla. Päivityksiä on vähän, joten menetelmä on virheen pienenemisen suhteen vakaa mutta se saattaa supeta liian aikaisin ja huonommilla parametreilla kuin stokastinen versio. Gradienttimenetelmällä löydetään globaali minimi konvekseille virhefunktioille (harvinainen tilanne) ja lokaali minimi ei-konvekseille virhefunktioille.

Stokastinen gradienttimenetelmä

Stokastisessa gradienttimenetelmässä virhe lasketaan ja neuronien parametrit päivitetään jokaisen opetusesimerkkijoukon syötteen jälkeen. Tällä menetelmällä saadaan nopea tieto verkon oppimisesta, sillä verkko oppii koko ajan. Menetelmä on helppo ymmärtää ja toteuttaa. Tiheä päivittäminen on kuitenkin hidasta, parametrien arvot saattavat heilua paljon päivittämisen aikana ja häiriöherkkyys voi hidastaa virhefunktion lokaalin minimin löytymistä. Joissain tilanteissa heiluminen on etu tavalliseen gradienttimenetelmään verrattuna - stokastinen versio saattaa päätyä pienempään lokaaliin minimiin.

Minisatsi gradienttimenetelmä (mini batch gradient descent)

Satsigradienttimenetelmä on perinteisen ja stokastisen gradienttimenetelmän välimuoto. Siinä opetusesimerkkijoukko jaetaan osajoukkoihin, jotka syötetään verkolle, lasketaan virhefunktio ja päivitetään parametrit. Tämä vähentää parametrien heiluntaa päivityksissä ja mahdollistaa paremman ja vakaamman suppenemisen lokaaliin minimiin kuin toisilla versioilla. Menetelmässä voidaan käyttää ohjelmakirjastojen tehokkaita lineaarialgebran laskurutiineja.

# lisätietoa-gradienttimenetelmästä

Lisätietoa gradienttimenetelmästä

# virhefunktiot

2.4.4 Virhefunktiot

Verkon oppimisen kannalta on tärkeää, että pieni muutos neuronin painossa aiheuttaa vain pienen muutoksen ulostulossa. Vastavirta-algoritmin vaiheita tutkiessa huomataan, että jos opetusesimerkkijoukon virhe saadaan keskiarvona yksittäisten opetusesimerkkien virheistä, niin opetusesimerkkijoukon virheen osittaisderivaatat saadaan laskettua opetusesimerkkien virheiden avulla.

Vastavirta-algoritmin yhteydessä käytettiin yksittäisen syötteen tuloksen $y\in\mathbb R^m$ ja verkon antaman tuloksen $t\in\mathbb R^m$ välisenä virheenä erotuksen euklidisen normin neliötä ja opetusesimerkkijoukon virhefunktiona keskineliösummaa. Jos ulostulokerroksen arvot kuuluvat välille [0,1] , niin voidaan käyttää myös logistisen regression virhefunktiota (ristientropian virhefunktio, cross-entropy cost function), $E=-\frac1N\sum_x\sum_{k=1}^m \Big(y_k\log a_i^L+(1-y_k)\log(1-a_k^L)\Big),$ missä vektorit $y=(y_1,\dots,y_m)$ ovat syötteiden tavoitteita ja vektorit $a^L=(a_1^L,\dots,a_m^L)$ verkon antamia tuloksia ja on opetusesimerkkijoukon koko.

Laskemalla nähdään, että Sigmoid-aktivointifunktiota käytettäessä tämän virhefunktion osittaisderivaatat neuroneiden painojen ja vakiotermien suhteen eivät riipu aktivointifunktion derivaatoista vaan pelkästään tavoitteiden ja tulosten erotuksista, $\frac {\partial E}{\partial w^L_{ij}}=\frac1N\sum_{x}a_{i}^{L-1}(a_j^L-y_j)$ ja $\frac {\partial E}{\partial b^L_{i}}=\frac1N\sum_{x}(a_j^L-y_j).$ Siksi Sigmoid-funktion derivaatan pienuus suurilla ja pienillä arvoilla ei hidasta verkon oppimista niissä tapauksissa, joissa tavoitteet erovat paljon syötteistä.

Joissain lähteissä syöte-tavoite-parin välisistä virhefunktioista käytetään nimeä tappiofunktio (loss function) ja opetusesimerkkijoukon virhefunktiosta virhefunktio/maksufunktio (cost function).

Lisätietoa virhefunktioista

2.4.5 Yli- ja alisovittaminen (Overfitting/underfitting)

Neuroverkon ja yleisemmin koneoppimisen opettaminen suoritetaan opetusesimerkkien avulla, (toiminta varmistetaan ja oppimisnopeus- ja muita hyperparametreja säädetään vahvistusesimerkkijoukon (validation data) avulla) ja testataan testiesimerkkijoukolla. Tarkoitus on, että verkko osaa yleistää oppimansa ja toimii lopulta riittävän tarkasti tuntemattomalle datalle. Joskus käy niin, että verkko tuntuu oppivan hyvin mutta sitten tulee ongelmia:

Opettamisen edetessä virhefunktion pieneneminen hidastuu tai tarkkuus huononee.
Verkko toimii hyvin opetusesimerkeille mutta ei (opetusesimerkkien kaltaisille) vahvistus- tai testiesimerkeille.

Tätä ilmiötä sanotaan ylisovittamiseksi (overfitting). Siinä verkko on oppinut opetusesimerkkijoukon liian hyvin ja säätänyt parametrinsa sen erityisominaisuuksien ja häiriöiden mukaan. Ylisovittaminen on yleinen ongelma suurissa tuhansien parametrien neuroverkoissa joissa opetusesimerkkijoukko ei ole ole riittävän suuri suhteessa verkon kokoon.

Ylisovittamista voidaan estää seuraavilla tavoilla:

opetusesimerkkijoukon kasvattaminen
(verkon koon pienentäminen)
opettamisen lopettaminen riittävän aikaisin (early stopping)
neuroneiden osittainen poistaminen verkosta (dropout layer)
painojen pienentämien L2- ja L1- säännöstelyllä (regularization)

Opetusesimerkkijoukon kasvattaminen

Opetusesimerkkijoukon koon kasvattaminen saattaa olla vaikeaa mutta joissain tilanteissa kokoa voi kasvattaa olemassaolevan datan avulla. Esimerkiksi uusia tunnistettavia kuvia saadaan helposti kiertojen, siirtojen ja skaalauksen avulla.

Aikainen lopettaminen

Verkon toimintaa testattaessa vahvistusesimerkkijoukolla opetusesimerkkijoukon jälkeen tarkastetaan tulosten tarkkuus jokaisen osajoukon jälkeen. Kun tarkkuus pienenee, lopetetaan.

Osittainen poistaminen

Yksi tapa pienentää ylisovittamista on neuroneiden hetkellinen poistaminen verkosta. Tässä tekniikassa osa piilokerrosten neuroneista poistetaan väliaikaisesti. Vajaaseen verkkoon syötetään opetusesimerkkejä, käytetään vastavirta-algoritmia ja päivitetään verkon parametrit. Tämän jälkeen poistetut neuronit palautetaan, poistetaan uusi neuronijoukko ja jatketaan opettamista. Menetelmässä jälkeen verkko on tavallaan keskiarvo monesta samaa tehtävää tekevästä verkosta. Koska neuroneiden lähellä olevat neuronit eivät välttämättä ole mukana jokaisella opetuskierroksella niin neuroneista tulee itsenäisempiä ja verkosta robustimpi.

Säännöstely

Virhefunktion muuttaminen niin, että minimi löytyy pienillä painoilla perustuu siihen, että monesti verkot toimivat itseisarvoiltaan pienillä painoilla paremmin kuin suurilla. Säännöstelyssä virhefunktiota muutetaan niin, että minimi löytyy pienemmillä painoilla.

Jos verkossa on käytössä virhefunktio $\mathcal E$ , niin L2-säännöstelyn virhefunktio on $\tilde {\mathcal{E}}=\mathcal{E}+\frac{\lambda}{2N}\sum_{i,j}w_{ij}^2,$ missä on opetusesimerkkijoukon koko, $w_{ij}$ ovat neuroneiden painot ja $\lambda>0$ on säännöstelyparametri. Neuroneiden vakiotermejä ei oteta mukaan säännöstelyosaan.

Virhefunktion $\tilde {\mathcal{E}}$ jälkimmäinen osa on pieni kun painot ovat itseisarvoltaan pieniä. Minimoinnissa suuret painot ovat vain jos niillä saadaan alkuperäinen virhefunktio $\mathcal E$ hyvin pieneksi.

Virhefunktion $\tilde{\mathcal{E}}$ osittaisderivaatat painojen $w_{ij}$ suhteen ovat $\frac{\partial\tilde{\mathcal E }}{\partial w_{ij}} =\frac{\partial\mathcal{E}}{\partial w_{ij}}+\frac{\lambda}{N} w_{ij}$ ja vakiotermien suhteen samat kuin alkuperäisellä virhefunktiolla $\mathcal E$ . Siten gradienttimenetelmän antamat uudet painot saadaan kaavalla $w\rightsquigarrow\Big(1-\frac{\alpha\lambda}{N}\Big)w-\alpha\frac{\partial \mathcal E}{\partial w},$ missä $\alpha$ on verkon oppimisnopeus.

Säännöstelyssä yritetään siis samanaikaisesti käyttää mahdollisimman pieniä painoja ja saada virhefunktio pieneksi.

L1-säännöstelyssä käytetään painojen neliöiden sijaan itseisarvoja. Virhefunktio on $\hat {\mathcal{E}}=\mathcal{E}+\frac{\lambda}{N}\sum_{i,j}|w_{ij}|,$ missä $\mathcal E$ on alkuperäinen virhefunktion, on opetusesimerkkijoukon koko, $w_{ij}$ ovat neuroneiden painot ja $\lambda>0$ on säännöstelyparametri.

Virhefunktion $\hat {\mathcal E}$ osittaisderivaatat painojen $w_{ij}$ suhteen ovat $\frac{\partial \hat{ \mathcal E}}{\partial w_{ij}} =\frac{\partial \mathcal E}{\partial w_{ij}}+ \text{sign} (w_{ij}),$ missä $\text{sign} (w_{ij})=1$ , kun $w_{ij}>0$ , $\text{sign} (w_{ij})=-1$ , kun $w_{ij}<0$ ja nolla kun paino on nolla. Vakiotermien suhteen osittaisderivaatat ovat samat kuin alkuperäisellä virhefunktiolla $\mathcal E$ .

Gradienttimenetelmän antamat uudet painot saadaan kaavalla $w\rightsquigarrow w-\frac{\alpha\lambda}{N}\text{sign}(w)-\alpha\frac{\partial \mathcal E}{\partial w},$ missä $\alpha$ on verkon oppimisnopeus.

L1-säännöstelyssä painot pienenevät askelilla, joiden pituus ei riipu painon koosta. L2-säännöstelyssä askeleen koko on paino kerrottuna vakiolla.

Alisovittamisessa verkon parametrit päivittyvät hyvin hitaasti ja verkko oppii huonosti.

Lisätietoa yli- ja alisovittamisesta

2.4.6 Muita virhefunktion minimointikeinoja

Vastavirta-algoritmi ja muut osittaisderivaattoihin (gradientteihin) perustuvat menetelmät ovat monesti hitaita. Vastavirta-algoritmin tapauksessa hitaus johtuu paljosta laskemisesta: neuronien parametrien muutoksessa tarvittavia osittaisderivaattoja lasketaan koko ajan iteratiivisesti. Vastavirta-algoritmin erilaisilla muunnoksilla ja muilla verkon opetusmenetelmillä haetaan lisää nopeutta. Osassa menetelmiä käytettään ensimmäisen kertaluvun osittaisderivaattojen lisäksi toisen kertaluvun derivaattoja, joiden avulla saadaan tietoa ensimmäisen kertaluvun osittaisderivaattojen kasvusta.

# lisätietoa-verkon-opettamisesta

Lisätietoa verkon opettamisesta

3. Matematiikkaa

# analyysia

3.1 Analyysia

Tässä luvussa käydään läpi koneoppimisessa käytettävien menetelmien taustalla olevaa matemaattista analyysia ilman perinteistä määritelmä, lause, todistus-rakennetta. Aiheesta löytyy lisätietoa, esimerkkejä ja tehtäviä lukemattomista Calculus-nimisistä kirjoista.

Neuroverkkoja käsiteltäessä tarvitaan perustietoja funktioista ja niiden ominaisuuksista. Gradientteihin perustuvissa verkon opetusmenetelmissä kuten vastavirta-algoritmissa tarvitaan esimerkiksi monen muuttujan funktioiden osittaisderivaattoja laskusääntöineen ja jonkin verran ääriarvoteoriaa.

3.1.1 Funktio

Olkoot ja joukkoja. Funktio eli kuvaus joukosta joukkoon on sääntö, joka liittää jokaiseen joukon alkioon täsmälleen yhden joukon alkion f(a) .

Joukkoa sanotaan funktion lähtöjoukoksi (domain) ja joukkoa maalijoukoksi (target set). Tällaista funktiota merkitään $f\colon A\to B.$ Alkiota f(a) sanotaan alkion kuvaksi tai funktion arvoksi pisteessä . Joukko $f(A)=\{b\in B:f(a)=b\text{ jollain }a\in A\}$ on funktion arvojoukko/kuvajoukko (range).

Jos $C\subset B$ , niin joukon alkukuva kuvauksessa on joukko $f^{-1}(C)=\{a\in A:f(a)\in C\}.$

Joukko $\mathbb R^n$ on -ulotteinen euklidinen avaruus. Sen alkiot ovat vektoreita $x=(x_1,x_2,\dots,x_n)$ , missä $x_i\in\mathbb R$ kaikilla $i\in\{1,2\dots,n\}$ .

Euklidisen avaruuden väli on karteesinen tulo reaaliakselin väleistä $I_i\subset\mathbb R$ , $i\in\{1,2\dots,n\}$ , missä väli I_i voi olla muotoa [a_i,b_i] (suljettu), ](a_i,b_i)[ (avoin), [a_i,b_i[ tai ]a_i,b_i] . Väli $I=I_1\times\cdots\times I_n$ on avoin/suljettu, jos kaikki välit I_i ovat avoimia/suljettuja. Jos $a_i=-\infty$ ja $b_i=\infty$ kaikilla $i\in\{1,2\dots,n\}$ , niin väli $I=]-\infty,\infty[$ on $\mathbb R^n$ .

Pisteiden ja välistä etäisyyttä mitataan euklidisesta normista $\|x\|=\Big(\sum_{i=1}^nx_i^2\Big)^{1/2}$ saatavalla metriikalla $d(x,y)=\|x-y\|=\Big(\sum_{i=1}^n(x_i-y_i)^2\Big)^{1/2}.$

Tällä kurssilla käsitellään funktioita $f\colon I\to\mathbb R^m$ , missä $I\subset\mathbb R^n$ on väli.

Funktion $f\colon\mathbb R^n\to\mathbb R$ kuvaaja eli graafi on joukko $\mathcal G_f=\{(x,y)\in\mathbb R^{n+1}:y=f(x)\}$ ja reaalilukujen $c\in\mathbb R$ alkukuvat $f^{-1}(\{c\})=\{x\in\mathbb R^n:f(x)=c\}$ ovat funktion tasa-arvojoukkoja, joita tapauksessa n=2 kutsutaan myös tasa-arvokäyriksi. Tasa-arvokäyriä käytetään funktion graafien piirtämiseen ja funktion kasvuvauhdin ja -suunnan tutkimiseen gradientin avulla. Topografisen kartan korkeuskäyrät ovat korkeusfunktion tasa-arvokäyriä. Tasa-arvokäyriä määritettäessä voi ensin piirtää käyrät f(x_1,x_2)=c kolmiulotteiseen tasoon. Nämä käyrät saadaan tasojen x_3=c ja funktion kuvaajan leikkauksina. Vastaavat tasa-arvokäyrät saadaan käyrien projektioina x_1,x_2 -tasoon.

Esimerkki

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , f(x,y)=x^2+y^2 . Funktion kuvaaja on ylöspäin aukeava paraboloidi, jonka huippu on origossa. Kun $c\ge0$ , niin tasa-arvokäyrät $f^{-1}(\{c\})=\{(x,y)\in\mathbb R^2:x^2+y^2=c\}$ ovat ympyröitä, joiden keskipiste on origo ja säde $\sqrt c$ . (Jos c<0 , niin tasa-arvokäyrät ovat tyhjiä joukkoja sillä $f(x,y)\ge0$ kaikilla $(x,y)\in\mathbb R^2$ .)

# geo

3.1.2 Harjoitustehtäviä

Piirrä funktion $f\colon\mathbb R^2\to\mathbb R$ , kuvaaja ja tasa-arvokäyrät.
Piirrä funktion $f\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=(4x^2+y^2)e^{-x^2-y^2}$ kuvaaja ja tasa-arvokäyrät.
Piirrä funktion $f\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=xye^{-y^2}$ kuvaaja ja tasa-arvokäyrät.
Yhdistä funktioiden kuvaajat ja tasa-arvokäyrät.

# affiini-funktio

Affiini funktio

Neuroverkon piilo- ja ulostulokerroksen neuroneissa lasketaan edellisestä kerroksesta tulleiden syötteiden painotettu summa ja lisätään siihen vakiotermi. Jokaista neuronia vastaa siis affiini funktio, joka viedään aktivointifunktiolle.

Olkoon $n\times n$ -matriisi ja $b\in\mathbb R^n$ . Funktio $f\colon\mathbb R^n\to\mathbb R^n$ , f(x)=Ax+b, missä on matriisin ja vektorin tulo, on affiini funktio.

Affiini funktio voi kääntää, skaalata ja siirtää joukkoa. Se säilyttää joitakin geometrisia ominaisuuksia sillä se kuvaa suorat suoriksi, yhdensuuntaiset suorat yhdensuuntaisiksi ja säilyttää janojen osien suhteet. Kuvaus siis kuvaa pistejoukon uudelleen kääntäen, venyttäen, siirtäen joukon paikkaa tai skaalaten joukon kokoa. Jos b=0 , niin affiini funktio on lineaarikuvaus. Jos $b\ne0$ , niin $f(0)=b\ne0$ , joten kuvaus ei ole lineaarinen. Huomaa, että monissa lähteissä affiinia funktiota sanotaan virheellisesti lineaariseksi.

Affiini funktio on yhdistetty funktio $f=g\circ L$ lineaarikuvauksesta $L\colon\mathbb R^n\to\mathbb R$ , Lx=Ax ja siirrosta $g\colon\mathbb R\to\mathbb R$ , g(x)=x+b .

Esimerkki

Jos n=1 , niin affiinin funktion $f\colon\mathbb R\to\mathbb R$ , f(x)=ax+b, kuvaaja on suora, jonka kulmakerroin on ja joka leikkaa -akselin pisteessä (0,b) .

# kasvava-ja-vähenevä-funktio

Kasvava ja vähenevä funktio

Olkoon $I\subset\mathbb R$ väli ja olkoon $f\colon I\to\mathbb R$ funktio. Jos $f(x)\le f(y)$ aina kun $x\le y$ , niin funktio on kasvava (increasing). Jos $f(x)\ge f(y)$ aina kun $x\le y$ , niin funktio on vähenevä (decreasing).

Esimerkki

Funktio $f\colon\mathbb R\to\mathbb R$ , f(x)=x^3-12x-5 on kasvava väleillä $]-\infty,-2[$ ja $]2,\infty[$ . Se on vähenevä välillä ]-2,2[ .

# yhdistetty-funktio

Yhdistetty funktio

Neuroverkkojen neuroninin syöte seuraavalle kerrokselle saatiin laskemalla painotettu summa edellisen kerroksen syötteistä, lisäämällä siihen neuronin vakiotermi ja viemällä summa aktivointifunktiolle . Tässä on kyse yhdistetystä funktiosta: aktivointifunktion arvo lasketaan summafunktion antamassa pisteessä. Yleisesti yhdistetty funktio määritellään seuraavasti.

Olkoot , ja joukkoja. Olkoot $f\colon A\to B$ ja $g\colon B\to C$ funktioita. Yhdistetty funktio (composite function) on funktio $h\colon A\to C$ , $h(x)=(g\circ f)(x)=g(f(x)).$

Esimerkki

Olkoot $f,g\colon\mathbb R\to\mathbb R$ , f(x)=3x-4 ja g(x)=x^2 . Näiden funktioiden yhdistetty funktio on $g\circ f\colon\mathbb R\to\mathbb R$ , $(g\circ f)(x)=g(f(x))=g(3x-4)=(3x-4)^2=9x^2-24x-16.$

3.1.3 Derivaatta

Vastavirta-algoritmissa laskettavissa virhefunktion osittaisderivaatoissa tarvitaan aktivointifunktion derivaattaa ja derivoinnin ketjusääntöä. Verkon oppimisen tarkastelussa on hyvä olla käsitys siitä, mitä derivaatta kertoo funktiosta: lähellä nollaa oleva derivaatta kertoo, että funktion arvot muuttuvat hitaasti ja derivaatan suuri itseisarvo kertoo, että funktio muuttuu nopeasti.

Funktion $f\colon\mathbb R\to\mathbb R$ derivaatta määritellään erotusosamäärien raja-arvona. Tarkastellaan, paljonko funktion arvo f(x) muuttuu kun pistettä siirretään vähän, pienen luvun $h\in\mathbb R$ verran, joko oikealle tai vasemmalle. Muutosta tutkitaan keskimääräisenä muutoksena eli erotusosamääränä, jossa funktion arvojen erotus jaetaan siirtymällä , $\frac{f(x+h)-f(x)}{h}.$

Geometrisesti tulkittuna erotusosamäärä kertoo pisteiden (x,f(x)) ja (x+h,f(x+h)) kautta kulkevan suoran eli näiden pisteiden kautta kulkevan sekantin kulmakertoimen.

Jos tällä erotusosamäärällä on äärellinen raja-arvo kun muutos lähestyy nollaa, niin kyseinen raja-arvo on funktion derivaatta (derivative) f'(x) pisteessä ,

$f'(x)=\lim_{h\to0}\frac{f(x+h)-f(x)}{h}\in\mathbb R$ ja sanotaan, että on derivoituva (differentiable) pisteessä . Funktio on derivoituva, jos se on derivoituva jokaisessa pisteessä.

Huomautus

Erotusosamäärässä siirtymä voi olla myös negatiivinen.
Edellä määriteltiin derivaatta koko reaaliakselilla määritellyille funktioille. Jos on määritelty avoimella välillä , niin erotusosamäärää tutkittaessa otetaan mukaan pisteet $x\in]a,b[$ ja ne siirtymät, joille $x+h\in]a,b[$ .
Funktion derivaatalle käytetään monesti derivointimuuttujan sisältävää merkintää $\frac d{dx}f(x)$ tai $\frac {d f}{dx }(x)$ . Leibniziltä peräisin olevassa merkinnässä erotusosamäärää merkitään $\frac{\Delta y}{\Delta x}$ ja derivaattaa $\frac{dy}{dx}=\lim_{\Delta x\to0}\frac{\Delta y}{\Delta x}.$

# tangenttitulkinta

Tangenttitulkinta

Geometrisesti tulkittuna funktion derivoituvuus pisteessä x_0 kertoo, että funktion kuvaajalle voidaan piirtää pisteeseen (x_0,f(x_0)) yksikäsitteinen tangentti, jolla on äärellinen kulmakerroin. Derivaatan arvo f'(x_0) on tangentin kulmakerroin ja tangentin yhtälö on y-y_0=f'(x_0)(x-x_0), missä y_0=f(x_0) .

Pisteessa derivoituvalle funktiolle muutoksen pienentyessä erotusosamääriä vastaavien sekanttien kulmakertoimien raja-arvo on siis tangentin kulmakerroin ja sekantit lähestyvät tangenttia. Mitä suurempi kulmakerroin on, sitä jyrkempi tangentti on. Positiivisilla kulmakertoimilla suora on nouseva ja negatiivisilla laskeva.

# geo2

Tangenttitulkinnalla on helppo huomata, että pisteessä epäjatkuva funktio ei ole derivoituva. Sen kuvaajalle ei voi piirtää tangenttia epäjatkuvuuskohdassa. Jos tangentti on pystysuora, sillä ei ole äärellistä kulmakerrointa, eikä funktio ole derivoituva kyseisessä pisteessä.

Esimerkki

Tarkastellaan itseisarvofunktiota $f\colon\mathbb R\to\mathbb R$ , f(x)=|x| . Tangenttitulkinnan avulla voidaan päätellä, että ei ole derivoituva pisteessä x=0 . Itseisarvofunktion kuvaajalla ei ole pisteessä (0,f(0))=(0,0) yksikäisytteistä tangenttia vaan niitä on äärettömän monta. (Samaan tapaan voi päätellä, että funktio, jonka kuvaajassa on kärki, ei ole derivoituva kärkeä vastaavassa pisteessä.)

Erotusosamäärää tutkittaessa huomataan, että nollassa vasemman- ja oikeanpuoleinen raja-arvo ovat erisuuret eli raja-arvoa ei ole olemassa. Kun h>0 , niin $\frac{f(0+h)-f(0)}{h}=\frac{|h|}h=\frac hh=1\to1\text{ kun }h\to0$ ja kun h<0 , niin $\frac{f(0+h)-f(0)}{h}=\frac{|h|}h=\frac {-h}h=-1\to-1\text{ kun }h\to0.$ Siten ei ole derivoituva nollassa.

# derivoituvien-funktioiden-ominaisuuksia

Derivoituvien funktioiden ominaisuuksia

Derivoituvilla funktioilla on seuraavia hyviä ominaisuuksia, joita ei todisteta tässä.

Olkoot ja derivoituvia funktioita ja $c\in\mathbb R$ .

Summa , vakiolla kerrottu funktio , tulo ja osamäärä $\frac fg$ ovat derivoituvia ja $(f+g)'=f'+g', \quad (cf)'=cf', \quad (fg)'=f'g+fg',\quad \Big(\frac fg\Big)'=\frac{f'g-fg'}{g^2},$ missä osamäärän derivaatta on olemassa niissä pisteissä, joissa $g\ne0$ .
Jos on derivoituva pisteessä , niin se on jatkuva pisteessä .

# joidenkin-funktioiden-derivaattoja

Joidenkin funktioiden derivaattoja

$\frac d{dx}x^a=ax^{a-1}$ , kaikilla $a\in\mathbb R$ ,
$\frac d{dx} e^x=e^x$ ,
$\frac d{dx}\sin x=\cos x$ , $\frac d{dx}\cos x=-\sin x$ ja $\frac d{dx}\tan x=\frac 1{\cos^2 x}=1+\tan^2x$ ,
$\frac d{dx}\log x=\frac 1x$ , kun .

Lause (Ketjusääntö)

Olkoot ja derivoituvia funktioita. Yhdistetetty funktio $f\circ g$ on derivoituva ja $(f\circ g)'(x)=f'(g(x))g'(x)$ kaikilla .

Leibnizin derivaattamerkintä on joskus kätevä yhdistetyn funktion derivaattojen yhteydessä. Merkitään $h=f\circ g$ , y=g(x) ja z=f(y) . Funktioiden ja derivaatat Leibnizin merkinnöin ovat $g'(x)\frac{dy}{dx}$ ja $f'(y)\frac{dz}{dy}$ . Ketjusääntö tässä muodossa on $\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}.$

Esimerkki

Olkoon $f\colon\mathbb R\to\mathbb R$ , $f(x)=(\sin 2x+3)^2.$ Funktio on yhdistetty funktio $v\circ g\circ h$ kolmesta funktiosta h(x)=2x , $g(y)=\sin y+3$ ja v(z)=z^2 . Ketjusääntöä kahteen kertaan käyttämällä saadaan $\begin{aligned} f'(x) &=v'(g(h(x)))(g\circ h)'(x)=v'(g(h(x)))g'(h(x))h'(x)\\ &=2(\sin 2x+3)(\cos 2x)2=4(\sin 2x+3)(\cos 2x). \end{aligned}$

# derivaatta-ja-funktion-käyttäytyminen

Derivaatta ja funktion käyttäytyminen

Derivaatan merkki ja suuruus kertoo paljon funktion käyttäytymisestä. Jos funktion derivaatta on positiivinen avoimella välillä, niin funktio on kasvava tällä välillä. Jos derivaatta on negatiivinen jollain avoimella välillä, niin funktio on vähenevä. Derivaatta on nolla jos tangentin kulmakerroin on nolla eli tangentti on -akselin suuntainen.

Jos funktio saavuttaa pisteessä suurimman tai pienimmän arvonsa, niin tässä pisteessä on f'(x)=0 . Huomaa, että derivaatta voi olla nolla vaikka piste ei olisikaan funktion ääriarvopiste.

Esimerkki

Olkoon $f\colon\mathbb R\to\mathbb R$ , $f(x)=\frac1{10}x^3-x^2.$ Funktion derivaatta on $f'(x)=\frac3{10}x^2-2x$ . Derivaatan nollakohdat ovat B=0 ja $H=6\frac23$ . Derivaatan merkkiä tutkimalla nähdään, että on kasvava väleillä $]-\infty,0[$ ja $]6\frac23,\infty[$ ja että se on vähenevä välillä $]0,6\frac23[$ .

# geo3

3.1.4 Harjoitustehtäviä

Olkoot $a,b,c\in\mathbb R$ . Laske vakiofuntion $f\colon\mathbb R\to\mathbb R$ , kaikilla $x\in\mathbb R$ ja affinin funktion $g\colon\mathbb R\to\mathbb R$ , kaikilla $x\in\mathbb R$ , derivaatat erotusosamäärän avulla.
Todista joku derivaatan laskusääntö ominaisuuksia -kohdasta.

# reaalifunktion-ääriarvoista

Reaalifunktion ääriarvoista

Funktion suurimman tai pienimmän arvon etsiminen on optimointitehtävä, jonka ratkaisemisessa hyödyllisiä työkaluja ovat derivaatta ja raja-arvot.

Olkoon $I\subset\mathbb R$ väli ja olkoon $f\colon I\to\mathbb R$ funktio. Olkoon $x_0\in I$ .

Jos $f(x_0)\ge f(x)$ kaikilla $x\in I$ , niin on funktion maksimipiste ja (globaali) maksimi eli suurin arvo.
Jos $f(x_0)\le f(x)$ kaikilla $x\in I$ , niin on funktion minimipiste ja (globaali) minimi eli pienin arvo.

Suurinta ja pienintä arvoa kutsutaan yhteisellä nimellä globaalit ääriarvot. Globaalien ääriarvojen lisäksi voidaan tutkia funktion käyttäytymistä pisteen x_0 lähellä ja määritellä funktion lokaalit eli paikalliset ääriarvot.

Jos on , siten, että $f(x_0)\ge f(x)$ kaikilla $x\in I\cap ]x_0-a,x_0+a[$ , niin on funktion lokaali maksimipiste ja lokaali maksimi eli suurin arvo.
Jos on , siten, että $f(x_0)\le f(x)$ kaikilla $x\in I\cap ]x_0-a,x_0+a[$ , niin on funktion lokaali minimipiste ja lokaali minimi eli pienin arvo.

Huomaa, että funktiolla ei aina ole suurinta ja pienintä arvoa. Esimerkiksi funktio $f\colon ]0,\infty[\to\mathbb R$ , $f(x)=\frac1x$ , on rajoittamaton ja $\lim_{x\to 0+}f(x)=\infty$ ja $\lim_{x\to\infty}f(x)=0$ ja f(x)>0 kaikilla $]0,\infty[$ . Siten funktiolla ei ole suurinta eikä pienintä arvoa. Suljetulla välillä määritellyille jatkuville funktioille ääriarvot ovat aina olemassa.

Lause (Ääriarvolause)

Olkoon $f\colon [a,b]\to\mathbb R$ jatkuva funktio. Tällöin funktio saavuttaa välillä [a,b] suurimman ja pienimmän arvonsa.

Funktion derivaatta, mikäli se on olemassa, on hyödyllinen työkalu ääriarvojen etsimisessä. Derivaatan määritelmän avulla on helppo näyttää, että jos funktiolla on lokaali ääriarvo pisteessä x_0 ja on derivoituva pisteessä x_0 , niin f'(x_0)=0 . Suljetulla välillä määritellyn funktion ääriarvoja etsittäessä riittää siis selvittää funktion arvo niissä pisteissä, joissa derivaatta on nolla, niissä pisteissä, joissa derivaattaa ei ole olemassa ja välin päätepisteissä. Derivaatan nollakohtia ja pisteitä, joissa derivaattaa ei ole olemassa, sanotaan kriittisiksi pisteiksi (critical points). Muulla kuin suljetulla välillä määritellylle funktiolle pitää tutkia funktion käyttäytymistä välin päätepisteissä esimerkiksi raja-arvojen avulla.

Esimerkki

Edellisen esimerkin funktion $f(x)=\frac1{10}x^3-x^2$ derivaatan nollakohdat antavat lokaalit ääriarvot. Nollakohdista B=0 on lokaali maksimipiste ja $H=6\frac23$ lokaali minimipiste. Koska $\lim_{x\to\pm\infty}f(x)=\pm\infty$ , niin funktiolla ei ole globaaleja ääriarvoja.

Esimerkki

Derivaatta voi olla nolla, vaikka nollakohta ei olisikaan ääriarvopiste. Funktiolle f(x)=x^3 on f'(0)=0 ja funktio $g(x)=x^{1/3}$ ei ole derivoituva nollassa, joten x_0=0 on molempien funktioiden kriittinen piste. Se ei kuitenkaan ole ääriarvopiste sillä f(x)<0 ja g(x)<0 kun x<0 ja f(x)>0 ja g(x)>0 kun x>0 . Funktioilla ei ole globaaleja ääriarvoja sillä $\lim_{x\to\pm\infty}f(x)=\lim_{x\to\pm\infty}g(x)=\pm\infty$ . Jos rajoitutaan suljetulle välille [a,b] , niin on molempien funktioiden globaali minimipiste ja globaali maksimipiste.

3.1.5 Harjoitustehtäviä

Etsi funktion $f\colon\mathbb R\to\mathbb R$ , ääriarvot. Etsi funktion ääriarvot välillä .

# lisätietoa-derivaatoista

Lisätietoa derivaatoista

AP Calculus AB(KhanAcademy)

3.1.6 Osittaisderivaatat ja gradientti

Verkkoa opetettaessa minimoidaan virhefunktiota, jonka arvo riippuu verkon parametreista eli neuronien painoista ja vakiokertoimista. Virhefunktio on siis funktio useampiulotteisesta avaruudesta reaaliluvuille, $E\colon\mathbb R^n\to\mathbb R$ , missä on verkon parametrien lukumäärä. Useammasta kuin yhdestä parametrista riippuvan funktion ääriarvojen etsiminen on yhden muuttujan funktion minimiointia/maksimointia haastavampi tehtävä. Lausetta vastaava ääriarvolause on totta korkeampiulotteisessakin tilanteessa: kompaktissa (suljettu ja rajoitettu) joukossa jatkuva funktio saavuttaa suurimman ja pienimmän arvonsa.

Useamman muuttujan funktion osittaisderivaatta kertoo, miten funktio muuttuu yhden muuttujansa funktiona. Osittaisderivaatta saadaan pitämällä muita muuttujia vakiona ja laskemalla derivaatta tutkittavan muuttujan suhteen kuten tavallinen derivaatta kaavassa.

Osittaisderivaatta

Olkoon $f\colon\mathbb R^n\to\mathbb R$ , olkoon $i\in\{1,\dots,n\}$ ja olkoon $a=(a_1,\dots,a_n)$ . Jos erotusosamäärällä $\frac{f(a_1,\dots,a_i+h,\dots,a_n)-f(a_1,\dots,a_n)}{h}$ on äärellinen raja-arvo, niin se on funktion . osittaisderivaatta eli osittaisderivaatta muuttujan suhteen pisteessä , $\frac{\partial}{\partial x_i}f(a)=\frac{\partial f}{\partial x_i}(a) =\lim_{h\to0}\frac{f(a_1,\dots,a_i+h,\dots,a_n)-f(a_1,\dots,a_n)}{h}.$

# osittaisderivaattojen-geometrinen-tulkinta

Osittaisderivaattojen geometrinen tulkinta

Tarkastellaan osittaisderivaattojen geometrista tulkintaa kahden muuttujan funktiolle $f\colon\mathbb R^2\to\mathbb R$ . Olkoon $(x_0,y_0)\in\mathbb R^2$ . Pystysuoran tason $A_0=\{(x,y,z)\in\mathbb R^3:y=y_0\}$ ja funktion kuvaajan muodostaman pinnan $F=\{(x,y,z)\in\mathbb R^3:z=f(x,y)\}$ leikkaus on käyrä $K=\{(x,y,z)\in\mathbb R^3:z=f(x,y_0), y=y_0\}.$ Tämä käyrä on funktion $x\mapsto f(x,y_0)$ kuvaaja tasossa A_0 . Funktion osittaisderivaatta muuttujan suhteen pisteessä (x_0,y_0) on käyrän tangentin kulmakerroin pisteessä P=(x_0,y_0,f(x_0,y_0)) . Osittaisderivaatta $\frac{\partial }{\partial x}f(x_0,y_0)$ antaa siis funktion arvojen muutosvauhdin muuttujan suhteen kun muuttuja pidetään vakiona.

Esimerkki

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , f(x,y)=4-(x^2+y^2) . Funktion osittaisderivaatat ovat $\frac{\partial }{\partial x}f(x,y)=-2x\quad\text{ ja }\frac{\partial }{\partial y}f(x,y)=-2y.$ Kuva havainnollistaa osittaisderivaattaa $\frac{\partial f}{\partial x}$ pisteessä (1,-1) . Äskeisen tulkinnan taso $A=\{(x,y,z)\in\mathbb R^3:y=-1\}$ ja $K=\{(x,y,z)\in\mathbb R^3:z=3-x^2, y=-1\}$ ja tangentin kulmakerroin pisteessä P=(1,-1,2) on .

# geo4

Yhden muuttujan funktiolle derivaatta on kuvaajan tangentin kulmakerroin. Tasossa määritellylle funktiolle $f\colon\mathbb R^2\to\mathbb R$ osittaisderivaatat $\frac{\partial f}{\partial x}$ ja $\frac {\partial f}{\partial y}$ ovat kuvaajan tangenttitason kaltevuuskertoimia. Olkoon $(x_0,y_0)\in\mathbb R^2$ . Funktion kuvaajan tangenttitaso pisteessä saadaan yhtälöstä $\frac{\partial f}{\partial x}(x_0,y_0)(x-x_0) +\frac{\partial f}{\partial y}(x_0,y_0)(y-y_0)-(z-f(x_0,y_0))=0.$

Funktion kuvaajan tangenttitaso pisteessä P=(x_0,y_0,f(x_0,y_0)) on taso, joka sisältää kaikki ne pisteen kautta kulkevat suorat, jotka ovat tangentteja jollekin kuvaajalla sijaitsevalle pisteen kautta kulkevalle käyrälle. Tangenttitaso sivuaa kuvaajaa pisteessä ja kaikista pisteen kautta kulkevista tasoista se on se, jolla on pisteessä samat osittaisderivaatat kuin funktiolla .

Esimerkki

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=\sin x\cos y.$ Etsitään funktion tangenttitaso pisteessä $(\frac \pi6, \frac \pi4)$ (ja kerrataan samalla trigonometrisia funktioita). Nyt $f(\frac \pi6, \frac \pi4)=\sin \frac \pi6\cos \frac \pi4=\frac12\frac12\sqrt2=\frac 14\sqrt 2$ , $\frac{\partial f}{\partial x}(x,y)=\cos x\cos y\quad \text{ ja }\quad \frac{\partial f}{\partial y}(x,y)=- \sin x \sin y,$ joten $\frac{\partial f}{\partial x}(\frac \pi6, \frac \pi4) =\cos \frac \pi6 \cos \frac \pi4=\frac 12\sqrt 3\frac 12\sqrt 2=\frac 14\sqrt 6$ ja $\frac{\partial f}{\partial y}(\frac \pi6, \frac \pi4) =-\sin \frac \pi6\sin\frac \pi4=-\frac12\frac12\sqrt 2=-\frac14\sqrt 2.$ Siten tangenttitaso pisteessä $(\frac \pi6, \frac \pi4)$ saadaan yhtälöstä $z=\frac 14\sqrt 6(x-\frac \pi6)-\frac14\sqrt 2(y-\frac \pi4)+\frac 14\sqrt 2.$

# geo5

3.1.7 Harjoitustehtäviä

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , Laske funktion osittaisderivaatat $\frac{\partial}{\partial x}f(x,y)$ ja $\frac{\partial }{\partial y}f(x,y)$ pisteessä . Piirrä kuvia.
Olkoon $f\colon\mathbb R^2\to\mathbb R$ ,
$f(x,y)=y\sin(xy).$ Laske funktion osittaisderivaatat $\frac{\partial }{\partial x}f(x,y)$ ja $\frac{\partial }{\partial y}f(x,y)$ .
Olkoon $f\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=x\cos y-ye^x.$ Määritä funktion kuvaajan tangenttitaso pisteessä .

Onko 3. tehtävän funktio f(x,y)=x cos (y-ye^x) vai f(x,y) = x cos (y) -ye^x ?

— 06 May 18

siis mikä on olevinaan piste (0,0,f(0,0)) ?

— 08 Jun 18

tehtävässä ei ole sulkuja, joten jälkimmäinen vaihtoehto. f on kahden muuttujan funktio, jolle f(0,0)=0-0=0. Piste on siis (0,0,0).

— 05 Sep 18

Gradientti ja sen geometrinen tulkinta

Olkoon $f\colon\mathbb R^n\to\mathbb R$ funktio, jolla on osittaisderivaatat kaikkien muuttujien x_i , $i\in\{1,\dots,n\}$ suhteen. Osittaisderivaatoista muodostettu vektori $\nabla f(x)=\Big( \frac{\partial f}{\partial x_1}(x),\frac{\partial f}{\partial x_2}(x),\dots, \frac{\partial f}{\partial x_n}(x)\Big)$ on funktion gradientti.

Funktion $f\colon\mathbb R^2\to\mathbb R$ gradientti voidaan ajatella funktioksi $\nabla f\colon \mathbb R^2\to\mathbb R^2$ , $\nabla f(x)=\big(\frac{\partial f}{\partial x_1}(x),\frac{\partial f}{\partial x_2}(x)\big).$ Tällaista funktiota voidaan havainnollistaa vektorikentällä, jossa jokaiseen tason pisteeseen piirretään vektori, jonka suunta ja pituus saadaan funktion arvosta kyseisessä pisteessä. Monesti pituus skaalataan tai ilmaistaan väreillä.

Esimerkki

Olkoon $g\colon\mathbb R^2\to\mathbb R$ , . Funktion gradientti on $\nabla g(x)=\Big(\frac{\partial g}{\partial x_1}(x),\frac{\partial g}{\partial x_2}(x)\Big)=(x_2,x_1).$
Olkoon $f\colon\mathbb R^2\to\mathbb R$ , . Funktion gradientti on $\nabla f(x)=\Big(\frac{\partial f}{\partial x_1}(x),\frac{\partial f}{\partial x_2}(x)\Big)=(2x_1,2x_2).$

Funktioiden ja gradientteja voidaan havainnollistaa vektorikentillä.

Osittaisderivaatat kertovat funktion kasvunopeuden koordinaattiakseleiden suuntiin ja funktion gradientti $\nabla f$ pisteessä $x\in\mathbb R^n$ kertoo suunnan, johon funktio kasvaa nopeimmin. Gradientin pituus eli vektorin $\nabla f(x)$ normi kertoo funktion kasvuvauhdin. Se, että gradientti antaa nopeimman kasvun suunnan, todistetaan suuntaisderivaattojen avulla. (Ne määritellään samaan tapaan kuin osittaisderivaatat mutta erotusosamäärässä käytetään kantavektoreiden $e_i=(0,\dots,0,1,0,\dots,0)$ sijaan vektoria $a\in\mathbb R^n$ , jonka suuntaan funktion kasvunopeus halutaan määrittää.)

Gradientin geometrisessa tulkinnassa käytetään vektorikentän lisäksi apuna tasa-arvokäyriä.

Esimerkki

Esimerkistä tutun funktion $g\colon\mathbb R^2\to\mathbb R$ , g(x_1,x_2)=x_1x_2 tasa-arvokäyrät ja gradienttien $\nabla g(x)=(x_2,x_1)$ vektorikenttä piirrettynä samaan kuvaan.

Esimerkin kuvassa funktion gradienttivektorit ovat kohtisuorassa tasa-arvokäyriä vastaan. Tämä ei ole sattumaa vaan gradienttivektorit ovat aina kohtisuorassa tasa-arvojoukkoja vastaan. Funktioiden $f\colon\mathbb R^2\to\mathbb R$ tapauksessa tätä ominaisuutta voi pohtia seuraavasti: olkoon $\{x\in\mathbb R^2:f(x)=c\}$ funktion jokin tasa-arvokäyrä ja olkoon piste x_c tällä käyrällä. Halutaan, että funktion arvo kasvaa annetun määrän ja etsitään suuntaa, jossa tämä muutos saavutetaan siirtämällä pistettä x_c vähiten. Pienin siirto tulee siihen suuntaan, jossa isompia arvoja vastaavat tasa-arvokäyrät ovat tiheimmässä. Toisaalta gradientti osoittaa suurimman kasvunopeuden suuntaan. Pienessä mittakaavassa katsottuna eli pienellä arvon lisäyksellä tasa-arvokäyrät ovat suoria ja kahden samansuuntaisen suoran välisen lyhimmän matkan antaa suora, joka on kohtisuorassa edellisiä suoria vastaan.

# ääriarvoista

Ääriarvoista

Neuroverkkoa koulutettaessa halutaan minimoida monesta parametrista riippuvaa virhefunktiota. Yhden muuttujan funktioiden ääriarvojen etsiminen derivaatan nollakohtien avulla yleistyy useamman muuttujan funktion tilanteeseen niin, että mahdolliset ääriarvopisteet ovat ne pisteet, joissa kaikki osittaisderivaatat ovat nollia.

Olkoon $I\subset\mathbb R^n$ väli.

Jos on , siten, että $f(x_0)\ge f(x)$ kaikilla $x\in I$ , joille $\|x-x_0\|<a$ , niin on funktion lokaali maksimipiste ja lokaali maksimi eli suurin arvo.
Jos on , siten, että $f(x_0)\le f(x)$ kaikilla $x\in I$ , joille $\|x-x_0\|<a$ , niin on funktion lokaali minimipiste ja lokaali minimi eli pienin arvo.

Globaalit ääriarvot ja ääriarvopisteet määritellään kuten yhden muuttujan funktion tapauksessa.

Yhden muuttujan jatkuvan funktion ääriarvojen olemassaolotulos pätee myös yleisemmässä tapauksessa. (Tulos on totta yleisemmällekin määrittelyjoukolle kuin suljetuille väleille. Riittää, että joukko on kompakti eli suljettu ja rajoitettu.)

Lause (Ääriarvolause)

Olkoon $I\subset\mathbb R^n$ suljettu ja rajoitettu väli. Olkoon $f\colon I\to\mathbb R$ jatkuva funktio. Tällöin funktio saavuttaa välillä suurimman ja pienimmän arvonsa.

Funktioiden $f\colon\mathbb R^2\to\mathbb R$ kuvaajia katsottaessa on intuitiivisesti selvää, että funktion lokaaleissa ääriarvopisteissä tangettitaso on vaakasuorassa eli x,y -tason suuntainen. Tällaisten tasojen yhtälöt ovat muotoa z=c , joten tangenttitason yhtälön perusteella nähdään, että funktion osittaisderivaatat muuttujien ja suhteen ovat nollia ja että kuvaajan tangenttitason yhtälö pisteessä (x_0,y_0) on z=f(x_0,y_0) .

Osittaisderivaattojen nolluus ääriarvopisteissä yleistyy myös useamman muuttujan funktioille. Derivaatan määritelmän ja yhden muuttujan funktion tulosten avulla on helppo näyttää, että jos funktiolla $f\colon I\to\mathbb R$ , $I\subset\mathbb R^n$ , on lokaali ääriarvo pisteessä $x\in I$ ja funktiolla on osittaisderivaatat pisteessä , niin $\frac{\partial f}{\partial x_i}(x)=0$ kaikilla $i\in\{1,\dots,n\}$ eli $\nabla f(x)=0.$

Suljetulla välillä määritellyn funktion ääriarvoja etsittäessä riittää siis selvittää funktion arvo niissä pisteissä, joissa gradientti on nolla, niissä pisteissä, joissa jotain osittaisderivaattaa ei ole olemassa ja välin reunapisteissä. Gradientin nollakohtia ja pisteitä, joissa jotain osittaisderivaattaa ei ole olemassa, sanotaan kriittisiksi pisteiksi (critical points). Muulla kuin suljetulla välillä määritellylle funktiolle pitää tutkia funktion käyttäytymistä välin reunapisteissä esimerkiksi raja-arvojen avulla.

Esimerkki

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , f(x,y)=xy-x^2-y^2+3 . Nyt $\frac{\partial f}{\partial x}=y-2x \quad\text{ ja }\quad \frac{\partial f}{\partial y}=x-2y.$ Yhtälöparin $\begin{cases} y-2x=0\\ x-2y=0 \end{cases}$ ainoa ratkaisu on x=y=0 , joten piste (0,0) on funktion ainoa kriittinen piste ja funktion kuvaajan tangenttitaso siinä pisteessä on z=f(0,0)=3 . Se, että (0,0) on funktion globaali maksimipiste selviää tutkimalla funktion raja-arvoja kun $x,y\to\pm\infty$ .

Esimerkki

Funktiolla $f\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=\cos (2\pi x)\cos(2\pi y) e^{-x^2-y^2}$ on useita maksimi- ja minimipisteitä. Sillä on globaali maksimi pisteessä (0,0) .

Ääriarvopisteissä funktion gradientti on nolla, mutta gradientin nolluus ei takaa sitä, että piste on funktion $f\colon\mathbb R^n\to\mathbb R$ ääriarvopiste. Pistettä, jossa $\nabla f(x)=0$ mutta kaikilla r>0 on piste ja , joille $\|x-a\|<r$ , $\|x-b\|<r$ , f(a)<f(x) ja f(b)>f(x) , sanotaan funktion satulapisteeksi. Funktion kriittisten pisteiden laatua eli sitä, ovatko ne lokaaleja maksimi- tai minimipisteitä vai satulapisteitä voidaan tutkia esimerkiksi toisen kertaluvun osittaisderivaattojen merkin avulla.

Esimerkki

Piste (0,0) on funktioiden $f,g\colon\mathbb R^2\to\mathbb R$ , $f(x,y)=y^2-x^2\quad\text{ja}\quad g(x,y)=\frac{xy(x^2-y^2)}{x^2+y^2}$ satulapiste.

# osittaisderivaattojen-ketjusääntö

Osittaisderivaattojen ketjusääntö

Vastavirta-algoritmissa virhefunktion osittaisderivaattoja piilokerroksen painojen suhteen laskettaessa huomattiin, että muuttuja, jonka suhteen halutaan derivoida, riippuu edellisen kerroksen parametreista. Tämän takia tarvittiin osittaisderivaattojen ketjusääntöä.

Tarkastellaan ensin yksinkertaista tilannetta. Olkoon $f\colon\mathbb R^2\to\mathbb R$ funktio, jonka parametrit ja ovat muuttujan $t\in\mathbb R$ funktioita $x,y\colon\mathbb R\to\mathbb R$ . Funktioiden välistä yhteyttä voi havainnollistaa puumaisella kaaviolla. Funktion osittaisderivaatan kaavan muuttujan suhteen (tässä tapauksessa tavallisen derivaatan) voi muistaa siitä, että kuvassa edetään funktion ja derivointimuuttujan väli kaikkia reittejä pitkin, kerrotaan matkalla olevat osittaisderivaatat keskenään ja lasketaan eri reittien osittaisderivaattojen tulot yhteen.

Jos funktiolla on jatkuvat osittaisderivaatat muuttujien ja suhteen ja funktiot ja ovat derivoituvia, niin funktion derivaatta muuttujan suhteen on $f'(t)=\frac{\partial f}{\partial t}(t)=\frac{\partial f}{\partial x}(x(t),y(t))\cdot x'(t) + \frac{\partial f}{\partial y}(x(t),y(t))\cdot y'(t),$ josta Leibnizin merkinnöin kirjoitettu versio on $\frac{\partial f}{\partial t}=\frac{\partial f}{\partial x}\frac{\partial x}{\partial t}+\frac{\partial f}{\partial y}\frac{\partial y}{\partial t}.$

Esimerkki

Olkoot $f\colon\mathbb R^2\to\mathbb R$ , $x\colon\mathbb R\to\mathbb R$ ja $y\colon\mathbb R\to\mathbb R$ , $x(t)=2t, \quad y(t)=t^2-1\quad\text{ja}\quad f(x,y)=x^2-2xy.$ Lasketaan funktion derivaatta muuttujan suhteen. Muuttujia on vain yksi ja osittaisderivaatta on funktion $t\mapsto f(x(t),g(t))$ tavallinen derivaatta. Tässä tapauksessa derivaatta osattaisiin laskea ilman ketjusääntöäkin sijoittamalla funktioiden ja lausekkeet funktion lausekkeeseen f(x,y)=x(t)^2-2x(t)y(t)=(2t)^2-2(2t)(t^2-1)=-4t^3+4t^2+4t, joten f'(t)=-12t^2+8t+4. Osittaisderivaattojen ketjusääntöä käyttämällä saadaan $\begin{aligned} f'(t)&=\frac{\partial f}{\partial t} =\frac{\partial f}{\partial x}\frac{\partial x}{\partial t} +\frac{\partial f}{\partial y}\frac{\partial y}{\partial t}\\ &=(2x-2y)2-2x2t =4x-4y-4xt\\ &=4(2t-t^2+1-2t^2) =-12t^2+8t+4. \end{aligned}$

Yleinen versio osittaisderivaattojen ketjusäännöstä on seuraava. Olkoon $f\colon\mathbb R^n\to\mathbb R$ , $f(u)=f(u_1,\dots,u_n)\in\mathbb R,$ missä u_i on funktio $u_i\colon\mathbb R^m\to\mathbb R$ , kaikilla $i\in\{1,\dots,n\}$ . Jos funktiolla on jatkuvat osittaisderivaatat $\frac{\partial f}{\partial u_i}$ kaikilla $i\in\{1,\dots,n\}$ ja funktioilla u_i on osittaisderivaatat $\frac{\partial u_i}{\partial x_j}$ kaikilla $i\in\{1,\dots,n\}$ ja kaikilla $j\in\{1,\dots,m\}$ , niin funktion osittaisderivaatat muuttujien x_j suhteen saadaan kaavalla $\frac{\partial f}{\partial x_j} =\sum_{i=1}^n\frac{\partial f}{\partial u_i}\frac{\partial u_i}{\partial x_j}.$

Laskettaessa osittaisderivaattaa muuttujan x_j suhteen funktio siis osittaisderivoidaan kaikkien muuttujiensa u_i suhteen ja muuttujat u_i muuttujan x_j suhteen. Nämä osittaisderivaatat kerrotaan keskenään ja lasketaan yhteen. Puukaavion lisäksi kaavan voi muistaa miettimällä, että muuttujan x_j muuttaminen vaikuttaa funktioiden $u_1,u_2,\dots,u_n$ arvoihin ja siten muutos funktion arvossa saadaan laskemalla nämä muutokset (osittaisderivaatat) yhteen.

Esimerkki

Olkoot $f,u_1,u_2\colon\mathbb R^2\to\mathbb R$ , $f(u_1,u_2)=u_1^2-u_1u_2+3u_2^2, \quad u_1(x_1,x_2)=x_1+x_2\quad \text{ja}\quad u_2(x_1,x_2)=x_1-x_2.$ Nyt $\frac{\partial f}{\partial u_1}=2u_1-u_2,\quad \frac{\partial f}{\partial u_2}=-u_1+6u_2,$ $\frac{\partial u_1}{\partial x_1}=1,\quad \frac{\partial u_1}{\partial x_2}=1,\quad \frac{\partial u_2}{\partial x_1}=1\quad\text{ja}\quad \frac{\partial u_2}{\partial x_2}=-1.$ Funktion osittaisderivaatat muuttujien x_1 ja x_2 suhteen ovat $\begin{aligned} \frac{\partial f}{\partial x_1} &=\sum_{i=1}^2\frac{\partial f}{\partial u_i}\frac{\partial u_i}{\partial x_1} =\frac{\partial f}{\partial u_1}\frac{\partial u_1}{\partial x_1} + \frac{\partial f}{\partial u_2}\frac{\partial u_2}{\partial x_1}\\ &=(2u_1-u_2)\cdot1+(-u_1+6u_2)\cdot1\\ &=u_1+5u_2=6x_1-4x_2 \end{aligned}$ ja $\begin{aligned} \frac{\partial f}{\partial x_2} &=\sum_{i=1}^2\frac{\partial f}{\partial u_i}\frac{\partial u_i}{\partial x_2} =\frac{\partial f}{\partial u_1}\frac{\partial u_1}{\partial x_2} + \frac{\partial f}{\partial u_2}\frac{\partial u_2}{\partial x_2}\\ &=(2u_1-u_2)\cdot1+(-u_1+6u_2)\cdot(-1)\\ &=3u_1-7u_2=-4x_1+10x_2. \end{aligned}$ Halutut osittaisderivaatat voi laskea myös sijoittamalla funktioiden u_1 ja u_2 lausekkeet funktioon ja osittaisderivoimalla muuttujien x_1 ja x_2 suhteen.

3.1.8 Harjoitustehtäviä

Olkoon $f\colon\mathbb R^2\to\mathbb R$ , $x,y\colon\mathbb R\to\mathbb R$ , $f(x,y)=xy, \quad x(t)=\cos t\quad \text{ja}\quad y(t)=\sin t.$ Laske funktion derivaatta sekä sijoittamalla funktioiden ja lausekkeet funktioon että osittaisderivaattojen ketjusäännön avulla.
Olkoon $f\colon\mathbb R^3\to\mathbb R$ , $u_1,u_2,u_3\colon\mathbb R^2\to\mathbb R$ , $u_1(x_1,x_2)=\frac{x_1}{x_2},\quad u_2(x_1,x_2)=x_1^2+\log x_2, \quad\text{ja}\quad u_3(x_1,x_2)=2x_1.$ Laske funktion osittaisderivaatat $\frac{\partial f}{\partial x_1}$ ja $\frac{\partial f}{\partial x_2}$ .

# lisätietoa-osittaisderivaatoista

Lisätietoa osittaisderivaatoista

# lag

3.2 Lineaarialgebraa

Neuroverkon rakennetta esiteltäessä verkon parametreille ja niihin liittyville kaavoille annettiin myös vektori- ja matriisiesitykset. Ohjelmistokirjastoissa on paljon vektori- ja matriisilaskentaan sopivia paketteja, joiden avulla neuroverkon syötteiden tuloksen laskeminen ja parametreihin liittyvien laskujen tekeminen esimerkiksi virhefunktion minimoinnin yhteydessä on paljon nopeampaa kuin yksittäisten parametrien käsittely silmukoiden avulla.

Tässä luvussa käydään läpi vektoreihin ja matriiseihin liittyviä peruskäsitteitä, laskusääntöjä ja ominaisuuksia. Niihin liittyvää materiaalia löytyy Linear Algebra -nimisistä kirjoista. Motivointi lineaarialgebraan tehdään monesti lineaarisen yhtälöryhmän ratkaisemisen kautta.

3.2.1 Kahden lineaarisen yhtälön yhtälöryhmä

Tarkastellaan johdatuksena kahden muuttujan lineaarisista yhtälöistä muodostuvan yhtälöparin $\begin{cases} a_{11}x+a_{12}y=b_1,\\ a_{21}x+a_{22}y=b_2, \end{cases}$ missä $a_{ij},b_i\in\mathbb R$ kaikilla $i,j\in\{1,2\}$ , ratkaisemista. Paria (x,y) , joka toteuttaa yhtälöparin molemmat yhtälöt, sanotaan yhtälöparin ratkaisuksi. Yhtälöparin ratkaisujen olemassaolo ja yksikäsitteisyys riippuu kertoimista $a_{ij}$ .

Esimerkki

Tutkitaan yhtälöpareja $\text{(a)} \begin{cases} x-y=7,\\ x+y=5, \end{cases}\quad \text{(b)} \begin{cases} x-y=7,\\ 2x-2y=14 \end{cases}\quad \text{(c)} \begin{cases} x-y=7,\\ 2x-2y=13. \end{cases}$ Yhtälöparista (a) saadaan laskemalla yhtälöt puolittain yhteen ja jakamalla kahdella että x=6 . Sijoittamalla tämä toiseen yhtälöön saadaan y=5-6=-1 . Tästä seuraa, että (6,-1) on yhtälöparin ainoa ratkaisu.

Yhtälöparin (b) toinen yhtälö on ensimmäinen yhtälö kerrottuna luvulla . Tämän yhtälön toteuttavat kaikki lukuparit (x,y) , joille y=x-7 . Siten yhtälöparilla on äärettömän monta ratkaisua.

Kerrottaessa yhtälöparin (c) ensimmäinen yhtälö kahdella, saadaan yhtälöpari, jonka molempien yhtälöiden vasen puoli on 2x-2y . Koska oikeat puolet eivät ole samat, niin yhtälöparilla ei ole ratkaisua.

Yhtälöparien geometrinen tulkinta tehdään suorien avulla. Parien yhtälöt ovat suorien yhtälöitä tasossa. Ne pisteet, jotka ovat molemmilla suorilla, ovat yhtälöparin ratkaisuja. Kaksi suoraa ovat joko erisuuntaisia tai samansuuntaisia (eri tai sama kulmakerroin). Jos ne ovat erisuuntaisia, niin ne leikkaavat toisensa täsmälleen yhdessä pisteessä. Tapauksessa (a) yhtälöparin ratkaisu on yhtälöitä vastaavien suorien yksikäsitteinen leikkauspiste. Tapauksessa (b) suorat ovat samat eli kaikki suoran pisteet ovat leikkauspisteitä. Tapauksessa (c) suorat ovat samansuuntaisia eri suoria, joten ne eivät leikkaa toisiaan.

# geo6

Kertomalla yhtälöparin ensimmäinen yhtälö puolittain luvulla $a_{22}$ ja toinen luvulla $a_{12}$ ja vähentämällä yhtälöt toisistaan nähdään, että jos $a_{11}a_{22}-a_{12}a_{21}\ne0$ , niin sijoittamalla luku $x=\frac{a_{22}b_1-a_{12}b_2}{a_{11}a_{22}-a_{12}a_{21}}$ yhtälöpariin saadaan ja ratkaisu (x,y) . Erotusta $a_{11}a_{22}-a_{12}a_{21}$ sanotaan yhtälöparin determinantiksi.

Tämä liittyy yhtälöparin geometriseen tulkintaan sillä yhtälöparin ensimmäisen suoran kulmakerroin on $-a_{11}/a_{12}$ ja toisen $-a_{21}/a_{22}$ . Yhtälöparilla on siis täsmälleen yksi ratkaisu jos ja vain jos sen determinantti ei ole nolla (erisuuret kulmakertoimet). Sillä ei ole ratkaisuja tai niitä on äärettömän monta jos ja vain jos determinantti on nolla (samat kulmakertoimet).

3.2.2 Yhtälöryhmä, jossa on lineaarista yhtälöä ja tuntematonta

Yleisessä tapauksessa on yhtälöä ja muuttujaa $\begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n&=b_1\\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n&=b_2\\ ...\\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n&=b_m, \end{cases}$ missä $a_{ij},b_i\in\mathbb R$ kaikilla $i\in\{1,2,\dots,m\}$ , $j\in\{1,2,\dots,n\}$ ja tavoitteena on löytää luvun joukot $x_1, x_2, \dots, x_n$ , jotka toteuttavat kaikki ryhmän yhtälöä.

Tällaisen yhtälöryhmän ratkaisemisessa voidaan käyttää matriiseja. Tunnetussa Gauss-Jordan-menetelmässä yhtälöiden kertoimista $a_{ij}$ muodostetaan kerroinmatriisi, $\left( \begin{array}{cccc|c} a_{11}&a_{12}&\cdots&a_{1n}&b_1\\ a_{21}&a_{22}&\cdots&a_{2n}&b_2\\ \vdots&\vdots&\cdots&\vdots&\vdots\\ a_{m1}&a_{m2}&\cdots&a_{mn}&b_m \end{array} \right)$ jota muunnetaan kerto-, yhteen- ja vähennyslaskuja sisältävillä rivioperaatioilla sellaiseen muotoon, josta ratkaisu (tai sen olemassaolemattomuus) saadaan helposti selville peräkkäisillä sijoituksilla.

3.2.3 Vektorit ja matriisit

Vektorit

Vektorit ja matriisit koostuvat järjestetyistä alkioista, jotka voivat olla mitä tahansa (reaalilukuja, vektoreita, funktioita). Keskitytään tässä tilanteeseen, jossa alkiot ovat reaalilukuja. Vektoreista tarvitaan sekä pysty- että vaakaversiot, jotta matriisien ja vektoreiden keskenäiset laskutoimitukset saadaan hoidettua muodollisesti oikein.

Olkoon $n\in\mathbb N$ . Olkoot x_1 , $x_2,\dots$ , $x_n\in\mathbb R$ . Järjestetty joukko $x=(x_1,x_2,\dots,x_n)$ on -ulotteinen (rivi)vektori. Järjestetty joukko $x=\begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{pmatrix}$ on -ulotteinen (sarake)vektori. Luvut x_1 , $x_2,\dots$ , x_n ovat vektorin komponentteja.

Vektoreiden samuus, vektorin kertominen vakiolla ja (samanulotteisten) vektoreiden yhteenlasku määritellään luonnollisella tavalla.

Olkoot $u=(u_1,u_2,\dots,u_n)$ ja $v=(v_1,v_2,\dots,v_n)$ -vektoreita. Olkoon $c\in\mathbb R$ . Nyt u=v jos ja vain jos u_i=v_i kaikilla $i\in\{1,2,\dots,n\}$ , $cu=(cu_1,cu_2,\dots,cu_n)$ ja $u+v=(u_1+v_1,u_2+v_2,\dots,u_n+v_n).$

Reaalilukujen laskusäännöistä seuraa, että vektoreiden yhteenlasku on vaihdannainen, liitännäinen ja distributiivinen (osittelulaki) eli jos , ja ovat -vektoreita ja $c\in\mathbb R$ , niin $u+v=v+u,\quad u+(v+w)=(u+v)+w\quad \text{ja}\quad c(u+v)=cu+cv.$ Jos $a=(a_1,a_2,\dots,a_n)\in\mathbb R^n$ ja $b=(b_1,b_2,\dots,b_n)\in\mathbb R^n$ , niin vektoreiden ja sisätulo/pistetulo on $a\cdot b=<a,b>=\sum_{i=1}^n a_ib_i.$

Esimerkki

Olkoot a=(1,-2,3) ja b=(3,2,-1) . Nyt $a+2b=(1+2\cdot3,-2+2\cdot2,3+2\cdot(-1))=(7,2,1)$ ja $a\cdot b=1\cdot3+(-2)\cdot2+3\cdot(-1)=3-4-3=-4$ ja samat laskut Pythonin NumPy-kirjaston avulla:

# py0

Matriisit

Olkoot $m,n\in\mathbb N$ . Olkoot $a_{ij}\in\mathbb R$ kaikilla $i\in\{1,2,\dots,m\}$ ja $j\in\{1,2,\dots,n\}$ . Järjestetty taulukko $A=(a_{ij})= \begin{pmatrix} a_{11}&a_{12}&\cdots&a_{1n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{m1}&a_{m2}&\cdots&a_{mn} \end{pmatrix}$ on $m\times n$ -matriisi, jossa on riviä ja saraketta.

Luvut $a_{ij}$ ovat matrisin alkioita/komponetteja, rivivektorit $(a_{i1},a_{i2},\dots,a_{in})$ , $i\in\{1,2,\dots,m\}$ , sen rivejä (row) ja sarakevektorit $\begin{pmatrix} a_{1j}\\ a_{2j}\\ \vdots\\ a_{mj} \end{pmatrix}$ $j\in\{1,2,\dots,n\}$ , sen sarakkeita (column).

Jos m=n , niin matriisi on neliömatriisi (square matrix).

Huomaa, että rivivektori $(x_1,x_2,\dots,x_n)$ on $1\times n$ -matriisi ja -komponentin sarakevektori on $n\times 1$ -matriisi.

Matriisien yhtäsuuruus, vakiolla kertominen ja yhteenlasku määritellään samaan tapaan kuin vastaavat ominaisuudet vektoreille.

Olkoot $A=(a_{ij})$ ja $B=(b_{ij})$ $m\times n$ -matriiseja. Olkoon $c\in\mathbb R$ . Matriisit ja ovat yhtäsuuret jos ja vain jos $a_{ij}=b_{ij}$ kaikilla $i\in\{1,2,\dots,m\}$ ja $j\in\{1,2,\dots,n\}$ , $cA=(ca_{ij})= \begin{pmatrix} ca_{11}&ca_{12}&\cdots&ca_{1n}\\ ca_{21}&ca_{22}&\cdots&ca_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ ca_{m1}&ca_{m2}&\cdots&ca_{mn} \end{pmatrix}$ ja $A+B=(a_{ij}+b_{ij})= \begin{pmatrix} a_{11}+b_{11}&a_{12}+b_{12}&\cdots&a_{1n}+b_{1n}\\ a_{21}+b_{21}&a_{22}+b_{22}&\cdots&a_{2n}+b_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{m1}+b_{m1}&a_{m2}+b_{m2}&\cdots&a_{mn}+b_{mn} \end{pmatrix}.$

Huomaa, että jos matriisit ja ovat erikokoisia, niin niitä ei voi laskea yhteen.

Reaalilukujen ominaisuuksista ja matriisien summan ja vakiolla kertomisen määrittelystä seuraa, että matriisien laskutoimitukset käyttäytyvät seuraavasti.

Olkoot , ja $m\times n$ -matriiseja. Olkoon $c\in\mathbb R$ . Olkoon $0_{mn}$ $m\times n$ -matriisi, jonka kaikki alkiot ovat nollia. Tällöin

$A+0_{mn}=A$ ,
$0A=0_{mn}$ ,
,
,
,
.

Esimerkki

Matriiseille $A= \begin{pmatrix} 1&2&3\\ 3&2&1 \end{pmatrix} \quad\text{ ja }\quad B= \begin{pmatrix} 1&0&1\\ 0&1&0 \end{pmatrix}$ on $A+2B= \begin{pmatrix} 1+2&2+0&3+2\\ 3+0&2+2&1+0 \end{pmatrix} = \begin{pmatrix} 3&2&5\\ 3&4&1 \end{pmatrix}.$ ja samat laskut Pythonin NumPy-kirjaston avulla:

# py1

3.2.4 Harjoitustehtäviä

Olkoot ja . Laske summa ja sisätulo $a\cdot b$ .
Olkoot , ja -vektoreita. Olkoon $0_n=(0,0,\dots,0)$ -ulotteinen nollavektori. Olkoon $c\in\mathbb R$ . Osoita, että $v\cdot 0_n=0,\quad u\cdot v=v\cdot u,\quad u\cdot (v+w)=u\cdot v+u\cdot w \quad\text{ja}\quad(cu)\cdot v=c(u\cdot v).$
Olkoot $A= \begin{pmatrix} 1&3\\ 2&5\\ -1&2 \end{pmatrix},\quad B= \begin{pmatrix} -2&0\\ 1&4\\ -7&5 \end{pmatrix} \text{ ja } C= \begin{pmatrix} -1&1\\ 4&6\\ -7&3 \end{pmatrix}.$ Laske matriisit , , ja .

Pitäisi varmaan olla (cu)dot v eikä (cvu)dot v tehtävässä 2

— 15 Apr 18 (edited 15 Apr 18)

Joo. Kiitos.

— 05 Sep 18

Pikaisesti ajateltuna kahden matriisin tulo olisi matriisi, jossa tekijämatriisien saman indeksin alkiot kerrottaisiin keskenään samoin kuin ne lasketaan yhteen matriisien summassa. Tämän määritelmän antamalla tulolla ei ole riittävästi matriisien tulolta haluttavia ominaisuuksia. Sitä kuitenkin käytetään joissain yhteyksissä, esimerkiksi neuroverkon parametrien kaavoissa.

Olkoot $A=(a_{ij})$ ja $B=(b_{ij})$ $m\times n$ -matriiseja. Matriisien ja Hadamardin tulo/Schurin tulo on $A\circ B=(a_{ij}b_{ij})= \begin{pmatrix} a_{11}b_{11}&a_{12}b_{12}&\cdots&a_{1n}b_{1n}\\ a_{21}b_{21}&a_{22}b_{22}&\cdots&a_{2n}b_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{m1}b_{m1}&a_{m2}b_{m2}&\cdots&a_{mn}b_{mn}. \end{pmatrix}.$

Yleisemmin käytettävä matriisien tulo määritellään vektoreiden sisätulon avulla. Matriisien ja tulon . alkio on matriisin . rivin ja matriisin . sarakkeen vektoreiden sisätulo.

Olkoon $A=(a_{ij})$ $m\times n$ -matriisi ja $B=(b_{ij})$ $n\times p$ -matriisi. Matriisien ja tulo on $m\times p$ -matriisi $C=(c_{ij})$ , jolle $c_{ij}=\sum_{k=1}^n a_{ik}b_{kj}.$

Matriisitulo on liitännäinen eli jos on $m\times n$ - matriisi, on $n\times o$ -matriisi ja on $o\times p$ -matriisi, niin A(BC)=(AB)C ja tulo on $m\times p$ -matriisi. Osittelulaki (yhteen- ja kertolaskun suhteen oikean kokoisille) on myös voimassa eli A(B+C)=AB+AC ja (A+B)C=AC+BC. Matriisitulo ei yleensä ole vaihdannainen eli $AB\ne BA$ . Tulo ei ole edes määritelty paitsi jos sekä että ovat $n\times n$ -matriiseja jollain $n\in\mathbb N$ .

Esimerkki

Olkoot $A= \begin{pmatrix} 1&2&3\\ 3&2&1 \end{pmatrix}$ ja $B= \begin{pmatrix} 1&0\\ 0&1\\ 1&2 \end{pmatrix}.$

Koska on $2\times 3$ -matriisi ja on $3\times 2$ -matriisi, niin tulo on $2\times 2$ -matriisi, $C=AB= \begin{pmatrix} 1\cdot1+2\cdot0+3\cdot1&1\cdot0+2\cdot1+3\cdot2\\ 3\cdot1+2\cdot0+1\cdot1&3\cdot0+2\cdot1+1\cdot2 \end{pmatrix} = \begin{pmatrix} 4&8\\ 4&4 \end{pmatrix}.$

3.2.5 Harjoitustehtäviä

Näytä, että matriisien Hadamard-tulo on vaihdannainen, liitännäinen ja distributiivinen: Jos ja ovat $m\times n$ -matriiseja, niin $A\circ B=B\circ A$ , $A\circ (B\circ C)=(A\circ B)\circ C$ ja $A\circ (B + C)=A\circ B+A\circ C$ .
Olkoot $A= \begin{pmatrix} 0&1\\ 2&3 \end{pmatrix} \quad\text{ ja }\quad B= \begin{pmatrix} 1&4&-2\\ 3&0&4 \end{pmatrix} .$ Laske tulot ja .

Olkoon $n\times n$ -matriisi. on diagonaalimatriisi, jos $a_{ij}=0$ aina, kun $i\ne j$ .

on yksikkömatriisi, jos se on diagonaalimatriisi ja $a_{ii}=1$ kaikilla $i\in\{1,\dots,n\}$ .

Matriisi on ylä(ala)kolmiomatriisi, jos kaikki komponentit diagonaalin ala(ylä)puolella ovat nollia.

Laskutoimitusten helpottamiseksi yleinen matriisi pyritään monesti esittämään kahden tai kolmen matriisin tulona, jossa tulon matriisit ovat diagonaali- tai kolmiomatriiseja.

Esimerkki

Olkoot $A= \begin{pmatrix} 2&0&0&0\\ 0&1&0&0\\ 0&0&3&0\\ 0&0&0&1 \end{pmatrix}, \quad I= \begin{pmatrix} 1&0\\ 0&1 \end{pmatrix}, \quad B= \begin{pmatrix} 2&1&3\\ 0&1&0\\ 0&0&-3 \end{pmatrix} \text{ ja } C= \begin{pmatrix} 2&0&0\\ 4&1&0\\ 1&0&-3 \end{pmatrix}.$ Matriisit ja ovat diagonaalimatriiseja ja on myös yksikkömatriisi. Matriisi on yläkolmiomatriisi ja on alakolmiomatriisi.

Yksikkömatriisi käyttäytyy matriisien kertolaskussa kuten luku reaalilukujen kertolaskussa. Jos on $n\times n$ -matriisi ja I_n on $n\times n$ -yksikkömatriisi, niin Muista, että kaikilla reaaliluvuilla $a\ne0$ on käänteisluku $a^{-1}$ , jolle $aa^{-1}=a^{-1}a=1$ . Osalla neliömatriiseista on vastaava käänteisalkio.

Olkoot ja $n\times n$ -matriiseja. Jos AB=BA=I_n, niin on matriisin käänteismatriisi, jota merkitään usein $A^{-1}$ . Tällöin sanotaan, että matriisi on kääntyvä.

Käänteismatriisin käsin laskeminen on yleensä työlästä. Se onnistuu Gauss-Jordan menetelmällä; kaavan oikean puolen vektori korvataan yksikkömatriisilla I_n . Jos saadaan rivioperaatioilla muunnettua yksikkömatriisiksi, niin on kääntyvä ja käänteismatriisi löytyy viivan oikealta puolelta. Käänteismatriisin etsinnässä riittää löytää , jolle AB=I_n tai BA=I_n . Tällöin voidaan näyttää, että $B=A^{-1}$ .

Esimerkki

Olkoon $A= \begin{pmatrix} 0&1\\ 1&0 \end{pmatrix}.$ Jos matriisilla on käänteismatriisi $B=(b_{ij})$ , niin AB=I_2 , $\begin{pmatrix} 1&0\\ 0&1 \end{pmatrix} =AB= \begin{pmatrix} 0&1\\ 1&0 \end{pmatrix} \begin{pmatrix} b_{11}&b_{12}\\ b_{21}&b_{22} \end{pmatrix} = \begin{pmatrix} b_{21}&b_{22}\\ b_{11}&b_{12} \end{pmatrix}$ eli on oltava $B= \begin{pmatrix} 0&1\\ 1&0 \end{pmatrix} =A.$ Koska nyt myös BA=AA=I_2 , niin on itsensä käänteismatriisi.

Determinantti

Neliömatriisin kääntyvyyttä voidaan testata determinantin avulla. $2\times 2$ -matriisin $A= \begin{pmatrix} a_{11}&a_{12}\\ a_{21}&a_{22} \end{pmatrix}$ determinatti on reaaliluku $\det A= \begin{vmatrix} a_{11}&a_{12}\\ a_{21}&a_{22} \end{vmatrix} =a_{11}a_{22}-a_{12}a_{21}.$

Käänteismatriisin määritelmän avulla on helppo näyttää, että jos $\det A\ne0$ , niin on kääntyvä ja $A^{-1}= \frac1{\det A} \begin{pmatrix} a_{22}&-a_{12}\\ -a_{21}&a_{11} \end{pmatrix}.$

Esimerkki

Lasketaan matriisin $A =\begin{pmatrix} 2&3\\ 1&2 \end{pmatrix}$ käänteismatriisi kahdella tavalla.

Jos on matriisin käänteismatriisi, niin on $\begin{pmatrix} 2&3\\ 1&2 \end{pmatrix} \begin{pmatrix} b_{11}&b_{12}\\ b_{21}&b_{22} \end{pmatrix} =\begin{pmatrix} 1&0\\ 0&1 \end{pmatrix}.$ Vastaavan yhtälöryhmä $\begin{cases} 2b_{11}+3b_{21}&=1\\ 2b_{12}+3b_{22}&=0\\ b_{11}+2b_{21}&=0\\ b_{12}+2b_{22}&=1 \end{cases}$ hajoaa kahdeksi yhtälöryhmäksi $\begin{cases} 2b_{11}+3b_{21}&=1\\ b_{11}+2b_{21}&=0 \end{cases}$ ja $\begin{cases} 2b_{12}+3b_{22}&=0\\ b_{12}+2b_{22}&=1, \end{cases}$ jotka ratkaisemalla saadaan $b_{11}=2$ , $b_{21}=-1$ , $b_{12}=-3$ , $b_{22}=2$ .

Siten on $A^{-1}=B =\begin{pmatrix} 2&-3\\ -1&2 \end{pmatrix}$ .

Determinantin avulla käänteismatriisin laskeminen on helppoa. Koska $\det A=4-3=1$ , niin $A^{-1} =\frac1{1} \begin{pmatrix} 2&-3\\ -1&2 \end{pmatrix} =\begin{pmatrix} 2&-3\\ -1&2 \end{pmatrix}.$

Kun $n\ge3$ , niin determinantti määritellään alimatriisien determinanttien avulla.

$3\times 3$ -matriisille $A=(a_{ij})$ on $\det A= a_{11} \begin{vmatrix} a_{22}&a_{23}\\ a_{32}&a_{33} \end{vmatrix} -a_{12} \begin{vmatrix} a_{21}&a_{23}\\ a_{31}&a_{33} \end{vmatrix} +a_{31} \begin{vmatrix} a_{21}&a_{22}\\ a_{31}&a_{32} \end{vmatrix}.$ Summassa on kolmen matriisin alimatriisin determinantit: matriisi $A_{ij}$ saadaan poistamalla matriisista . sarake ja . rivi. Näiden matriisien determinantit kerrotaan matriisin komponentilla $a_{ij}$ vaihtuvin etumerkein eli $\det A=a_{11}\det A_{11}-a_{12}\det A_{12}+a_{13}\det A_{13}.$

Yleiselle $n\times n$ -matriisille $A=(a_{ij})$ determinantti lasketaan samaan tapaan, $\begin{aligned} \det A &=a_{11}\det A_{11}-a_{12}\det A_{12}+\dots (-1)^{1+n}a_{1n}\det A_{1n}\\ &=\sum_{k=1}^na_{1k}(-1)^{1+k}\det A_{1k}, \end{aligned}$ missä alimatriisi $A_{ij}$ saadaan poistamalla matriisista . rivi ja . sarake.

Determinantti voidaan laskea myös muun kuin ensimmäisen sarakkeen tai minkä tahansa rivin ja vastaavien alimatriisien avulla, $\det A =\sum_{k=1}^na_{ik}(-1)^{i+k}\det A_{ik} =\sum_{k=1}^na_{kj}(-1)^{k+j}\det A_{kj}.$ Jos matriisin joku rivi tai sarake sisältää pelkkiä nollia, niin laskemalla determinantti tämän rivin tai sarakkeen avulla nähdään, että determinantti on nolla.

Jos on $n\times n$ ylä- tai alakolmiomatriisi, erityisesti siis jos se on diagonaalimatriisi, niin determinantti on diagonaalialkioiden tulo $\det A=a_{11}\cdot a_{22}\cdots a_{nn}.$

Jos ja ovat $n\times n$ -matriiseja, niin $\det AB=\det A\det B.$

Kääntyvyydellä ja determinantilla on yhteys yleisilläkin neliömatriiseilla: $n\times n$ -matriisi on kääntyvä jos ja vain jos $\det A\ne 0$ . Tällöin $\det A^{-1}=\frac1{\det A}.$

Geometrisesti $2\times 2$ -matriisin $A=\begin{pmatrix} a&b\\ c&d \end{pmatrix}$ determinantti kertoo vektoreiden (a,c) ja (b,d) virittämän suunnikkaan pinta-alan ja vastaavasti $3\times 3$ -matriisin $B=\begin{pmatrix} a&b&c\\ d&e&f\\ g&h&i \end{pmatrix}$ determinantti kertoo vektoreiden (a,d,g) , (b,e,h) ja (c,f,i) virittämän suuntaissärmiön tilavuuden.

Esimerkki

Matriisin $A= \begin{pmatrix} 3&5&2\\ 4&2&3\\ -1&2&4 \end{pmatrix}$ determinantti on $\begin{aligned} \det A &= 3\ \begin{vmatrix} 2&3\\ 2&4 \end{vmatrix} -5\begin{vmatrix} 4&3\\ -1&4 \end{vmatrix} +2\begin{vmatrix} 4&2\\ -1&2 \end{vmatrix}\\ &=3(2\cdot4-3\cdot2)-5(4\cdot4-3\cdot(-1))+2(4\cdot2-2\cdot(-1)=-69. \end{aligned}$

3.2.6 Harjoitustehtäviä

Todista kaava .
Miksi käänteismatriisi määritellään vain neliömatriiseille?
Olkoon kääntyvä neliömatriisi. Osoita, että käänteismatriisi on yksikäsitteinen. (Oleta, että matriisilla oli kaksi käänteismatriisia ja ja näytä, että on .)
Näytä, että kaava $A^{-1}= \frac1{\det A} \begin{pmatrix} a_{22}&-a_{12}\\ -a_{21}&a_{11} \end{pmatrix}$ antaa $2\times2$ -matriisin käänteismatriisin.
Olkoon $A=\begin{pmatrix} 2&-4\\ 1&3 \end{pmatrix}$ . Onko kääntyvä? Jos on, niin etsi $A^{-1}$ .
Olkoot $A=\begin{pmatrix} 2&-3&5\\ 1&0&4\\ 3&-3&9 \end{pmatrix}$ ja $B=\begin{pmatrix} 2&-3&5\\ 0&1&4\\ 0&0&9 \end{pmatrix}$ . Laske matriisien ja determinantit.
Todista determinantin tulokaava $2\times 2$ -matriiseille.

Symmetriset matriisit ja ortogonaaliset matriisit

Joissain tilanteissa tarvitaan matriisia, jossa alkuperäisen matriisin rivit vaihdetaan sarakkeiksi ja päinvastoin eli matriisi heijastetaan diagonaalinsa suhteen.

Olkoon $A=(a_{ij})$ $m\times n$ -matriisi. Matriisi $A^T=(a_{ji})$ , $A= \begin{pmatrix} a_{11}&a_{12}&\cdots&a_{1n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{m1}&a_{m2}&\cdots&a_{mn} \end{pmatrix}, \quad A^T= \begin{pmatrix} a_{11}&a_{21}&\cdots&a_{m1}\\ a_{12}&a_{22}&\cdots&a_{m2}\\ \vdots&\vdots&\cdots&\vdots\\ a_{1n}&a_{2n}&\cdots&a_{mn} \end{pmatrix},$ on matriisin transpoosi.

Jos on neliömatriisi eli m=n ja A^T=A , niin on symmetrinen.

Esimerkki

Olkoot $A= \begin{pmatrix} 0&1&2\\ 1&0&3 \end{pmatrix}$ ja $B= \begin{pmatrix} 0&1&2\\ 1&0&3\\ 2&3&2 \end{pmatrix}$ .

Matriisin transpoosi on $A^T= \begin{pmatrix} 0&1\\ 1&0\\ 2&3 \end{pmatrix}$ ja B^T=B . Matriisi on siis symmetrinen.

Rivivektorin $v=(v_1,v_2,\dots v_n)$ transpoosi on sarakevektori, jolla on samat komponentit. Vastaavasti sarakevektorin transpoosi on rivivektori, jolla on samat komponentit kuin alkuperäisellä sarakevektorilla. Vektoreiden transpooseja käytetään erityisesti siihen, että vektoreiden ja matriisien väliset laskutoimitukset saadaan muodollisesti oikeiksi.

Jos on $m\times n$ -matriisi ja on $n\times p$ -matriisi, niin transpooseille pätee $(A^T)^T=A \quad\text{ja}\quad (AB)^T=B^TA^T.$ Jos n=p , niin (A+B)^T=A^T+B^T. Jos m=n , niin $\det A=\det A^T.$ Jos on kääntyvä, niin myös A^T on kääntyvä ja $(A^T)^{-1}=(A^{-1})^T.$

Myöhemmin nähdään, että symmetrisillä matriiseilla on hyödyllisiä ominaisuuksia. Siksi niitä pyritään käyttämään matriisihajotelmissa.

Olkoon $A=(a_{ij})$ $n\times n$ -matriisi. Matriisi on ortogonaalinen, jos on kääntyvä ja $A^{-1}=A^T.$

Ortogonaaliselle matriisille siis A^TA=AA^T=I_n . Matriisi on ortogonaalinen jos ja vain jos sen sarakevektorit $(a_{1j},\dots,a_{nj})^T$ , $j\in \{1,2,\dots,n\}$ , muodostavat ortonormaalin joukon.

Olkoot $u_1,u_1,\dots,u_m$ -ulotteisia vektoreita. Joukko $\{u_1,u_2,\dots,u_m\}$ on ortonormaali, jos $u_i\cdot u_i=0$ kaikilla $i,j\in\{1,2,\dots,m\}$ kun $i\ne j$ ja $u_i\cdot u_i=1$ kaikilla $i\in\{1,2,\dots,m\}$ (eli vektorit ovat kohtisuorassa toisiaan vastaan ja niiden pituus on .)

3.2.7 Harjoitustehtäviä

Olkoot $A= \begin{pmatrix} 1&4&2\\ 4&1&4\\ 2&4&3 \end{pmatrix} \quad\text{ ja }\quad B= \begin{pmatrix} 1&2&3\\ 4&5&6\\ 7&8&9 \end{pmatrix}.$ Etsi matriisien ja ja tulon transpoosit. Onko tai symmetrinen?
Olkoot $u=(u_1,u_2,\dots,u_n)$ ja $v=(v_1,v_2,\dots,v_n)$ . Miten sisätulo $u\cdot v$ voidaan esittää transpoosien avulla?
Olkoon $A=(a_{ij})$ $n\times n$ -matriisi. Osoita, että $\frac12(A+A^T)$ on symmetrinen.

# matriisit-ja-lineaariset-yhtälöryhmät

Matriisit ja lineaariset yhtälöryhmät

Jatketaan yhtälön ja muuttujan yhtälöryhmän tarkastelua. Kun yhtälöiden kertoimista muodostetaan matriisi ja muuttujista ja yhtälöiden oikeista puolista vektorit, $A= \begin{pmatrix} a_{11}&a_{12}&\cdots&a_{1n}\\ a_{21}&a_{22}&\cdots&a_{2n}\\ \vdots&\vdots&\cdots&\vdots\\ a_{m1}&a_{m2}&\cdots&a_{mn} \end{pmatrix}, \quad x= \begin{pmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{pmatrix} \quad\text{ja}\quad b= \begin{pmatrix} b_1\\ b_2\\ \vdots\\ b_m \end{pmatrix},$ niin yhtälöryhmä voidaan kirjoittaa muodossa Ax=b.

Jos yhtälöitä ja tuntemattomia on yhtä monta, kappaletta, niin on neliömatriisi. Jos matriisi on kääntyvä, niin yhtälöryhmän ratkaisu löydetään käänteismatriisin avulla. Käänteismatriisin ominaisuuksien perusteella on $Ax=b\iff A^{-1}A x=A^{-1}b\iff I_nx=A^{-1}b\iff x=A^{-1}b$ eli yhtälöryhmällä Ax=b on yksikäsitteinen ratkaisu jos ja vain jos matriisi on kääntyvä eli jos ja vain jos $\det A\ne0$ .

Teoriassa yhtälöryhmän ratkaisu löydetään siis käänteismatriisin avulla mikäli se on olemassa. Käänteismatriisin laskeminen on kuitenkin raskasta, joten kääntämisen sijaan ratkaisussa käytetään erilaisia matriisihajotelmia.

Esimerkki

Yhtälöryhmää $\begin{cases} 2x_1+4x_2+3x_3&=6\\ x_2-x_3&=-4\\ 3x_1+5x_2+7x_3&=7 \end{cases}$ vastaava matriisiyhtälö on Ax=b , missä $A= \begin{pmatrix} 2&4&3\\ 0&1&-1\\ 3&5&7 \end{pmatrix} \quad\text{ja}\quad b= \begin{pmatrix} 6\\ -4\\ 7 \end{pmatrix}.$ Matriisi on kääntyvä, joten $x=A^{-1}b= \begin{pmatrix} 4&-\frac{13}3&-\frac73\\ -1&\frac{5}3&\frac23\\ -1&\frac{2}3&\frac23 \end{pmatrix}\cdot \begin{pmatrix} 6\\ -4\\ 7 \end{pmatrix} = \begin{pmatrix} 25\\ -8\\ -4 \end{pmatrix}.$

3.2.8 Harjoitustehtäviä

Opiskele Gauss-Jordan menetelmä yhtälöryhmien ratkaisemiseksi.

3.2.9 Ominaisarvot ja ominaisvektorit

Olkoon $n\times n$ -matriisi. Luku $\lambda$ (reaali- tai kompleksiluku) on matriisin ominaisarvo, jos on $v\in\mathbb R^n$ , joka ei ole nollavektori, jolle $Av=\lambda v.$ Tällöin on ominaisarvoa $\lambda$ vastaava ominaisvektori.

Ominaisarvon ja -vektorin määritelmistä nähdään, että $\lambda$ on matriisin ominaisarvo ja $v\ne0$ vastaava ominaisvektori jos ja vain jos $(A-\lambda I_n)v=0$ . Tällä yhtälöllä on nollavektorista poikkeava ratkaisu jos ja vain jos $\det(A-\lambda I_n)= 0.$ Yhtälöä $\det(A-\lambda I_n)= 0$ sanotaan karakteristisekssi yhtälöksi ja sen vasenta puolta karakteristiseksi polynomiksi.

Matriisin ominaisavot löydetään siis ratkaisemalla karakteristinen yhtälö. Algebran peruslause sanoo, että . asteen polynomilla on nollakohtaa kompleksilukujen joukossa. Siten karakteristisella polynomilla on juurta ja matriisilla ominaisarvoa, joista osa voi olla moninkertaisia.

Ominaisarvot ja -vektorit etsitään siis seuraavalla tavalla:

Muodosta karakteristinen yhtälö $p(\lambda)=\det(A-\lambda I_n)$ =0.
Etsi ominaisarvot eli karakteristisen yhtälön juuret $\lambda_1,\dots,\lambda_n$ .
Etsi ominaisarvoja $\lambda_1,\dots,\lambda_n$ vastaavat ominaisvektorit ratkaisemalla yhtälöt $(A-\lambda_i I_n)v=0.$

Jos $n\times n$ matriisilla on eri ominaisarvoa $\lambda_1$ , $\lambda_2, \dots$ , $\lambda_n$ , niin vastaavat ominaisvektorit v_1 , $v_2,\dots$ , v_n ovat lineaarisesti riippumattomia.

Lineaarinen riippumattomuus tarkoittaa sitä, että jos on luvut c_1 , $c_2,\dots$ , c_n , joille $\sum_{i=1}^n c_iv_i=0,$ niin c_i=0 kaikilla $i\in\{1,2,\dots,n\}$ . Tämä on yhtäpitävää sen kanssa, että vektoreista v_i muodostetun matriisin determinantti ei ole nolla.

Esimerkki

Olkoon $A= \begin{pmatrix} 4&2\\ 3&3 \end{pmatrix}.$ Karakteristinen yhtälö on $\begin{aligned} \det(A-\lambda I) &= \begin{vmatrix} 4-\lambda&2\\ 3&3-\lambda \end{vmatrix}\\ &=(4-\lambda)(3-\lambda)-6\\ &=\lambda^2-7\lambda+6=0. \end{aligned}$ Sen ratkaisut ovat $\lambda=\frac{7\pm\sqrt{49-24}}2$ eli matriisin ominaisarvot ovat $\lambda_1=1$ ja $\lambda_2=6$ .

Ominaisarvoa $\lambda_1=1$ vastaava ominaisvektori toteuttaa yhtälön (A-I)v=0 eli $\begin{pmatrix} 3&2\\ 3&2 \end{pmatrix} \ \begin{pmatrix} v_1\\ v_2 \end{pmatrix}= \begin{pmatrix} 0\\ 0 \end{pmatrix}.$ Ominaisvektoreita ovat siis vektorit v=(v_1,v_2) , joille 3v_1+2v_2=0 , esimerkiksi (2,-3) .

Ominaisarvoa $\lambda_2=6$ vastaava ominaisvektori toteuttaa yhtälön (A-6I)v=0 eli $\begin{pmatrix} -2&2\\ 3&-3 \end{pmatrix} \ \begin{pmatrix} v_1\\ v_2 \end{pmatrix}= \begin{pmatrix} 0\\ 0 \end{pmatrix}.$ Ominaisvektoreita ovat siis vektorit v=(v_1,v_2) , joille v_1=v_2 , esimerkiksi (1,1) .

# py9

3.2.10 Harjoitustehtäviä

Etsi matriisien $A=\begin{pmatrix} 2&-1\\ -4&2 \end{pmatrix}$ ja $B=\begin{pmatrix} 4&0\\ 0&4 \end{pmatrix}$ ominaisarvot ja -vektorit.

3.2.11 Matriisihajotelmia

Matriisit pyritään monesti esittämään kahden tai kolmen matriisin tulona, jossa tulon matriisit ovat symmetrisiä tai diagonaali- tai kolmiomatriiseja. Esimerkiksi yhtälöryhmiä ratkaisevat ja käänteismatriiseja tai determinantteja laskevat algoritmit tehdään hajotelmien avulla.

LU-hajotelma

LU-hajotelmassa neliömatriisi esitetään ala- ja yläkolmiomatriisien tulona A=LU , missä alakolmiomatriisin diagonaalialkiot ovat ykkösiä. $\begin{pmatrix} a_{11}&a_{12}&\cdots &a_{1n}\\ a_{21}&a_{22}&\cdots &a_{23}\\ \vdots& &&\vdots\\ a_{n1}&a_{n2}&\cdots &a_{n3} \end{pmatrix} = \begin{pmatrix} 1&0&\cdots &0\\ \ell_{21}&1&\cdots &0\\ \vdots& &&\vdots\\ \ell_{n1}&\ell_{n2}&\cdots &1 \end{pmatrix} \begin{pmatrix} u_{11}&u_{12}&\cdots &u_{1n}\\ 0&\cdots &u_{22}&u_{23}\\ \vdots& &&\vdots\\ 0&0&\cdots &u_{nn} \end{pmatrix}.$

"LU-hajotelmassa neliömatriisi esitetään ala- ja yläkolmiomatriisien tulona A=LUA=LUA=LU, missä alakolmiomatriisin LLL diagonaalialkiot ovat nollia." tulisi olla "LU-hajotelmassa neliömatriisi esitetään ala- ja yläkolmiomatriisien tulona A=LUA=LUA=LU, missä alakolmiomatriisin LLL diagonaalialkiot ovat ykkösiä. "

— 05 Feb 18

Ykkösiä pitää olla. Kiitos.

— 05 Sep 18

Jokaisella kääntyvällä matriisilla on LU-hajotelma mutta matriisille joudutaan joskus tekemään rivioperaatioita ennen hajotelmaa: Huomaa, että koska $a_{11}=\ell_{11}u_{11}$ , niin jos $a_{11}=0$ , niin joko $\ell_{11}=0$ tai $u_{11}=0$ . Koska kolmiomatriisin determinantti on diagonaalialkioden tulo, niin tästä seuraa, että joko $\det L=0$ tai $\det U=0$ . Siten olisi $\det A=\det L\det U=0$ . Kuitenkin kääntyvälle matriisille on $\det A\ne 0$ mutta voi olla $a_{11}=0$ .

Esimerkki

Etsitään matriisin $A= \begin{pmatrix} 4&3\\ 6&3 \end{pmatrix}$ LU-hajotelma eli matriisit ja , joille $A= \begin{pmatrix} 4&3\\ 6&3 \end{pmatrix} = \begin{pmatrix} 1&0\\ \ell_{21}&1 \end{pmatrix} \begin{pmatrix} u_{11}&u_{12}\\ 0&u_{22} \end{pmatrix}.$ Vastaava yhtälöryhmä on $\begin{cases} u_{11}&=4\\ u_{12}&=3\\ \ell_{21}u_{11}&=6\\ \ell_{21}u_{12}+u_{22} &=3 \end{cases}$ ja sen ratkaisu $u_{11}=4$ , $u_{12}=3$ , $u_{22}=-\frac32$ , $\ell_{21}=\frac32$ .

Siten $A= \begin{pmatrix} 4&3\\ 6&3 \end{pmatrix} =\begin{pmatrix} 1&0\\ \frac 32&1 \end{pmatrix}\begin{pmatrix} 4&3\\ 0&-\frac32 \end{pmatrix}.$

3.2.12 Harjoitustehtäviä

Olkoon $A= \begin{pmatrix} 1&2\\ 3&4 \end{pmatrix}$ . Etsi matriisin -hajotelma.

# lisätietoa-lineaarialgebrasta

Lisätietoa lineaarialgebrasta

3.3 Harjoitustehtäviä Pythonilla

Kurssin yhteydessä tutustutaan myös Python-kieleen ja sen matematiikkaan liittyviin kirjastoihin.

# linkkeja

Python-, Numpy- ja SymPy-linkkejä

Lineaarialgebraa NumPyn avulla

Käy läpi NumPy-kirjaston lineaarialgebran rutiineja.

Ota NumPy käyttöön komennolla

import numpy

tai kaikki rutiinit komennolla

from numpy import *

Edellisessä tapauksessa rutiineja käytettäessä rutiiniin nimen eteen pitää lisätä numpy. jälkimmäisessä riittää pelkkä rutiinin nimi. Esimerkiksi alla ensimmäisessä tehtävässä numpy.dot(u,v)tai dot(u,v).

Ota lineaarialgebrarutiinit käyttöön komennolla

from numpy import linalg

Jos haluat käyttää harjoituksissa lyhyempiä komentoja, joissa linalg-osan voi korvata haluamallaan kirjainyhdistelmällä, niin ota rutiinit käyttöön esimerkiksi komennolla

from numpy import linalg as la

jolloin esimerkiksi 6. tehtävän komento on la.norm(v).

Ohjeita löytyy SciPy-sivulta.

Tehtävissä on tarkoituksella sellaiset matriisit ja vektorit, että tulokset on helppo laskea paperillakin. Kokeile eri toimintoihin suurempiakin matriiseja.

3.3.1 Harjoitustehtäviä

Laske vektoreiden ja sisätulo. numpy.dot(u,v) dot(u,v)
Laske matriisien $A= \begin{pmatrix} 1&2\\ 3&1 \end{pmatrix}$ ja $B= \begin{pmatrix} 1&0&1\\ 0&1&0 \end{pmatrix}$ tulo.

```
A=numpy.array([[1,2],[3,1]])
...
numpy.dot(A,B)
```

Laske edellisen tehtävän matriisin kolmas potenssi.

```
linalg.matrix_power(A,3)
```

Etsi matriisin $A= \begin{pmatrix} 1&1\\ 1&0 \end{pmatrix}$ käänteismatriisi ja determinantti.

```
linalg.inv(A)
linalg.det(A) 
```

Laske matriisin $A= \begin{pmatrix} 1&1&3\\ 2&1&4 \end{pmatrix}$ transpoosi. numpy.transpose(A)
Laske vektorin ja matriisin $A= \begin{pmatrix} 1&2\\ 0&2 \end{pmatrix}$ normit. Ilman parametrja lasketaan standardinormi eli komponenttien itseisarvojen neliöiden summan neliöjuuri.

```
linalg.norm(v)
linalg.norm(A)
```

Parametreilla saadaan selville esimerkiksi vektorin itseisarvoltaan suurin 
komponetti ja matriisin suurin rivien itseisarvojen summa.

```
linalg.norm(v,numpy.inf) 
linalg.norm(A,numpy.inf)
```

Luo $2\times 3$ nollamatriisi, $5\times 4$ pelkkiä ykkösiä sisältävä matriisi, $4\times 5$ pelkkiä ykkösiä kokonaislukuina sisältävä matriisi sekä $5\times 5$ yksikkömatriisi.

```
numpy.zeros((3,4))
numpy.ones((5,4))
numpy.ones((4,5),dtype=numpy.int)
numpy.matlib.identity(5)
```

Laske matriisin $A= \begin{pmatrix} 1&0\\ 0&1 \end{pmatrix}$ ominaisarvot ja vastaavat ominaisvektorit. linalg.eig(A)
Ratkaise yhtälöryhmä $\begin{cases} 3x_1+x_2&=9\\ x_1+2x_2&=8. \end{cases}$ Yhtälöryhmää vastaava matriisiyhtälö on , missä $A= \begin{pmatrix} 3&1\\ 1&2 \end{pmatrix}$ ja $b= \begin{pmatrix} 9\\ 8 \end{pmatrix}$ . numpy.linalg.solve(A,b)
Opiskele pienimmän neliösumman esimerkki ja etsi sitä muokkaamalla pienimmän neliösumman suora pistepareille , , ja

Lineaarialgebraa SymPyn avulla

Käy läpi symbolisen matematiikan kirjaston SymPyn lineaarialgebran rutiineja. Ota SymPy käyttöön komennolla

import sympy

tai kaikki rutiinit komennolla

from sympy import *

Edellisessä tapauksessa rutiineja käytettäessä rutiiniin nimen eteen pitää lisätä numpy. jälkimmäisessä riittää pelkkä rutiinin nimi.

3.3.2 Harjoitustehtäviä

Luo matriisi $A= \begin{pmatrix} 1&2&3\\ 4&5&6 \end{pmatrix}$ sekä riveittäin että rivi- ja sarakekokojen avulla.
```
Matrix([[1,2,3],[4,5,6]]) 
Matrix(2,3,[1,2,3,4,5,6])
```
Luo $2\times 3$ nollamatriisi, $5\times 4$ vain ykkösiä sisältävä matriisi, $5\times 5$ yksikkömatriisi ja diagonaalimatriisi, jonka diagonaalilla ovat luvut .

```
zeros(2,3)
ones(5,4)
eye(5)
diag(1,2,3,4,5)
```

Laske matriisien $A= \begin{pmatrix} 1&2&3\\ 3&2&1 \end{pmatrix}$ ja $B= \begin{pmatrix} 0\\ 1\\ 1 \end{pmatrix}$ tulo. A*B
Pyydä äskeisen tehtävän matriisin rivejä ja sarakkeita (ensimmäinen 0, viimeinen -1). A.row(0) A.col(0)
Poista ja lisää edellisien tehtävien matriisista rivejä ja sarakkeita. Palauta alkuperäinen matriisi poistamisten jälkeen tai muuta tarvittaessa lisäystehtävien dimensioita. Huomaa, että lisäykset eivät muuta alkuperäistä matriisia.

```
A.row_del(0)
A.col_del(0)
A.row_insert(1,Matrix([[0,1,1]]))
A.col_insert(1,Matrix([[0],[1]]))
```

Laske matriisien $A= \begin{pmatrix} a&b\\ c&d \end{pmatrix}$ ja $B= \begin{pmatrix} e&f\\ g&h \end{pmatrix}$ tulo ja summa.

```
a,b,c,d,e,f,g,h=symbols('a b c d e f g h') 
A=Matrix([[a,b],[c,d]])
```

Laske edellisen tehtävän matriisin tulo itsensä kanssa, käänteismatriisi ja determinantti.

```
A**2
A**-1
A.det()
```

Laske matriisin $A= \begin{pmatrix} a&b&c\\ d&e&f \end{pmatrix}$ transpoosi. A.T
Muunna matriisi $A= \begin{pmatrix} 1&2&3\\ 4&5&6\\ 7&8&9 \end{pmatrix}$ Gauss-Jordan menetelmässä tavoiteltuun muotoon (reduced row echelon form).

```
A.rref()
```

Laske matriisin $A= \begin{pmatrix} 3&-2&4&2\\ 5&3&-3&-2\\ 5&-2&2&-2\\ 5&-2&-3&3 \end{pmatrix}$ ominaisarvot ja niiden kertaluvut, ominaisvektorit ja karakteristinen polynomi.

```
A.charpoly()
A.eigenvals()
A.eigenvects()
lamda=symbols('lamda')
p=A.charpoly(lamda)
factor(p)
```

Diagonalisoi edellisen tehtävän matriisi eli etsi diagonaalimatriisi ja matriisi , joille $A=PDP^{-1}$ . Muista matriisien ja yhteys ominaisarvoihin ja -vektoreihin.

```
P,D=A.diagonalize()
```

Matrix(2,3[1,2,3,4,5,6]) on väärin, ei voi ottaa hakasulkeilla 3:sta mitään. Pitäisi olla Matrix(2,3,[1,2,3,4,5,6])

— 24 Nov 17

Kiitos!

— 27 Nov 17

Analyysia SymPyn avulla

Harjoittele SymPyn analyysiin liittyviä rutiineja. Kokeile rutiineja muihinkin kuin tehtävissä mainittuihin funktioihin ja yhtälöihin ja tutustu rutiineihin liittyvään dokumentaatioon. Ota SymPyn rutiinit käyttöön komennolla

from sympy import *

SymPy-kirjastoa voi testata myös SymPy Liven avulla. Siinä SymPy toimii Google App Enginen avulla.

3.3.3 Harjoitustehtäviä

Symbolisen ja numeerisen laskennan ero: Vertaa Pythonin math-kirjaston ja SymPyn neliöjuurifunktioiden toimintaa. Ota math-kirjasto käyttöön komennolla import math. Testaa komentoja math.sqrt(8) ja sympy.sqrt(8)
symbols, *, expand, factor: Tarkastele SymPyn laskutoimituksia ja symbolisten lausekkeiden käsittelyä. Esittele symboliset muuttujat ja testaa laskuja ja tekijöihin jakoa. x,y,z=symbols('x y z') a=2*x+y-z a-y y*a ea=expand(y*a) ea factor(ea)
simplify, exp, : Harjoittele lausekkeiden sieventämistä. simplify((x**2-x-2)/(x-2)) simplify((x-1)*(x+1)) simplify(exp(x)*exp(y))
diff: Laske funktioiden , ja , $f(x)=cos(2x), \quad g(x)=x^3y+4x^2+3x, \quad h(x)=e^{x^4}$ derivaatat. h=exp(x**4) diff(h,x)
Osittaisderivaatat: Laske esimerkin funktion (osittais)derivaatta muuttujan suhteen. $x(t)=2t, \quad y(t)=t^2-1\quad\text{ja}\quad f(x,y)=x^2-2xy.$
Osittaisderivaatat: Laske funktioiden , , , $f(x,y,z)=e^{xyz},\quad g(x,y)=3x^2+x^2y-4xy, \quad h(x,y,z)=\frac{1}{x^2+y^2+1}+z^3x$ osittaisderivaatat muuttujien , ja suhteen.
limit: Laske edellisen tehtävän funktioiden raja-arvoja, esimerkiksi $\lim_{x\to0}f(x,y,z),\quad \lim_{y\to1}f(x,y,z),\quad \lim_{y\to0}g(x,y),\quad \lim_{y\to\infty}h(x,y,z).$ limit(f,x,0) Huomaa, että ääretön $\infty$ kirjoitetaan kahdella pienellä o-kirjaimella "oo".
solveset: Harjoittele yhtälöitä algebrallista ratkaisemista. Ratkaise toisen asteen yhtälö sekä yhtälöt ja . solveset(x**2+x-2,x) solveset(exp(x)-1,x,domain=S.Reals) Huomaa, että oletuksena yhtälön oikea puoli on . solveset(x**2+x-2,x) on sama kuin solveset(Eq(x**2+x-2,0),x)
Piirtäminen: Harjoittele 2- ja 3-ulotteisten funktioiden kuvaajien piirtämistä. Piirrä sigmoid-funktio ja funktiot ja . Testaa piirtämiseen liittyviä parametreja. plot((1+exp(-x))**(-1),(x,-4,4),axis_center='center') plotting.plot3d(f,(x,-1,1),(y,-1,1)) plotting.plot3d(g,(x,-1,1),(y,-1,1)) plotting.plot3d(f,g,(x,-1,1),(y,-1,1))

Johdatus tekoälyn taustalla olevaan matematiikkaan (Heli Tuominen)

1. Koneoppiminen (Machine learning)

Luokittelualgoritmeja

Lisätietoa koneoppimisesta

2. Keinotekoiset neuroverkot (Artificial neural networks)

Esimerkki

2.1 Neuroverkkoihin liittyviä määritelmiä ja merkintöjä

Neuroni

Kaavat vektorimuodossa

Huomautus

2.1.1 Harjoitustehtäviä

2.2 Perseptroni (Perceptron)

Lause

Esimerkki

Esimerkki

2.2.1 Harjoitustehtäviä

2.3 Aktivointifunktiot (Activation functions)

Sigmoid-funktio (logistinen funktio)

Hyperbolinen tangentti (tanh)

ReLu (Rectified Linear Unit)

Universaali approksimointilause

Lause

2.3.1 Harjoitustehtäviä

Lisätietoa aktivointifunktioista

2.4 Neuroverkon opettaminen

2.4.1 Vastavirta-algoritmi (backpropagation)

Virhefunktion osittaisderivaatat ulostulokerroksen parametrien suhteen

Esimerkki

Osittaisderivaatat painojen suhteen

Osittaisderivaatat vakiotermien suhteen

Huomautus

Osittaisderivaatat piilokerroksen painojen suhteen

Osittaisderivaatat piilokerroksen vakiokertoimien suhteen

Huomioita osittaisderivaattojen kaavoista

2.4.2 Harjoitustehtäviä

Lisätietoa vastavirta-algoritmista

2.4.3 Gradienttimenetelmä (gradient descent)

Verkon opettamisen vaiheet

Gradienttimenetelmän eri versioita

(Satsi)gradienttimenetelmä (Gradient descent/ batch gradient descent/ vanilla gradient descent)

Stokastinen gradienttimenetelmä

Minisatsi gradienttimenetelmä (mini batch gradient descent)

Lisätietoa gradienttimenetelmästä

2.4.4 Virhefunktiot

Lisätietoa virhefunktioista

2.4.5 Yli- ja alisovittaminen (Overfitting/underfitting)

Opetusesimerkkijoukon kasvattaminen

Aikainen lopettaminen

Osittainen poistaminen

Säännöstely

Lisätietoa yli- ja alisovittamisesta

2.4.6 Muita virhefunktion minimointikeinoja

Lisätietoa verkon opettamisesta

3. Matematiikkaa

3.1 Analyysia

3.1.1 Funktio

Esimerkki

3.1.2 Harjoitustehtäviä

Affiini funktio

Esimerkki

Kasvava ja vähenevä funktio

Esimerkki

Yhdistetty funktio

Esimerkki

3.1.3 Derivaatta

Huomautus

Tangenttitulkinta

Esimerkki

Derivoituvien funktioiden ominaisuuksia

Joidenkin funktioiden derivaattoja

Lause (Ketjusääntö)

Esimerkki

Derivaatta ja funktion käyttäytyminen

Esimerkki

3.1.4 Harjoitustehtäviä

Reaalifunktion ääriarvoista

Lause (Ääriarvolause)

Esimerkki

Esimerkki

3.1.5 Harjoitustehtäviä

Osittaisderivaatat painojen $w^L_{ij}$ suhteen

Osittaisderivaatat vakiotermien $b^L_{j}$ suhteen

Osittaisderivaatat piilokerroksen painojen $w_{ij}^l$ suhteen

Osittaisderivaatat piilokerroksen vakiokertoimien $b_{j}^l$ suhteen