Sarrerako bideoa
Bideo honetan azaltzen da AAren atzean dagoen teknologia eta nola ikasten duten sistemek datuetatik.
Machine Learning (Ikaskuntza Automatikoa)
Adimen Artifizialaren adar bat da. Makinei pausoz pausoko arauak programatu beharrean, datu-multzoak ematen zaizkie ereduak eta patroiak inferitu ditzaten.
- Prozesua: Datu-sarrera → Algoritmoaren entrenamendua → Ereduaren sorrera → Iragarpena edo sailkapena.
- Aplikazioa: Ordenagailu bati katu bat identifikatzen irakasteko, ez zaizkio katu baten ezaugarri geometrikoak programatzen. Milaka katu-irudi prozesatzen ditu, ezaugarri komunak estatistikoki identifikatu arte.
Sare Neuronalak eta Deep Learning
Ikaskuntza automatikoaren azpisistema aurreratua da, giza burmuineko neuronen egitura biologikoan formalki oinarritua, baina funtzionamendu matematiko hutsekoa.
Datu gordinak (irudi baten pixelak, adibidez) jasotzen dituen nodo-multzoa.
Datuen ezaugarri konplexuak erauzten dituzten nodoak. Zenbat eta geruza gehiago, orduan eta "sakonagoa" da sarea (Deep Learning). Geruza batek ertzak detektatzen ditu, hurrengoak formak, eta hurrengoak objektuak.
Probabilitate altuena duen erantzuna itzultzen du.
Funtsezko Printzipioak Ikasleentzat
Eredu baten ahalmena zuzenki proportzionala da entrenamendu-datuen kantitateari eta kalitateari. Datu barik ez dago ikaskuntzarik.
Adimen artifizialak ez du "ulertzen". Probabilitate eta estatistika aurreratua erabiltzen ditu hurrengo hitza, pixela edo erabakia kalkulatzeko.
Entrenamendu-datuek giza-aurreiritziak edo akatsak badituzte, eredu matematikoak akats horiek erreproduzitu eta anplifikatuko ditu emaitzetan.
Datuen garrantzia kritikoa
Datuak ML sistemen “elikagaia” dira, eta haien kalitateak zuzenean eragiten du emaitzetan. Datu gutxi badaude, sistemak ez du behar adina patroi aurkituko; datuak txarrak badira, emaitzak ere txarrak izango dira.
Sistemak ez du behar adina adibide ikusiko eta ezin izango du ondo orokortu.
Argazki lausoak, etiketak okerrak edo informazio zaharkitua badago, emaitzak okertu egingo dira.
Talde baten adibide gehiago badaude, sistemak talde horri buruz gehiago ikasiko du eta besteekin okerrago ibiliko da.
Egoera mota gutxirekin entrenatzen bada, testuinguru berrietan huts egiteko arriskua handitzen da.
Nola entrenatzen da sistema bat?
Milaka edo milioika adibide biltzen dira, ahalik eta askotarikoenak izan daitezen.
Adibide bakoitzari zer den esaten zaio, esaterako “hau katua da” edo “hau spam mezua da”.
Sistemak asmatzen du, akatsa neurtzen da, eta parametroak doitzen dira gutxiago huts egiteko; hori berriro eta berriro egiten da.
Inoiz ikusi ez dituen datuekin probatzen da ea benetan ikasi duen ala entrenamenduko adibideak buruz ikasi dituen.
Sistema prest dago orain datu berrien aurrean erabakiak edo sailkapenak egiteko.
Eguneroko adibide errealak
Email sistemek milioika mezuren patroietan oinarrituta erabakitzen dute zer den spam.
Erradiografietan edo bestelako irudietan patroiak ikasiz, sistemek anomaliak detektatzen lagun dezakete.
Bideo eta sentsore datu askotatik ikasten dute errepideko egoerak interpretatzen.
Milioika testu eleanitzen patroiak baliatzen dituzte hizkuntza batetik bestera itzultzeko.
Datuen arazo ohikoenak
Sistemek ikasten dutena datuen menpekoa da guztiz. Soilik eguzki-argiko argazkiekin entrenatzen bada, ilunpean ez du ondo funtzionatuko; talde bat gutxi ordezkatuta badago, talde horrekin okerrago arituko da.
Datu zaharrak erabiltzen badira, sistemak ez du egungo errealitatea ondo islatuko. Horregatik erabiltzen da: askotan esaldi hau: “Zaborra sartu, zaborra atera” — hau da, sarrerako datuak txarrak badira, irteerako emaitzak ere bai.
Mini-quiza
ML sistemek adibide asko, kalitate onekoak eta orekatuak behar dituzte patroiak ondo ikasteko.
Inferentzia da entrenatutako eredu batek datu berrien aurrean ikasitakoa aplikatzea, adibidez irudi berri bat sailkatzea.
Glosarioa
Makinek datuetatik patroiak ikasteko eta erabakiak hartzeko teknika.
Sistemari adibideak erakusten zaizkion fasea, patroiak ikas ditzan.
Entrenatutako ereduak datu berriekin ikasitakoa aplikatzea.
Datu bakoitzari kategoria bat esleitzea, adibidez “katua” edo “txakurra”.
Sistemak entrenamendu datuak buruz ikastea, baina datu berriekin gaizki aritzea.