Ikastaroaren ikuspegi orokorra Ikasgaiak Nola ikasten dute makinek?
2. modulua / 8

Nola ikasten dute makinek?

Makinek adibideetatik ikasten dute: datu asko ikusita patroiak antzematen dituzte, baina datuen kalitateak zuzenean baldintzatzen du zer ikasiko duten eta zein ondo arituko diren.

Oinarrizkoa 18 min Prozesua + mini-quiz + glosarioa

Sarrerako bideoa

Bideo honetan azaltzen da AAren atzean dagoen teknologia eta nola ikasten duten sistemek datuetatik.

Machine Learning (Ikaskuntza Automatikoa)

Adimen Artifizialaren adar bat da. Makinei pausoz pausoko arauak programatu beharrean, datu-multzoak ematen zaizkie ereduak eta patroiak inferitu ditzaten.

  • Prozesua: Datu-sarrera → Algoritmoaren entrenamendua → Ereduaren sorrera → Iragarpena edo sailkapena.
  • Aplikazioa: Ordenagailu bati katu bat identifikatzen irakasteko, ez zaizkio katu baten ezaugarri geometrikoak programatzen. Milaka katu-irudi prozesatzen ditu, ezaugarri komunak estatistikoki identifikatu arte.

Sare Neuronalak eta Deep Learning

Ikaskuntza automatikoaren azpisistema aurreratua da, giza burmuineko neuronen egitura biologikoan formalki oinarritua, baina funtzionamendu matematiko hutsekoa.

Sarrera Ezkutuko geruzak Irteera
Sarrera-geruza (Input layer)

Datu gordinak (irudi baten pixelak, adibidez) jasotzen dituen nodo-multzoa.

Ezkutuko geruzak (Hidden layers)

Datuen ezaugarri konplexuak erauzten dituzten nodoak. Zenbat eta geruza gehiago, orduan eta "sakonagoa" da sarea (Deep Learning). Geruza batek ertzak detektatzen ditu, hurrengoak formak, eta hurrengoak objektuak.

Irteera-geruza (Output layer)

Probabilitate altuena duen erantzuna itzultzen du.

Funtsezko Printzipioak Ikasleentzat

Datuen dependentzia

Eredu baten ahalmena zuzenki proportzionala da entrenamendu-datuen kantitateari eta kalitateari. Datu barik ez dago ikaskuntzarik.

Oinarri matematikoa

Adimen artifizialak ez du "ulertzen". Probabilitate eta estatistika aurreratua erabiltzen ditu hurrengo hitza, pixela edo erabakia kalkulatzeko.

Alborapen algoritmikoa (Bias)

Entrenamendu-datuek giza-aurreiritziak edo akatsak badituzte, eredu matematikoak akats horiek erreproduzitu eta anplifikatuko ditu emaitzetan.

Datuen garrantzia kritikoa

Datuak ML sistemen “elikagaia” dira, eta haien kalitateak zuzenean eragiten du emaitzetan. Datu gutxi badaude, sistemak ez du behar adina patroi aurkituko; datuak txarrak badira, emaitzak ere txarrak izango dira.

Datu gutxi

Sistemak ez du behar adina adibide ikusiko eta ezin izango du ondo orokortu.

Datu kalitate txarrekoak

Argazki lausoak, etiketak okerrak edo informazio zaharkitua badago, emaitzak okertu egingo dira.

Datu desorekatuak

Talde baten adibide gehiago badaude, sistemak talde horri buruz gehiago ikasiko du eta besteekin okerrago ibiliko da.

Aniztasun falta

Egoera mota gutxirekin entrenatzen bada, testuinguru berrietan huts egiteko arriskua handitzen da.

Nola entrenatzen da sistema bat?

1
Datuak bildu

Milaka edo milioika adibide biltzen dira, ahalik eta askotarikoenak izan daitezen.

2
Datuak etiketatu

Adibide bakoitzari zer den esaten zaio, esaterako “hau katua da” edo “hau spam mezua da”.

3
Entrenamendua

Sistemak asmatzen du, akatsa neurtzen da, eta parametroak doitzen dira gutxiago huts egiteko; hori berriro eta berriro egiten da.

4
Balioztapena

Inoiz ikusi ez dituen datuekin probatzen da ea benetan ikasi duen ala entrenamenduko adibideak buruz ikasi dituen.

5
Inferentzia

Sistema prest dago orain datu berrien aurrean erabakiak edo sailkapenak egiteko.

Eguneroko adibide errealak

📧 Spam detekzioa

Email sistemek milioika mezuren patroietan oinarrituta erabakitzen dute zer den spam.

🏥 Irudi medikoak

Erradiografietan edo bestelako irudietan patroiak ikasiz, sistemek anomaliak detektatzen lagun dezakete.

🚗 Kotxe autonomoak

Bideo eta sentsore datu askotatik ikasten dute errepideko egoerak interpretatzen.

💬 Itzultzaileak

Milioika testu eleanitzen patroiak baliatzen dituzte hizkuntza batetik bestera itzultzeko.

Datuen arazo ohikoenak

Sistemek ikasten dutena datuen menpekoa da guztiz. Soilik eguzki-argiko argazkiekin entrenatzen bada, ilunpean ez du ondo funtzionatuko; talde bat gutxi ordezkatuta badago, talde horrekin okerrago arituko da.

Datu zaharrak erabiltzen badira, sistemak ez du egungo errealitatea ondo islatuko. Horregatik erabiltzen da: askotan esaldi hau: “Zaborra sartu, zaborra atera” — hau da, sarrerako datuak txarrak badira, irteerako emaitzak ere bai.

Mini-quiza

1. Zer behar du ML sistema batek ongi ikasteko?

ML sistemek adibide asko, kalitate onekoak eta orekatuak behar dituzte patroiak ondo ikasteko.

2. Zer da inferentzia?

Inferentzia da entrenatutako eredu batek datu berrien aurrean ikasitakoa aplikatzea, adibidez irudi berri bat sailkatzea.

Glosarioa

Machine learning

Makinek datuetatik patroiak ikasteko eta erabakiak hartzeko teknika.

Entrenamendua

Sistemari adibideak erakusten zaizkion fasea, patroiak ikas ditzan.

Inferentzia

Entrenatutako ereduak datu berriekin ikasitakoa aplikatzea.

Etiketatzea

Datu bakoitzari kategoria bat esleitzea, adibidez “katua” edo “txakurra”.

Overfitting

Sistemak entrenamendu datuak buruz ikastea, baina datu berriekin gaizki aritzea.