Ikastaroaren ikuspegi orokorra Ikasgaiak Eredu generatiboak
5. modulua / 8

Eredu generatiboak

Chatbot-ek, irudi-sortzaileek eta ahots-sistemek eduki berria sortzen dute ikasitako patroietan oinarrituta. Ez dute “ulertzen”, baina oso emaitza sinesgarriak sor ditzakete.

Ertaina 20 min Sorkuntza multimodala + Bisualizadorea

Zer dira eredu generatiboak?

Eredu generatiboak dira ikasitako patroietan oinarrituta eduki berria sortzen duten sistemak. Hor sartzen dira testua sortzen duten chatbot-ak, irudi sortzaileak, musika edo audio sistemak, eta baita ahotsa edo bideoa sortzen duten tresnak ere.

Garrantzitsuena da ulertzea ez dutela edukia zuzenean kopiatzen. Entrenamenduan ikusitako egitura, estilo eta harreman estatistikoak erabiltzen dituzte antzeko baina berria den zerbait osatzeko. Hala ere, ez dakite zer esan nahi duen sortzen duten horrek.

Badakizu?

Sinesgarritasuna ez da ulermena

Eredu generatibo batek oso testu ona, irudi ikusgarria edo ahots naturala sor dezake. Hori ez da ulermen sakonaren seinale, baizik eta patroi estatistiko konplexuen erabilera oso eraginkorra.

Kontzeptu klabeak

Eredu generatiboa

Eduki berria sortzen duen sistema: testua, irudiak, audioa edo bideoa.

LLM

Large Language Model, testua sortzeko entrenatutako hizkuntza-eredu handia.

Tokenak

Testua zatitan prozesatzeko erabiltzen diren unitate txikiak.

Haluzinazioa

AAk sinesgarria dirudien baina faltsua den informazioa sortzea.

Nola sortzen dute testua?

Testu-sorkuntzarako eredu handi batek aurreko hitzak eta testuingurua prozesatzen ditu hurrengo tokena (hitza edo hitz zatia) zein izango den probabilitateen arabera iragartzeko.

Difusio-ereduak: Irudien sorkuntza

Testu-ereduek hitzak aurreikusten dituzten bezala, irudi-sorgailuek difusio-arkitekturak erabiltzen dituzte. Funtzionamendu-sekuentzia:

  • Zarata gehitzea (Forward Diffusion): Eredua irudi errealekin entrenatzen da, pixkanaka zarata gehituz irudia ezagutezina bihurtu arte.
  • Zarata kentzea (Reverse Diffusion): Ereduak prozesua alderantzikatzen ikasten du. Zarata hutsetik abiatuta, pixkanaka pizelak berreraikitzen ditu, testu-eskaerari lotutako patroi bisualak osatuz.

Bisualizadorea: Zarata kentzeko prozesua (Reverse Diffusion)

Prozesu honek probabilitate matematikoak erabiltzen ditu zarata hutsa irudi egituratu bihurtzeko. Faseen banaketa teknikoa:

  • T=0 (Zarata absolutua): Ereduak ez du irudirik, pizel aleatorioen matrize matematiko bat baizik.
  • T=1-2 (Egituraketa espaziala): Testu-aginduaren arabera, ereduak formen eta silueten kokapen probableena kalkulatzen du.
  • T=3-4 (Xehetasunak eta argia): Inguruko pixelen koherentziaren bidez, koloreak eta argiztapena finkatzen dira.
  • T=5 (Emaitza finala): Algoritmoak zarata matematiko guztia ezabatzen du (kasu honetan, katu bat).
Katu baten irudia
Sistemak prest.

Ikus-entzunezkoen eta soinuaren sorkuntza

Bideo eta audio eredu generatiboen arkitekturak dimentsio anitzeko aldagaiak prozesatzen ditu:

  • Bideo-sorkuntza: Eredu hauek frame-en (fotogramen) arteko koherentzia tenporala kalkulatzen dute. Mugimenduaren dinamika eta objektuen 3D egitura simulatzen dute denboran zehar.
  • Soinu- eta musika-sorkuntza: Audio-ereduek uhin-formak edo espektrogramak modelatzen dituzte. Ahotsaren tinbrea, instrumentuen maiztasunak eta egitura erritmikoa iragartzen dituzte.

Haluzinazioak

Eredu generatiboek hitz probableena bilatzen dute, eta batzuetan hori sekuentzia faltsu baina oso konbentzigarri batean amaitzen da. Horregatik, egiaztapena ezinbestekoa da.

AA sorkuntza vs gizaki sorkuntza

Prozesua

AAk patroi estatistikoak konbinatzen ditu; gizakiak esperientzia, emozio eta asmoarekin sortzen du.

Ulermena

AAk ez du benetako ulermenik; gizakiak badaki zer esan nahi duen sortzen duenak.

Originalitatea

AAk ikasitako patroiak jarraitzen ditu; gizakiak arauak apurtu eta guztiz egitura berriak sortzeko gaitasuna dauka.

Hausnarketa

Sorkuntza ala Kalkulua?

Irudi bat ikusten duzunean, gogoratu AAk ez duela "irudikatzen". Milioika pixelen arteko harreman estatistikoak kalkulatzen ari da. Zer esan nahi du horrek gure sormenari buruz? AA tresna bat da ala sortzaile bat?

Mini-quiza

1. Zer egiten du difusio-eredu batek irudi bat sortzeko?

2. Zer da haluzinazioa eredu generatibo baten testuinguruan?

Glosarioa

Probabilitate-mapa

Irudi baten barruan pixel bakoitzak izan behar duen kolorea zehazteko kalkulu estatistikoa.

Koherentzia tenporala

Bideo-ereduetan, fotograma batetik bestera mugimenduak logikoa izaten laguntzen duen teknika.