Zer dira eredu generatiboak?
Eredu generatiboak dira ikasitako patroietan oinarrituta eduki berria sortzen duten sistemak. Hor sartzen dira testua sortzen duten chatbot-ak, irudi sortzaileak, musika edo audio sistemak, eta baita ahotsa edo bideoa sortzen duten tresnak ere.
Garrantzitsuena da ulertzea ez dutela edukia zuzenean kopiatzen. Entrenamenduan ikusitako egitura, estilo eta harreman estatistikoak erabiltzen dituzte antzeko baina berria den zerbait osatzeko. Hala ere, ez dakite zer esan nahi duen sortzen duten horrek.
Sinesgarritasuna ez da ulermena
Eredu generatibo batek oso testu ona, irudi ikusgarria edo ahots naturala sor dezake. Hori ez da ulermen sakonaren seinale, baizik eta patroi estatistiko konplexuen erabilera oso eraginkorra.
Kontzeptu klabeak
Eduki berria sortzen duen sistema: testua, irudiak, audioa edo bideoa.
Large Language Model, testua sortzeko entrenatutako hizkuntza-eredu handia.
Testua zatitan prozesatzeko erabiltzen diren unitate txikiak.
AAk sinesgarria dirudien baina faltsua den informazioa sortzea.
Nola sortzen dute testua?
Testu-sorkuntzarako eredu handi batek aurreko hitzak eta testuingurua prozesatzen ditu hurrengo tokena (hitza edo hitz zatia) zein izango den probabilitateen arabera iragartzeko.
Difusio-ereduak: Irudien sorkuntza
Testu-ereduek hitzak aurreikusten dituzten bezala, irudi-sorgailuek difusio-arkitekturak erabiltzen dituzte. Funtzionamendu-sekuentzia:
- Zarata gehitzea (Forward Diffusion): Eredua irudi errealekin entrenatzen da, pixkanaka zarata gehituz irudia ezagutezina bihurtu arte.
- Zarata kentzea (Reverse Diffusion): Ereduak prozesua alderantzikatzen ikasten du. Zarata hutsetik abiatuta, pixkanaka pizelak berreraikitzen ditu, testu-eskaerari lotutako patroi bisualak osatuz.
Bisualizadorea: Zarata kentzeko prozesua (Reverse Diffusion)
Prozesu honek probabilitate matematikoak erabiltzen ditu zarata hutsa irudi egituratu bihurtzeko. Faseen banaketa teknikoa:
- T=0 (Zarata absolutua): Ereduak ez du irudirik, pizel aleatorioen matrize matematiko bat baizik.
- T=1-2 (Egituraketa espaziala): Testu-aginduaren arabera, ereduak formen eta silueten kokapen probableena kalkulatzen du.
- T=3-4 (Xehetasunak eta argia): Inguruko pixelen koherentziaren bidez, koloreak eta argiztapena finkatzen dira.
- T=5 (Emaitza finala): Algoritmoak zarata matematiko guztia ezabatzen du (kasu honetan, katu bat).
Ikus-entzunezkoen eta soinuaren sorkuntza
Bideo eta audio eredu generatiboen arkitekturak dimentsio anitzeko aldagaiak prozesatzen ditu:
- Bideo-sorkuntza: Eredu hauek frame-en (fotogramen) arteko koherentzia tenporala kalkulatzen dute. Mugimenduaren dinamika eta objektuen 3D egitura simulatzen dute denboran zehar.
- Soinu- eta musika-sorkuntza: Audio-ereduek uhin-formak edo espektrogramak modelatzen dituzte. Ahotsaren tinbrea, instrumentuen maiztasunak eta egitura erritmikoa iragartzen dituzte.
Haluzinazioak
Eredu generatiboek hitz probableena bilatzen dute, eta batzuetan hori sekuentzia faltsu baina oso konbentzigarri batean amaitzen da. Horregatik, egiaztapena ezinbestekoa da.
AA sorkuntza vs gizaki sorkuntza
AAk patroi estatistikoak konbinatzen ditu; gizakiak esperientzia, emozio eta asmoarekin sortzen du.
AAk ez du benetako ulermenik; gizakiak badaki zer esan nahi duen sortzen duenak.
AAk ikasitako patroiak jarraitzen ditu; gizakiak arauak apurtu eta guztiz egitura berriak sortzeko gaitasuna dauka.
Sorkuntza ala Kalkulua?
Irudi bat ikusten duzunean, gogoratu AAk ez duela "irudikatzen". Milioika pixelen arteko harreman estatistikoak kalkulatzen ari da. Zer esan nahi du horrek gure sormenari buruz? AA tresna bat da ala sortzaile bat?
Mini-quiza
1. Zer egiten du difusio-eredu batek irudi bat sortzeko?
2. Zer da haluzinazioa eredu generatibo baten testuinguruan?
Glosarioa
Irudi baten barruan pixel bakoitzak izan behar duen kolorea zehazteko kalkulu estatistikoa.
Bideo-ereduetan, fotograma batetik bestera mugimenduak logikoa izaten laguntzen duen teknika.