Zer egiten du hizkuntza-eredu batek?
Hizkuntza-eredu batek testu kopuru handiak aztertzen ditu, eta hitzak edo esaldi zatiak elkarrekin nola agertzen diren ikasten du. Horrela, galdera edo testu baten ondoren zein hitz etor daitekeen probableena den kalkulatzen saiatzen da.
Horrek esan nahi du sistema batek ez duela benetako ulermen kontzienterik. Ez daki zer den egia, ez du esperientziarik, eta ez du asmorik. Baina patroi estatistiko askoren bidez, oso erantzun sinesgarriak sor ditzake, eta horregatik ematen du batzuetan benetan ulertzen duela.
Euskarak ere baditu bere txatbot-ak
ChatGPT edo antzeko tresnak ez dira soilik hizkuntza handietarako, euskaraz ere egiten dute. Baina badira euskaraz berariaz prestatutako ereduak. Adibidez, Latxa eta Kimu euskaraz hobeto lan egiteko sortu diren AA sistemak dira.
Latxa euskarazko hizkuntza-eredu handi bat da. Kimu, berriz, arinagoa da, eta enpresa edo erakunde batek bere ordenagailu edo zerbitzarietan instala dezake. Horrek laguntzen du datuak pribatuago mantentzen. Bi ereduen atzean EHUko Hitz zentroa eta Elhuyar fundazioaren Orai zentroa daude.
Tonu segurua ez da ulermenaren frogа
Txatbot batek tonu ziur eta argian idatz dezake, baina horrek ez du esan nahi esandakoa egia denik edo benetan ulertu duenik. Askotan, probabilitate handieneko hitz-segida osatzen ari da.
Kontzeptu klabeak
Testu askotatik ikasitako patroietan oinarrituta hurrengo hitza aurresaten duen sistema.
Testua zatitan banatzeko unitateak dira; hitz osoak edo hitz zatiak izan daitezke.
Ereduak kalkulatzen du zein hitz edo token den probableena aurreko testuinguruan.
Aurreko hitzek eta esaldiek baldintzatzen dute zer erantzun emango duen sistemak.
Nola sortzen du erantzuna?
Sistemak galdera edo prompt bat jasotzen du, eta testuingurua identifikatzen hasten da.
Testua unitate txikiagotan banatzen da, hitzak edo hitz-zatiak modu eraginkorrean tratatzeko.
Entrenamenduan ikasitako milioika lotura estatistiko erabiltzen ditu testuinguru horri erantzuteko.
Une horretan probableena den tokena aukeratzen du, eta prozesua berriro errepikatzen da.
Tokenak bata bestearen atzetik eraikiz, erantzun luze eta kohesionatu bat sortzen da.
Bisualizadore interaktiboa
Ikusi zuzenean nola sortzen duen hizkuntza-eredu batek testua, token bakoitza pauso batean aukeratuz. Sakatu Analisia hasi prozesua ikusteko.
Hasierako testua (prompt-a)
Prozesuaren pausoak
2. Tokenetan zatitzea
Sistemak testua unitate txikiagotan banatzen du: tokenak.
3-4. Hurrengo tokenaren probabilitatea
Probabilitate handienak kalkulatzen...
Ereduak tokenen probabilitateak kalkulatzen ditu testuinguruan oinarrituta.
5. Sortutako testua osoa
Ereduak token bat hautatzen du, gero beste bat, eta horrela jarraitzen du esaldia osatu arte.
Eguneroko adibideak
Galdera bati testu bidez erantzuten diote, aurreko testuaren probabilitate-patroiak erabiliz.
Hizkuntza batetik bestera pasatzean, esaldi egokien aukerak kalkulatzen dituzte.
Mugikorreko teklatuak edo posta elektronikoko iradokizunak hurrengo hitza asmatzen saiatzen dira.
Testu luze baten puntu nagusiak berrantolatzen dituzte, aurretik ikasitako egituren bidez.
Mugak eta gaizki-ulertuak
Hizkuntza-eredu batek ez du egia eta gezurra berez bereizten. Testu sinesgarria sor dezake, baina akatsekin, asmakizunekin edo erreferentzia faltsuekin. Horregatik, bere erantzunak ezin dira automatikoki egiazkotzat hartu.
Gainera, testuingurua nahasia bada edo galdera lausoa bada, erantzuna ere lausoagoa edo okerragoa izan daiteke. Hori dela eta, prompt argiak idaztea eta informazioa iturri fidagarrietan egiaztatzea funtsezkoa da.
Hausnarketa
Pentsatu txatbot bati egin diozun azken galderan. Zergatik ematen zuen ulertu zintzuela? Zer seinale erabiltzen dituzu zuk ulermen hori benetakoa dela pentsatzeko? Eta zer arrisku dago hori gehiegi sinestean?
Mini-quiza
Hizkuntza-ereduek testu-patroi estatistikoak erabiltzen dituzte hurrengo token probableena aukeratzeko.
Tonu seguruak eta estilo zainduak ez dute egiazkotasuna bermatzen; horregatik behar da egiaztapena.
Glosarioa
Testu patroietan oinarrituta hitz-segidak sortzen dituen AA sistema.
Testua prozesatzeko erabiltzen den unitate txikia, hitza edo hitz-zatia izan daitekeena.
Aurreko testuak eta egoerak baldintzatzen duten informazio multzoa.
Hurrengo elementu bat agertzeko aukera estatistikoa.
AAk sinesgarria dirudien baina okerra edo asmatua den informazioa sortzea.