Született és halt július 11-én
Frank Rosenblatt épp a Mennyországban unatkozott. Egy meseszép tengerparton bámulta a napottmaradtát, mikor váratlanul megszólította őt egy feltűnően csinos nő.
- Helló Frank, hogy vagy?
- Ööö... köszönöm, nagyon jól. - mondta, miközben majd kiestek a szemei. - Ismerjük egymást?
- Még nem, de én vagyok a szülinapi ajándékod!
Frank majdnem kiprüszkölte koktélját, de sikerült lepleznie izgatottságát...
- A Pokolból engedtek fel egy órára.
- A Pokolból? És mégis ilyen jól nézel... mármint úgy értem, hogy nem viselt meg nagyon?
- Csak most kerültem oda. De azt mondták, ha elégedett leszel, akkor itt maradhatok. Úgyhogy készültem, tanultam rengeteget. Kérdezhetsz bátran!
- Kérdezhetek? - kérdezte meglepődve.
- Igen. Azt mondták, a mesterséges intelligencia fog érdekelni.
- A mesterséges intelligencia? - ismételte meg egy kissé csalódottan.
- Ez az ajándék. Ja, és boldog születésnapot kívánok!
Frank váratlanul méregbe gurult. Felpattant a foteléből, majdnem otthagyta a nőt, de inkább visszalépett hozzá. Ebből még kialakulhat valami.
- Születésnapot? Hát nekem már nem születésnapom van, hanem halálozásnapom! Július 11-én haltam meg.
- A születésnapodon haltál meg?
- Pontosan. Jól kib...abráltak velem. Szülinapi parti, ajándék hajókázás, aztán bumm, hajóbaleset. És csak 43 éves voltam!
- Ó, hát részvétem... vagyis nagyon sajnálom! Akkor talán kárpótlásul küldtek engem, mert nem tudod, azóta mi minden történt a mesterséges intelligencia kutatásával.
Frank azonban csak egy kicsit enyhült meg.
- Mi történt volna? Várjál, hadd tippeljek! Semmi! Megépítettem 1958-ban a Mark I Perceptront. Remek gép volt, több, mint 400 neuronnal! Azt gondoltam, hogy ezzel a módszerrel hamarosan nemcsak a képfelismerés lesz lehetséges, hanem akár járni képes robotokat is építhetünk, vagy olyat, ami mondatokat alkot, beszél, önmagát reprodukálja, sőt, akár öntudatra is ébred. Jól kiröhögött mindenki. Aztán meg igazuk lett! Sehova sem jutottunk a 60-as években. A projekteket leállították, pénz is alig jött.
- Igen, tudom, beköszöntött a mesterséges intelligencia tele.
Frank inkább a tengert kezdte bámulni, és eszébe jutott, milyen lelkes is volt, mikor először bekapcsolták a szerkezetét. Akkora volt, mint egy szekrénysor, évekig dolgoztak rajta. Több, mint 400 neuron volt benne! A nőt kezdte nézni, és lassan elpárolgott a dühe.
- Szóval... szóval te tudsz válaszolni a kérdésekre?
- Talán nem látszik rajtam, de informatikus voltam. Tudom, a te idődben még csak férfiak foglalkoztak ilyesmivel, de most már 2023 van.
- Te jó ég! Már 52 éve halott vagyok. Miért pont most küldtek? Miért nem előbb? Az 50. szülinapomra csak egy bögrét kaptam, "GPT" felirattal. Azt se tudom, mit jelent! Sikerült átlépni a lineáris elválaszthatóság korlátját?
- Bocsánat, azt most hirtelen nem tudom, hogy micsoda.
- Hát Minsky-ék megírták. Hogy a perceptronommal csak lineárisan elválasztható kategorizálás valósítható meg. Olyan felismerési feladatokat tud csak megtanulni, ahol ha koordináta-rendszerben ábrázoljuk az eseteket, akkor egy egyenes vonallal elválaszthatók.
- Ja, persze. Ez már régen nem gond. Csak többrétegű hálózat kell. A kettő nem elég.
- De hogy a fenébe lehet több réteget betanítani? Próbálkoztunk rengeteget, alkalmaztuk Hebb módszerét, de sehogy se jött össze.
- Igen, a backpropagation algoritmus kell hozzá. Nem olyan bonyolult, de csak a 80-as évek közepén találtak rá.
- Ez fantasztikus! És akkor így működik a többrétegű perceptron?
- Persze. Már nem nevezzük ezeket perceptronnak, mert az csak 0-ákat és 1-eket kezelt. Most már tetszőleges szám lehet egy neuron bemenete és kimenete. És jobb aktivációs függvények is vannak. De egyébként az elve ugyanaz, mint a ti időtökben.
- És miket tudtok megoldani?
- Például képet fel tud ismerni.
- Elolvassa a számot?
- Számot is, betűket is, bármit. Azt is meg tudja mondani, hogy macska van-e a képen, vagy melyik híres épület látható rajta.
- Fantasztikus! Egy szeretkezés képeit is felismerné?
- Igen. Sőt, bármilyen képet elő is tud állítani, csak meg kell írni neki, mi legyen rajta.
- Érti a szöveget?
- Hát azt nehéz megmondani, mit jelent, hogy érti, de dolgozik szövegekkel. Sőt, mostanában a legnagyobb sikere a GPT rendszereknek van, amelyek szöveget állítanak elő.
- GPT! Ez van a bögrémre írva! Mi az, hogy GPT?
- Generative Pre-trained Transformer. Nemrég jelent meg a ChatGPT, amivel beszélgetni lehet, és mostanában ismerkedik meg ezzel a világ. Minden héten kijön valami újdonság, és azon gondolkodnak az emberek, hogy hova vezet mindez. Szerintem ezért küldtek éppen most hozzád.
Frank hirtelen nem tudott mit kérdezni. Fel kellett dolgozza a hallottakat. Szürcsölt párat az italából, majd arra gondolt, hogy nem dolgozott hiába. Igaza lett, beszélni képes a neuronhálózat.
- És vannak robotok is, öntudatra ébredtek a gépek?
- Nem, még sok minden nincs megoldva. Vannak robotok, de nem elég ügyesek. Egyelőre a mesterséges intelligencia csak egy eszköz, amit használni lehet. Például a GPT képes szöveget folytatni.
- Hogyan képes rá? Hogyan tudta megtanulni a nyelvet? Iszonyúan bonyolult lehet!
- Valójában nem az, nagyon egyszerű a felépítése.
- Csupán egy neuronhálózat? Ahol a bemenetre be kell adni a kezdő szöveget, és a kimeneten kijön a folytatás?
- Ennél azért kicsit bonyolultabb, de akár lehetne így is csinálni.
- Miért nem így csinálják? - jött izgalomba Frank.
- Alapvetően csak azért nem, mert a bemenet és a kimenet is változó hosszúságú. Lehet, hogy három, de az is, hogy kétezer szót adnál be neki. Ez megoldható lenne ugyan úgy, hogy az elképzelhető legszélesebb bemenetet használsz, legfeljebb ha rövidebb a szöveg, akkor nagy része üresen marad. De nem érdemes így csinálni.
- Értem. Hiszen így több ezer neuron kellene a bemeneti rétegbe, és ha sok réteg van, akkor ez már akár több tízezer neuron. Nyilván képtelenség ennyi neuronnal dolgozni.
- Hát ez már nem olyan képtelenség. A mostani rendszerekben több millió neuron van.
- Több millió!!!!
- Igen. De egy szóhoz nem elég egyetlen neuron. Valójában minden egyes szót több ezer, vagy akár több, mint tízezer számra alakítunk. A GPT-3 esetén például minden egyes szó (vagy szótag) 12 ezer szám. Ha azt akarjuk, hogy a bemenet 4000 szót tudjon kezelni (ennyit tud a GPT-3), akkor ehhez 12 ezerszer 4 ezer neuron kellene már a bemeneti rétegben, vagyis 48 millió neuron. Ráadásul itt majdnem 200 réteg. Ha ezt ekkorában építenénk meg, akkor tízezer millió neuron kellene. És egy rétegben minden neuron össze van kötve minden szomszédos rétegben lévő neuronnal. Tehát az összeköttetések száma hatványozottan növekszik. Irgalmatlanul sokat kellene hozzá számolni, és ez még a mai számítógépeknek is sok. Szóval egy kicsit bonyolultabb az architektúra, hogy ne kelljen ekkorát építeni. És már vannak ennél is jóval nagyobb rendszerek...
- De hogyan lehet ezt megcsinálni? Ha nem mehet be egyben a bemenet, akkor nyilván fel kell darabolni...
- Igen, a bemenet szavanként (vagy szótagonként) kerül a hálózatra. Egyszerre csak egy, időben egymás után. Így a hálózat mérete jelentősen kisebb, a GPT-3 esetén elég a 12 ezer neuron a bemeneti rétegben, mert egyszerre csak egy szó jön. Ez sem kevés, de ennyivel már boldogulni tudnak a számítógépek.
- De akkor valahogy emlékeznie kell a hálózatnak a korábbi szavakra. Hogyan valósul ez meg?
- Pontosan. Erre régebben visszacsatolásos hálózatokat használtak, de ezt most hagyjuk. Újabban az attention mechanizmus a nyerő. Lényegében ezt nevezik Transformernek. Egy olyan neuronhálózatot, ahol a neuronrétegek közé attention rétegeket tesznek. És ez a réteg emlékszik a korábbi bemenetekre, és hozzákeveri azokat az aktuálishoz.
Frank egyre lelkesebb lett, már rég elfelejtette, mit is gondolt, mire számított az elején, mikor meglátta a nőt.
- Emlékszik? Mit jelent az, hogy emlékszik?
- Ez egyszerűen csak annyit jelent, hogy eltárolja a memóriájában, és ami kell, előveheti onnan.
- Honnan tudja, hogy mi kell?
- Ezt tudja az attention mechanizmus. Tulajdonképpen a neuronhálózat megtanulta, hogy mire érdemes figyelnie. Egy adott szó feldolgozása esetén tudja, hogy mely szavak mennyire módosíthatják annak jelentését, és azokat a fontos szavakat keveri hozzá a bemenethez.
- Mit jelent ez a hozzákeverés?
- Mivel nincs túl sok időnk, csak annyit mondok, hogy ezt úgy érdemes elképzelni, mintha lenne egy hangrögzítő, amire rámondhatsz tíz szót. Ennyit még meg tud különböztetni a neurális hálózat, képes megtanulni, hogy miként érdemes rájuk reagálni. Ha négyezer szót mondanál rá, az egész csak egy zaj lenne, és nem működne az egész. Az attention mechanizmus arra való, hogy az épp feldolgozásra kerülő szó mellé odategye még azt a kilenc másikat, amely fontos lehet az értelmezéshez. Ez konkrétan persze nem hangrögzítő, itt számok sorozata a bemenet, és a kimenet is az lesz. És nem is csak a legfontosabb 10 szót keveri össze, hanem különböző súlyozással mindegyiket.
- Még mindig nem értem, mi ez a hozzákeverés.
- Minden egyes szó olyan, mintha egy spektrum lenne. 12 ezer szám, ami az adott szóra jellemző értékek sorozata. Bizonyos helyeken nagy értékek vannak, máshol picik. Tíz szó egymásra keverése pedig annyit jelent, hogy a szavakat reprezentáló 12 ezer számot összeadjuk. Az elsőket is, a másodikakat is.... és a tizenkétezredikeket is. Tehát az egymásra keverés után lesz tizenkétezer számunk, ezt dobja ki az attention mechanizmus, és ez kerül be aztán a neuronhálózatba.
- Nagyon érdekes! Akkor már értem, hogy hogyan tudja kezelni a változó hosszúságú bemenetet. De hogyan tud változó hosszúságú kimenetet produkálni?
- Hát az még egyszerűbb. A kimenet csupán egyetlen szó, vagy szótag lesz. Tehát a kimeneti réteg sem kell több neuronból álljon, mint a bemenet. Hogy az első után a másodikat is megkapjuk, úgy kell csinálni, mintha ez az előbb generált kimenet is az eredeti bemenet része lett volna. És akkor újra kapunk egy kimenetet. Ezt szinte bármeddig lehet ismételni, míg meg nem unjuk, vagy esetleg a rendszer azt nem mondja, hogy készen vagyunk, vagyis amíg a kimenet egy speciális szó nem lesz, ami azt jelenti, hogy vége a szövegnek.
Frank már inni is elfelejtett, egészen kiszáradt a szája, de tele volt még kérdésekkel.
- Azt nem értem még, hogy hogyan tanítják ezt be. Mitől tanulja meg a hálózat az angol nyelvet?
- Egyébként nem csak egyetlen nyelvet tud megtanulni, a GPT-3 is tud legalább százat. De nagyon egyszerű a betanítás, csak elképesztően sok szöveg kell hozzá. Könyvtárnyinál is több szöveg. Szerencsére az Internet elterjedésével már nem nehéz ilyen sok szöveghez hozzáférni. A betanítás úgy néz ki, hogy a szövegből megmutatunk egy kis darabkát, és a neuronok közti összeköttetések szorzóit úgy kell hangolni, hogy az eredmény a szövegben következő szót adja ki. Legalábbis ennek irányába állítunk mindegyik szorzón egy icipicit. Ez tulajdonképpen egy deriválás, neked nem lenne olyan nehéz a matekja. És ezt kell több millió vagy milliárd alkalommal ismételni.
- Lenyűgöző!
- Örülök, hogy így látod, mert lejárt az időnk. Szívesen megmutatnék még sok mindent. Ha itt maradhatnék...
Frank erre már nem is tudott mit reagálni. Csak bámulta a napottmaradtát, és elégedetten mosolygott... Az sem bántotta, hogy a beszélgetés alatt jócskán megöregedett.
A szöveget Szegi Hunor természetes intelligenciája generálta
Képek: DreamStudio AI, Bing AI + DALL-E segítségével.