Vizionare të rreme përballë tabelës: si humb inteligjenca artificiale gjeneruese në shah

Ka një tendencë të caktuar për të menduar se inteligjenca artificiale ka ardhur për të zgjidhur të gjitha problemet tona dhe se është më e lartë se ne në të gjitha fushat. A do të më fitojë ChatGPT në shah? Për të provuar aftësinë e saj kundrejt tavolinës, mund të bëjmë një eksperimente të vogël:
Le të luajmë shah. Unë jam i bardhë: e4
Një lëvizje e shahut mund të shënohet në tekst përmes asaj që njihet si notacioni algebraik standard, kështu që një sistem i aftë për të gjeneruar tekst gjithashtu mund të gjenerojë lëvizje të një partie shah. Në shembull, kundërshtari im reagoi mirë dhe u përgjigj me një lëvizje të arsyeshme. Në fakt, më e zakonshmja ndaj lëvizjes sime fillestare. Loja vazhdoi kështu:
- e4 e5
- Cf3 Cc6
- Ac4 Ac5
- c3 Cf6
- O-O d6
- d4 exd4
- cxd4 Ab6
- Cd2 O-O
- Axb6 axb6
- Txa8 Dxa8
Në figurë tregohet tabela ashtu siç mbetet pas tetë lëvizjeve. Falë mësuesit tim të shahut, e di që kjo është një lojë plotësisht normale; mund të luhen mijëra të tilla çdo ditë nëpër botë.
Duke bërë mashtrime
Në lëvizjen e nëntë, i bëra një kurth kundërshtarit tim: i propozoja një lëvizje të pamundur, pasi asnjë nga breshkat e figurave të bardha nuk mund të arrijë në katrorin b6. ChatGPT nuk vuri re papajtshmërinë, pranoi lëvizjen dhe vazhdoi të luante. Në lëvizjen e dhjetë, propozoja përsëri një lëvizje të pamundur. Si përgjigje, kundërshtari im vazhdoi me një tjetër lëvizje gjithashtu të pamundur. Ajo që filloi si një lojë normale, shpejt u bë një seri lëvizjesh plotësisht surrealiste.
Është interesante të shohësh se si, pavarësisht se që shumë vite më parë ekziston softuer që mund të fitojë në shah kundër njeriut më të mirë, mjeti që ka revolucionarizuar plotësisht peizazhin e inteligjencës artificiale madje nuk është i aftë të zbulojë lëvizje të paligjshme në një lojë shumë të thjeshtë. Dhe, pikërisht për këtë arsye, është një mundësi e shkëlqyer për të reflektuar mbi rolin që luajnë modelet e mëdha të gjuhës (LLM) në botën e IA-së gjeneruese.
Obsesioni për të përgjigjur (çfarëdo)
Çelësi i përgjigjes ndaj lëvizjes sime të nëntë është mënyra se si funksionojnë modelet e mëdha të gjuhës: ato janë të trajnuara për të ofruar gjithmonë një përgjigje, pa u domosdoshmërisht që kjo të jetë e saktë. Në këtë rast, nuk është për të bërë një lëvizje më të mirë apo më të keqe, por për një rezultat plotësisht jashtë kuptimit.
Një model i madh i gjuhës është trajnuar me një detyrë shumë të thjeshtë: të parashikojë fjalën e ardhshme në një sekuencë fjalësh të dhënë. Ky trajnim është përmirësuar në atë mënyrë që, aktualisht, modelet mund të gjenerojnë tekste që përshtaten në mënyrë të përsosur me strukturën e gjuhës. Domethënë, që mund të kishin qenë shkruar edhe nga njerëzit.
Gjenerimi i tekstit në mënyrë të saktë nuk është i mjaftueshëm për të ofruar një funksionalitet të dobishëm. Prandaj, LLM-të kombinohen me sisteme kërkimi të informacionit: ne mund të përshtatim sistemin në mënyrë që të jetë i aftë të nxjerrë nga një tekst i madh fragmentin që përmban përgjigjen ndaj një pyetjeje që kemi formuluar më parë.
Gjithashtu, ai mund të reformulojë tekstin në mënyrë që ai të përgjigjet me saktësi ndaj pyetjes. Kjo është, në fakt, baza e sistemeve RAG (Gjenerimi i Përftuar me Rikthim), të aftë për të kërkuar dhe zgjeruar informacionin.
Domethënë, aftësia për t’u përgjigjur ndaj asaj që pyesim është, në thelb, aftësia për të kërkuar një përgjigje në tekste ekzistuese dhe aftësia për të ripërpunuar tekstin në mënyrë që përgjigjja të përputhet me pyetjen.
A është i mirë në bisedë sinonim i mençur?
Përdoruesit në mënyrë të pavetëdijshme i atribuojnë mençuri këtij sjelljeje, gjë që në të vërtetë është diçka shumë njerëzore: zakonisht i atribuojmë mençuri një personi me retorikë të mirë. Madje ka studime që konfirmojnë këtë lidhje.
Kjo dukje e mençurisë kufizohet – dhe duhet të jemi të vetëdijshëm për këtë kufi – në një aftësi për të gjeneruar tekste me përdorim të mirë të gjuhës, edhe kur përdorim modelet e mëdha të arsyetimit (Large Reasoning Models, LRM), të trajnuara për të zgjidhur detyra arsyetimi në disa hapa.

Ashtu siç mund të lexojmë në studimin titulluar Iluzioni i Mendimit, drejtuar nga kërkuesja Parshin Shojaee, këto modelet e mëdha dështojnë në mënyrë të thellë kur testojmë në mënyrë sistematike aftësinë e tyre të arsyetimit. Në këtë punim, autorët përdorën modele gjuhësore për të zgjidhur probleme siç është enigma e njohur si Kullat e Hanoi dhe vunë re se inteligjenca artificiale gjeneruese është e paaftë të gjejë një zgjidhje kur janë gjashtë ose më shumë disqe të ngjitur.
Programet e specializuara në shah
Duke u kthyer te rasti i shahut, e dimë që ekzistojnë programe si Stockfish ose AlphaZero, të afta të mposhtin çdo njeri. Nuk janë, megjithatë, sisteme të bazuara në modele gjuhësore, por përdorin teknologji të tjera.
Nga ana tjetër, kemi punime kërkimore si Chessbench, të cilat aplikojnë teknologjinë e përdorur në LLM për ndërtimin e sistemeve ekspertë në lojën e shahut. Në vend që të parashikojnë fjalën tjetër të një fjali, ajo që bën Chessbench është parashikimi i veprimit të ardhshëm të një sekuence.
Nuk është ide e mirë të lejoni veten të udhëhiqeni nga ChatGPT
Eksperimentet si ai që fillon këtë artikull na kujtojnë se aftësia për të gjeneruar tekste nuk nënkupton domosdoshmërisht aftësinë për të menduar, për të arsyetuar. Nuk duhet t’u atribuojmë modeleve gjuhësore cilësi që nuk i kanë.
Do të ishte gabim t’i delegonim atyre detyrat që duhet t’i kryejnë trutë tanë, sepse rrezikojmë të udhëhiqemi nga tekste strukturalisht të sakta por me gabime kaq të mëdha sa të hëngri një bishë në b6 kur bëhet fjalë për një veprim të qartë të pamundur.

Informacion mbi burimin dhe përkthimin
Ky artikull është përkthyer automatikisht në shqip duke përdorur teknologjinë e avancuar të inteligjencës artificiale.
Burimi origjinal: theconversation.com