A jeni duke bërë shaka, mik? AI nuk kupton sarkazmin në dialekte të ndryshme të anglishtes

Aditya Joshi, Senior Lecturer, School of Computer Science and Engineering, UNSW Sydney
5 min lexim
Politikë
A jeni duke bërë shaka, mik? AI nuk kupton sarkazmin në dialekte të ndryshme të anglishtes
Emily Morter/Unsplash

Në vitin 2018, kolegu im australian më pyeti, “Hej, si po shkon?”. Përgjigja ime – “Po marr një autobus” – u prit me një buzëqeshje të lehtë. Kam qenë së fundmi duke u transferuar në Australi. Edhe pse kam studiuar anglisht për më shumë se 20 vjet, më duhej pak kohë për t’u njohur me variantin australian të gjuhës.

Duket se modelet e mëdha të gjuhës të fuqizuara nga inteligjenca artificiale (IA) si ChatGPT përballen me një problem të ngjashëm.

Në kërkime të reja, të botuara në Gjetjet e Asamblesë për Gjuetari Kompjuterik 2025, kolegët dhe unë prezantojmë një mjet të ri për vlerësimin e aftësisë së modeleve të ndryshme të gjuhës së madhe për të zbuluar ndjenjat dhe sarkazmin në tre variante të anglishtes: anglishtja australiane, anglishtja indiane dhe anglishtja britanike.

Rezultatet tregojnë se ende ka shumë rrugë përpara deri sa përfitimet e premtuara të IA të shijohen nga të gjithë, pavarësisht nga lloji ose varianti i gjuhës që flasin.

Anglishtja e Kufizuar

Modelet e mëdha të gjuhës janë shpesh raportuar se arrijnë performancë të shkëlqyeshme në disa sete detyrash të standardizuara të njohura si tregues.

Pjesa më e madhe e testeve të treguesve janë shkruar në Anglishten Standarde Amerikane. Kjo nënkupton që, ndërsa modelet e mëdha të gjuhës po shiten agresivisht nga ofruesit komercialë, ato janë kryesisht testuar – dhe trajnuar – vetëm në këtë lloj të anglishtes.

Kjo ka pasoja të mëdha.

Për shembull, në një sondazh të fundit kolegët e mi dhe unë gjetëm se modelet e mëdha të gjuhës janë më të prirura të klasifikojnë një tekst si urrejtës nëse është shkruar në variantin afrikan-amerikan të anglishtes. Ata gjithashtu shpesh “përdorin” anglishten standarde amerikane – edhe nëse inputi është në variante të tjera të anglishtes, si anglishtja irlandeze dhe anglishtja indiane.

Për të ndërtuar mbi këtë kërkim, ne ndërtuam BESSTIE.

Çfarë është BESSTIE?

BESSTIE është vlerësimi i parë i këtij lloji për klasifikimin e ndjenjës dhe sarkazmës së tre varianteve të anglishtes: anglishtja australiane, anglishtja indiane dhe anglishtja britanike.

Për qëllimet tona, “ndjenja” është karakteristika e emocionit: pozitive (australiansi “jo keq!”) ose negative (“Unë urrej filmin”). Sarkazma përcaktohet si një formë ironie verbale që synon të shprehë tallje ose përçmim (“Unë e dua të më injorojnë”).

Për të ndërtuar BESSTIE, ne mbledhëm dy lloje të të dhënave: rishikime të vendeve në Google Maps dhe postime në Reddit. Ne kemi përzgjedhur me kujdes temat dhe kemi përdorur parashikues të ndryshimit të gjuhës – modelet e AI-së të specializuara në zbardhjen e ndryshimit të gjuhës së një teksti. Ne zgjodhëm tekste që parashikoheshin të kishin më shumë se 95% probabilitet për një ndryshim të caktuar të gjuhës.

Dy hapat (filtrimi i vendndodhjes dhe parashikimi i ndryshimit të gjuhës) siguruan që të dhënat përfaqësojnë ndryshimin kombëtar, si anglishtja australiane.

Pastaj, ne përdorëm BESSTIE për të vlerësuar nëntë modele të fuqishme të mëdha të gjuhës, të lira për përdorim, duke përfshirë RoBERTa, mBERT, Mistral, Gemma dhe Qwen.

Pretendime të tepruara

Në përgjithësi, ne gjetëm se modelet e mëdha të gjuhës që testuam punuan më mirë për anglishten australiane dhe britanike (të cilat janë variante vendase të anglishtes) sesa për variantin jo vendas të anglishtes indiane.

Ne gjithashtu gjetëm se modelet e mëdha të gjuhës janë më të mira në zbardhjen e ndjenjës sesa në sarkazmë.

Sarkazmi është veçanërisht sfidues, jo vetëm si një fenomen gjuhësor por edhe si një sfidë për AI. Për shembull, ne zbuluam se modelet ishin në gjendje të zbulonin sarkazmin në anglishten australiane vetëm 62% të kohës. Ky numër ishte më i ulët për anglishten indiane dhe atë britanike – rreth 57%.

Këto performanca janë më të ulëta se ato të pretenduara nga kompanitë teknologjike që zhvillojnë modelet e mëdha gjuhësore. Për shembull, GLUE është një tabelë renditjeje që ndjek se sa mirë performojnë modelet e AI-së në klasifikimin e ndjenjës në tekstin e anglishtes amerikane.

Vlera më e lartë është 97.5% për modelin Turing ULR v6 dhe 96.7% për RoBERTa (nga grupi ynë i modeleve) – të dyja më të larta për anglishten amerikane sesa vëzhgimet tona për anglishten australiane, indiane dhe britanike.

Konteksti kombëtar ka rëndësi

Ndërsa gjithnjë e më shumë njerëz në mbarë botën përdorin modelet e mëdha gjuhësore, studiuesit dhe praktikanët po zgjohet nga fakti se këto mjete duhet të vlerësohen për një kontekst kombëtar të veçantë.

Për shembull, më herët këtë vit Universiteti i Perëndimit të Australisë së bashku me Google lançuan një projekt për të përmirësuar efikasitetin e modeleve të mëdha gjuhësore për anglishten aborigjene.

Këndi ynë i vlerësimit do të ndihmojë në vlerësimin e teknikave të ardhshme të modeleve të mëdha gjuhësore për aftësinë e tyre për të zbuluar ndjenjën dhe sarkazmin. Gjithashtu jemi duke punuar në një projekt për modelet e mëdha gjuhësore në departamentet e emergjencës së spitaleve për të ndihmuar pacientët me aftësi të ndryshme në anglisht.

The Conversation

Informacion mbi burimin dhe përkthimin

Ky artikull është përkthyer automatikisht në shqip duke përdorur teknologjinë e avancuar të inteligjencës artificiale.

Burimi origjinal: theconversation.com

Ndajeni këtë artikull