Mbajtja e Uebit të qëndrueshëm nën peshën e qerreve të AI-së

Starchy Grant
5 min lexim
Teknologji
Mbajtja e Uebit të qëndrueshëm nën peshën e qerreve të AI-së

Nëse menaxhoni një faqe në uebin e hapur, me shumë gjasa keni vënë re një rritje të madhe të trafikut gjatë muajve të fundit, pavarësisht nëse faqja juaj ka pasur më shumë shikues, dhe nuk jeni vetëm. Operatorët kudo kanë vërejtur një rritje të jashtëzakonshme të trafikut të automatizuar—bote dhe në shumicën e rasteve e atribuojnë këtë të gjithë ose pjesërisht kompanive të AI-së.

Sfondo

AI—në veçanti, Modelet e Gjerë të Gjuhës (LLMs) dhe AI gjeneruese (genAI)—bazohet në mbledhjen sa më shumë informacioni nga burime të rëndësishme (p.sh., "tekste të shkruara në anglisht" ose "fotografi") për të ndërtuar një model funksional dhe bindës që përdoruesit do të ndërveprojnë më vonë. Ndërsa kompanitë e AI-së në pjesë dallohen nga të dhënat mbi të cilat trajnojnë modelet e tyre, ndoshta burimi më i madh i informacionit—i disponueshëm falas për të gjithë ne—është uebi i hapur.

Për të mbledhur të gjitha këto të dhëna, kompanitë dhe studiuesit përdorin programe automatike të quajtura scraper (nganjëherë të referuara nga termi më i përgjithshëm "bote") për të "kërcuar" mbi lidhjet e disponueshme ndërmjet faqeve të ndryshme dhe për të ruajtur llojet e informacionit që u ngarkohen. Scrapers janë mjete me histori të gjatë, dhe shpesh të dobishme: shërbime si motorët e kërkimit, Arkivi i Internetit, dhe të gjitha llojet e kërkimeve shkencore i mbështeten ato.

Kur scraper-at nuk përdoren me kujdes, megjithatë, ato mund të kontribuojnë në rritjen e kostove të hostimit, uljen e performancës, dhe madje edhe ndërprerjen e faqeve, sidomos kur operatorët shohin shumë prej tyre duke operuar në të njëjtën kohë. Në afat të gjatë, kjo mund të çojë disa faqe të mbyllen në vend që të përballojnë këtë presion.

Kompanitë e AI-së për fitim duhet të sigurojnë që nuk do të helmëzojnë burimin e uebit të hapur që mbështeten në një kërkim të shpejtë për të dhëna trajnimi.

Bote: Dëgjoje Dhomën

Ekzistojnë praktika më të mira që ata që përdorin scraper duhet të ndjekin. Kur botët dhe operatorët e tyre injorojnë këto udhëzime, ata dërgojnë një sinjal tek operatorët e faqeve, ndonjëherë në mënyrë të qartë, se ata mund ose duhet të ndërpresin aksesin, të pengojnë performancën, dhe në rastin më të keq, mund të çojnë në mbylljen e faqes për të gjithë përdoruesit. Disa kompani duket se ndjekin këto praktika më shumë kohë, por po shohim raporte dhe prova në rritje të botëve të reja që nuk e bëjnë këtë.

Së pari, scraper-at duhet të ndjekin udhëzimet që janë dhënë në skedarin robots.txt të një faqeje, qofshin këto për të ulur shpejtësinë e kërkimit, përjashtuar disa rrugë, ose për të mos kërkuar fare në faqen.

Së dyti, botët duhet të dërgojnë kërkesat e tyre me një varg User Agent të shënuar qartë, i cili tregon operatorin, qëllimin, dhe një mënyrë kontakti.

Së treti, ata që operojnë scraper duhet të ofrojnë një proces për operatorët e faqeve për të kërkuar ulje të shpejtësisë, kufizime, përjashtime, dhe për të raportuar sjellje problematike përmes informacionit të kontaktit ose formave të përgjigjes së lidhura me User Agent-in.

Masa për Operatorët e Faqeve

Sigurisht, nëse po menaxhoni një faqe që përballet me një fluks trafiku kërkues, pritja që botët të ndryshojnë sjelljen e tyre për më mirë mund të mos jetë e realizueshme. Ja disa masa të sugjeruara, edhe pse jo të përsosura, bazuar pjesërisht në përvojat tona të herëpashershme.

Së pari, përdorni një shtresë cache. Në shumicën e rasteve, një Rrjet i Përçueshmërisë së Përmbajtjes (CDN) ose një "platformë në skaj" (në thelb një version më i ri i një CDN-së) mund ta ofrojë këtë për ju, dhe disa shërbime ofrojnë një nivel falas për përdorues jo-komercialë. Gjithashtu, ka shumë projekte të shkëlqyera nëse preferoni vetë-hostimin. Disa prej mjeteve që kemi përdorur për cache përfshijnë varnish, memcached, dhe redis.

Së dyti, konvertoni në përmbajtje statike për të shmangur leximet e burimeve të rënda të bazës së të dhënave. Në disa raste, kjo mund të ulë nevojën për cache.

Së treti, përdorni kufizime të shpejtësisë të synuara për të ngadalësuar botët pa mbyllur të gjithë faqen tuaj. Por, kini parasysh se kjo mund të bëhet e vështirë kur scraper-at përpiqen të maskohen duke përdorur vargje të rreme User Agent ose duke shpërndarë një flotë kërkuesish në shumë adresa IP.

Masa të tjera si validimi në anën e klientit (p.sh., CAPTCHA ose prova e punës) dhe fingerprinting kanë kompromis në privatësi dhe përdorshmëri, dhe ne këshillojmë kundër përdorimit të tyre pa menduar mirë paraprakisht.

Ku Shkojmë Nga Këtu?

Për të përsëritur, çfarëdo opinioni që keni për këto vegla të veçanta të AI-së, scraping vetë nuk është problemi. Aksesimi i automatizuar është një teknikë themelore e arkivistëve, shkencëtarëve kompjuterikë, dhe përdoruesve të përditshëm që shpresojmë të jetë e qëndrueshme—me kusht që të bëhet në mënyrë jo shkatërruese. Megjithatë, e kuptojmë se jo të gjithë implementuesit do të ndjekin sugjerimet tona për botët më sipër, dhe që masat tona janë të avancuara teknikisht dhe të papërfunduara.

Duke parë që shumë botë operojnë për të njëjtin qëllim në të njëjtën kohë, duket se ka mundësi për t'u ofruar këtyre konsumatorëve të të dhënave të automatizuara përmbajtje të përshtatura përmbajtje të ofruesve të të dhënave, duke hequr nevojën për çdo kompani AI që të skrapojë çdo faqe në internet, dukshëm, çdo ditë.

Dhe nga ana e operatorëve, shpresojmë të shohim më shumë teknologji të hostimit të uebit dhe kornizash që ndërtohen me ndërgjegjje për këto çështje që nga dita e parë, ndoshta duke ndërtuar përgjigje si gjenerimi i përmbajtjes statike në kohë të duhur ose endpoint-e të dedikuara për kërkuesit.

Informacion mbi burimin dhe përkthimin

Ky artikull është përkthyer automatikisht në shqip duke përdorur teknologjinë e avancuar të inteligjencës artificiale.

Burimi origjinal: www.eff.org

Etiketat

#Botët E Uebit #Siguria E Uebit #Scraping #Trafiku I Automatizuar

Ndajeni këtë artikull