Tud a ChatGPT élőben adatokat crawlolni URL-ekről? - Nem, de ez gyakran nem is szükséges. · Christoph C. Cemper

Tartalomjegyzék

Tud a ChatGPT élőben adatokat crawlolni URL-ekről?>

Tud a ChatGPT élőben adatokat crawlolni URL-ekről? #

Egyes felhasználók szeretnék, ha az ismert OpenAI ChatGPT URL-ek beírásakor élőben crawlolná az adatokat a weboldalról és beépítené azokat az eredménybe. Ez azonban sajnos (még) utópia.

Robot, akinek gondolkodnia kell gépelés közben

Ahogy a “GPT” név is mutatja, amely a General Pretrained Transformer rövidítése, ez egy statikus, előre betanított nyelvi modell. Az “előre betanított” jellemző, és ezért kizárja az egyéni crawlolást a modell által.

Számos jelentésben az innovatív AI Chat Toolról, valamint magának az OpenAI-nak a dokumentációjában is, bőségesen ismertették, hogy az adatok, amelyeken a GPT3.5 (ChatGPT alapja) betanítást kapott, a 2021 végéig terjedő internet egy verzióját tartalmazzák.

Az alkalmazási eset szempontjából tehát sem a nyelvi modell, sem a webes felület nem alkalmas arra, hogy helyettesítsen egy SEO-eszközt, mint például a Google Search Console, ahol gombnyomásra néhány másodperc alatt lekérhető egy aktuális verzió.

De erre nincs is szükség.

Mire szolgálna a ChatGPT élő crawlolása?>

Mire szolgálna a ChatGPT élő crawlolása? #

Természetesen a keresőoptimalizálók (SEO-sok) azt szeretnék, hogy tartalmaik vagy versenytársaik elemzésekor a lehető legfrissebb adatokat használják. De a ChatGPT nem SEO crawling eszköz, és soha nem is állította magáról, hogy az lenne.

Az ötlet az, hogy egy URL legfrissebb tartalmát használjuk fel saját tartalmak létrehozásához. Különböző tartalomkészítő eszközök olyan mérési módszereket kínálnak, mint a kulcsszósűrűség vagy a kissé fejlettebb WF*IDF / TF*IDF (a 70-es évekből származó ismert koncepció, amelyet számos szövegkereső motorban használnak), hogy inspirációt adjanak a szövegíróknak átfogóbb cikkek létrehozásához, amelyek aztán jobban rangsorolódnak a keresőmotorokban. Néha holisztikus tartalmakról is beszélnek.

Most azonban a helyzet az, hogy egy olyan nyelvi modellben, mint a GPT3.5, amelyet a ChatGPT használ, a holisztikus tartalmak már eleve rendelkezésre állnak. A modell betanítása végül is (egyszerűsítve kifejezve) egy viszonylag teljes internetes crawl alapján történt. Ennek ellenére mégsem WF*IDF eszköz a szövegoptimalizáláshoz.

A “Fine Tuning” a szakkifejezés a tartalmak “utótanulására”, és ez az OpenAI más szolgáltatásainál lehetséges, de a ChatGPT-nél (még) nem. A nyelvi modell finomhangolása az új tartalmakra segíthet javítani a nyelvi modell minőségét és az AI kimenetét. A nyelvi modell betanítására fordított erőfeszítéseket azonban még jelentősebb díjakkal kell megfizetni. A ChatGPT ingyenes eszközként jelenleg nem kínálja ezt a lehetőséget, hanem csak a 2021 végéig terjedő adatokra reagál.

Miért érdemes beírni az URL-t a ChatGPT-be?>

Miért érdemes beírni az URL-t a ChatGPT-be? #

Sok szempontból gyakran nem értjük, miért válaszol egy nyelvi modell úgy, ahogy válaszol. Ez igaz magukra a ChatGPT-hez hasonló AI-k létrehozóira és üzemeltetőire is.

Ha egy meglévő, megalapozott URL-t építünk be a promptokba, akkor a modellből releváns szempontokat “következtetnek ki” (az angol “Inference” szóból), vagyis statisztikailag valószínű módon generálják őket, ahogy minden szöveges kimenet csak statisztikailag valószínű módon jön létre.

Az URL nyelvi modellbe való bevitelével tehát bizonyos horgonypontokat állíthatunk be, amelyek esetleg az adott URL alatti tartalmak régebbi verziójára utalnak. Talán csak releváns szavakat vonnak ki az URL-ből. Ez természetesen nagyban függ attól, mennyire “beszédes” az URL.

A beszédes nevekkel rendelkező URL-ek, mint a https://www.kemping-webáruházam.hu/összecsukható-matracok, természetesen jobban működnek promptokban, mint a rejtélyes URL-ek, mint a https://www.coolstuff.com/c12/p422.

De a beszédes URL-ek már 20 évvel ezelőtt is jobban működtek a Google keresőmotorban, miért ne segítenének tehát a specifikusabb információk egy modern nyelvi modellben, mint a ChatGPT?

Az URL-ek megadása azonban meglepően jól működik viszonylag jó cikkek létrehozásához az AIPRM for SEO “Outrank Article” prompt sablonával. Mint oly gyakran, az eredményt a következő promptokkal jelentősen tovább lehet javítani.

Az Outrank Article Prompt képernyőképe az AIPRM-ben

A ChatGPT néha azonnal tisztázza is, hogy nem tudja crawlolni az internetet.

A ChatGPT felváltja majd a Google keresést?>

A ChatGPT felváltja majd a Google keresést? #

Kiderül, hogy ügyes promptokkal meglepően jó tartalmakat lehet generálni, amelyek illeszkednek a már korábban létezőkhöz. A legtöbb téma esetében, mint például az összecsukható matracok, korlátozott számú téma van, és csak csekély aktualitás.

Ha a ChatGPT-től a 2023. januári mosógép-tesztgyőztest kérdezem, akkor rossz eszközt használok.

A crawling és az aktualitás iránti vágy talán abból ered, hogy heteken át izgatottan spekuláltak arról, hogy a ChatGPT lehet-e a Google-gyilkos. De ha megértjük, hogyan épül fel egy ilyen nyelvi modell, és mennyire elavultak benne a tartalmak, akkor ez nem is logikus.

Egy nyelvi modell nem keresőmotor, nem SEO eszköz, és egészen biztosan - jelenlegi formájában - nem Google-helyettesítő az aktuális tartalmak kereséséhez.

Egy 2021 végi állapotú nyelvi modell azonban nagyon praktikus konkrét és nagyon átfogó (“holisztikus”) válaszok generálásához, ha a tartalmaknak nem kell aktuálisnak lenniük. A szoftverfejlesztés alapjaihoz, kis alkalmazások összeállításához, valamint programozói tutorialokhoz nagyon alkalmas. A Caddy webszerver konfigurációs fájljainak legújabb verziójához viszont alkalmatlan.

Ha így nézzük, sok jelentés a Google lehetséges leváltásáról, még elismert forrásokból is, a mai szemlélet szerint nagyon tájékozatlannak, de főleg szenzációhajhásznak tűnik. Az érdeklődő olvasónak mindenképpen ajánlom, hogy tájékozódjon a PalM modellről, egy Google nyelvi modellről, amely több mint 500 milliárd paraméterre épül, szemben a 175 milliárddal.

A Google PalM látszólag messze felülmúlja a GPT3/GPT3.5-öt - csak sajnos ez nem szabadon elérhető. A Google, mint nyelvészeti üzleti modell, már legalább egy évtizede foglalkozik “mesterséges intelligenciával” és a GPT3-hoz hasonló nyelvi modellekkel.

Diagram forrása: https://lifearchitect.ai/iq-testing-ai/

Segíthet-e mégis a ChatGPT jó tartalmak létrehozásában?>

Segíthet-e mégis a ChatGPT jó tartalmak létrehozásában? #

A ChatGPT kimeneteit kizárólag a promptok, a beviteli parancsok vezérlik. Minél jobb a prompt, annál jobb a kimenet. Minél több kontextust kap a nyelvi modell, annál jobb.

Az URL-ek bevitele a promptba nem indít el crawling folyamatot, de ez sem nem szükséges, sem nem ígérték, hogy jó tartalmakat hozzon létre. Ha közel két hónap után “lelepleződik”, hogy ez nem így van, akkor ez kissé meglep.

Néhány felhasználó ennek ellenére esküszik arra, hogy crawling történik, mert a következtetés eredménye ugyanolyan jó. De akkor természetesen fel kell tenni a kérdést - melyik promptra? Az “összecsukható matracok” témájában 2022-ben nem történt annyi változás, hogy a nyelvi modell utótanulására szükség lett volna.

Az a kísérlet, hogy aktuális tartalmakat, például a legfrissebb sporteredményeket nyerjünk ki a statikus nyelvi modellből, szükségszerűen kudarcot vall.

Ezt a szöveget csak emberi munkaerőmmel és egy csésze kávéval készítettem el. A vesszőhibákat a Languagetool javította ki. A robotról készült képet, akinek gondolkodnia kell gépelés közben, a Midjourney segítségével készítettem.