Egyre többen kényelmetlenül érzik magukat azzal kapcsolatban, hogy a ChatGPT hogyan használja fel a saját maga képzésére és tanítására a webes tartalmakat.
A ChatGPT-hez hasonló nagyméretű nyelvi modellek (angolul large language modell, rövidítve LLM) több információforrás, köztük webes tartalmak felhasználásával képződnek. Ezek képezik az alapját a tartalom összefoglalóinak cikkek formájában, mindez a ChatGPT képzéséhez használt eredeti tartalom közzétevőinek feltüntetése és belegyezése nélkül készül. A keresőmotorok letöltik a weboldalak tartalmát (ezt nevezik adatgyűjtésnek és indexelésnek), hogy a weboldalakra mutató linkek formájában választ adjanak. A webhelyek közzétevői a Robotok kizárási protokolljának - közismert nevén robots.txt-nek - segítségével lemondhatnak arról, hogy tartalmukat a keresőmotorok feltérképezzék és indexeljék.
A Robotok kizárási protokollja nem hivatalos internetes szabvány, de a törvényes webes keresőmotorok betartják. Használniuk kellene a weboldalak szerkesztőinek a robots.txt protokollt? Ha szeretnék megakadályozzni, hogy a nagy nyelvi modellek mint például a ChatGPT, feldolgozzák weboldaluk tartalmát, érdemes fontolóra venniük.
A nagy nyelvi modellek, mint például a ChatGPT, felhasználják a weboldal tartalmát engedély nélkül
Néhányan, akik a keresőmarketinggel foglalkoznak, kényelmetlennek érzik azt, hogy a weboldalaik adatait a gépek betanítására használják anélkül, hogy bármit is visszaadnának, például visszaigazolást vagy forgalmat. Hans Petter Blindheim (LinkedIn profil), a Curamando vezető szakértője megosztotta a gondolatait.
"Ha egy szerző ír valamit, miután elolvasta és tanult valamit a webhelyeden található cikkből, akkor leggyakrabban az eredeti munkádra hivatkozik, mert ez hitelességet ad, és nem mellesleg a szakmai udvariasság szabályai is ezt diktálják. Ezt hívják hivatkozásnak. De az a mérték, amellyel a ChatGPT tartalmat dolgoz fel, és nem ad vissza semmit, megkülönbözteti mind a Google-tól, mind az emberektől.
Egy weboldal általában üzleti irányelvek alapján jön létre. A Google segít az embereknek megtalálni a tartalmat amit keresnek, forgalmat biztosítva, ami kölcsönös haszonnal jár. De ez szituáció nem olyan, mintha a nagy nyelvi modellek engedélyt kértek volna a tartalom felhasználására, csak tágabb értelemben használják azt, mint amit a tartalom publikálásakor elvártak. És ha az AI nyelvi modellek nem nyújtanak semmit cserébe - miért engednék meg a kiadók, hogy feltérképezzék és felhasználják a tartalmaikat?
Megfelel az AI tartalom felhasználása a tisztességes felhasználás normáinak?
Amikor a ChatGPT és a Google saját ML/AI (gépi tanulás / mesterséges intelligencia) modelljei engedély nélkül a tartalmaidon fejlesztik magukat, kiforgatják és felhasználják, miközben nem generálnak forgalmat a weboldaladra - nem kellene-e az iparágnak és a törvényhozóknak is megpróbálniuk visszavenni az internet feletti ellenőrzést azzal, hogy rá kényszerítik őket egy olyan modellre, ahol beleegyezés szükséges ha fel szeretnék használni az adataid?"
A Hans Petter által megfogalmazott aggodalmak ésszerűek. Tekintettel arra, hogy milyen gyorsan fejlődik a technológia, a tisztességes felhasználásra vonatkozó törvényeket újra kellene gondolni? John Rizvi, a szellemi tulajdonjog területén bejegyzett szabadalmi ügyvivő(LinkedIn profil), aki a szellemi tulajdonjogok területén szerzett szakvizsgát, így gondolkozik arról, hogy az internetes szerzői jogi törvények elavultak-e.
"Igen, kétségtelenül. Az ilyen ügyek egyik fő kulcs témája az, hogy a jog elkerülhetetlenül sokkal lassabban fejlődik, mint a technológia. Az 1800-as években ez talán nem számított annyira, mert a fejlődés viszonylag lassú volt, és így a jogi gépezet többé-kevésbé ehhez tudott igazodni. Napjainkban azonban a száguldó technológiai fejlődés messze meghaladta a jog lépéstartási képességét. Egyszerűen túl gyors a fejlődés és túl sok a mozgó alkatrész ahhoz, hogy a jog lépést tudjon tartani vele.
A jog jelenlegi formájában, amelyet nagyrészt olyan emberek alkotnak és alkalmaznak, akik aligha szakértői az itt tárgyalt technológiai területeknek. A jog nem rendelkezik megfelelő felszereléssel vagy struktúrával ahhoz, hogy lépést tartson a technológiával és figyelembe kell vennünk, hogy ez nem egy teljesen rossz dolog.Tehát egy szempontból igen, a szellemi tulajdonjognak fejlődnie kell, ha egyáltalán azt akarja, sőt reméli, hogy lépést tud tartani a technológiai fejlődéssel.
Az elsődleges probléma az egyensúly megteremtése aközött, hogy lépést tartsunk a technológia különböző felhasználási módjaival, miközben visszatartjuk magunkat a kirívó túlkapásoktól vagy a jóindulatú szándéknak álcázott politikai haszonszerzés céljából történő nyílt cenzúrától. A jognak arra is ügyelnie kell, hogy ne írjon elő olyan széles körű jogszabályokat a technológia lehetséges felhasználási módjai ellen, amelyek megfojtják az azokból származó potenciális előnyöket. Az pedig, hogy évekkel vagy évtizedekkel előre próbáljuk meg kitalálni a technológia minden elképzelhető felhasználási módját, rendkívül veszélyes és ostoba dolog lenne.
Az ilyen helyzetekben a jog nem tehet mást, mint hogy reagál arra, ahogyan a technológiát használják... nem feltétlenül arra, ahogyan azt tervezték. Ez valószínűleg nem fog egyhamar megváltozni, hacsak nem érünk el egy masszív és váratlan technológiai csúcsot, amely időt ad a jognak, hogy felzárkózzon az aktuális eseményekhez."
Úgy tűnik tehát, hogy a szerzői jogi törvények kérdésében számos szempontot kell mérlegelni, amikor a mesterséges intelligencia tanításáról van szó, és a válasz nem egyszerű.
Mit gondol önmaga jogi használatáról a ChatGPT?
"A ChatGPT által előállított tartalmak kereskedelmi célú felhasználása általában legális, feltéve, hogy rendelkezik a megfelelő engedélyekkel és licencekkel. Az OpenAI által képzett nagyméretű nyelvi modellként a ChatGPT a beszélgetés kontextusa alapján generál szöveget, és az általa előállított konkrét válaszok a kapott bemenettől függően változnak. Ha a ChatGPT által generált tartalmat kereskedelmi célokra kívánja felhasználni, akkor a felhasználási eset konkrét körülményeitől függően engedélyt kell beszereznie az OpenAI-tól vagy a megfelelő jogtulajdonosoktól. Mindig fontos meggyőződni arról, hogy rendelkezik-e a szükséges engedélyekkel és licencekkel, mielőtt bármilyen tartalmat kereskedelmi célokra használna."
A nagy nyelvi modellek és adathalmazok háttere
A nagyméretű nyelvi modellek több adathalmazon tanulnak. Ezek állhatnak e-mailekből, könyvekből, kormányzati adatokból, Wikipedia-cikkekből, sőt, akár legalább három szavazattal rendelkező Reddit bejegyzésekből is. Az internet tartalmával kapcsolatos számos adatkészlet a Common Crawl nevű nonprofit szervezet által létrehozott kereső adatbázisból származik. Az általuk létrehozott Common Crawl adatkészlet ingyenesen letölthető és használható (link).
A Common Crawl adatkészlet a kiindulópontja számos más, belőle létrehozott adathalmaznak. A GPT-3 például a Common Crawl egy szűrt változatát használta (Language Models are Few-Shot Learners PDF).
A GPT-3 kutatói így használták fel a Common Crawl adatkészletben szereplő weboldaladatokat
"A nyelvi modellekhez használt adathalmazok villámgyorsan bővültek, és a Common Crawl adathalmazban csúcsosodtak ki... amely közel egy trillió szót tartalmaz. Ez az adathalmaz mérete elegendő ahhoz, hogy a legnagyobb modelljeinket úgy képezzük, hogy soha nem frissítjük kétszer ugyanazt a szekvenciát. Azt tapasztaltuk azonban, hogy a Common Crawl szűretlen vagy enyhén szűrt változatai általában gyengébb minőségűek, mint a jobban átkutatott adathalmazok. Ezért 3 lépést tettünk adathalmazaink átlagos minőségének javítása érdekében:
- letöltöttük és megszűrtük a CommonCrawl egy változatát aszerint, hogy milyen hasonlóságot mutat egy sor kiváló minőségű hivatkozási ponthoz
- a dokumentum szinten adattömörítést hajtottunk végre az adat készleteken belül és azok között, hogy megakadályozzuk a felesleges adatokat és megőrizzük a visszatartott hitelesítési készletünk sértetlenségét, mint a túlteljesítés pontos mérőszámát,
- CommonCrawl kiegészítése és sokszínűségének növelése érdekében ismert, kiváló minőségű referenciákat is hozzáadtunk a képzési mixhez."
A Google C4 adathalmaza (Colossal/kolosszális, Cleaned/letisztult, Crawl/kereső, Corpus/vállalati, amelyet a Text-to-Text Transfer Transformer (T5) létrehozásához használtak, szintén a Common Crawl adathalmazban gyökerezik. A kutatási dokumentumuk (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer PDF) kifejti:
"Mielőtt bemutatnánk a nagyszabású gyakorlati vizsgálatunk eredményeit, áttekintjük az eredményeink megértéséhez szükséges háttér témákat, beleértve a Transformer modell felépítését és az általunk értékelt downstream feladatokat. Bemutatjuk továbbá azt a megközelítésünket, amellyel minden problémát szöveg-szöveg feladatként kezelünk, és ismertetjük a "Colossal Clean Crawled Corpus" (C4), a Common Crawl-alapú adathalmazunkat, amelyet a címkézetlen szövegadatok forrásaként hoztunk létre. Modellünket és keretrendszerünket "Szövegből szövegbe transzformátornak" (T5) nevezzük."
A Google közzétett egy cikket az AI blogján, amely tovább magyarázza, hogyan használták a Common Crawl adatokat a C4 létrehozásához. "Az átadásos tanulás fontos összetevője az előzetes képzéshez használt címkézetlen adathalmaz. Ahhoz, hogy pontosan mérni lehessen az előképzés mennyiségének növelésének hatását, olyan adathalmazra van szükség, amely nemcsak jó minőségű és változatos, hanem masszív is. A meglévő előképzési adathalmazok nem felelnek meg mindhárom kritériumnak - például a Wikipedia szövege jó minőségű, de egységes stílusú és a mi céljainkhoz viszonylag kevés, míg a Common Crawl webes tördelések hatalmasak és rendkívül változatosak, de meglehetősen alacsony minőségűek.
E követelmények kielégítésére fejlesztettük ki a Colossal Clean Crawled Corpus-t (C4), a Common Crawl megtisztított változatát, amely nagyságrendekkel nagyobb, mint a Wikipédia. Tisztítási folyamatunk magában foglalta a tömörítést, a hiányos mondatok elvetését, valamint a sértő vagy zajos tartalmak eltávolítását. Ez a szűrés jobb eredményekhez vezetett a későbbi feladatokban, míg a további méret lehetővé tette a modell méretének növelését anélkül, hogy az előképzés során túl optimalizáltuk volna a modellt".
A Common Crawl-t le lehet-e tiltani?
Lehetőség van a Common Crawl letiltására, és ezt követően a Common Crawl-on alapuló összes adat készletből való kilépésre. De ha a webhelyet már feltérképezték az adatbázisba, akkor a webhely adatai már szerepelnek az adat készletekben. Nincs mód arra, hogy tartalmát eltávolítsa a Common Crawl adatkészletből és a többi származtatott adatkészletből, mint például a C4 és az Open Data.
A Robots.txt protokoll használata csak a Common Crawl jövőbeli feltérképezéseit blokkolja, de nem akadályozza meg a kutató programokat abban, hogy az adatkészletben már szereplő tartalmakat használják.
Hogyan lehet blokkolni a Common Crawl-t az adataitól?
A Common Crawl blokkolása a Robots.txt protokoll használatával lehetséges, a fent említett határokon belül. A Common Crawl bot neve CCBot.
Azonosítása a legfrissebb CCBot User-Agent karakterlánc segítségével történik: CCBot/2.0 A CCBot blokkolása a Robots.txt segítségével ugyanúgy történik, mint bármely más bot esetében.
Íme a kód a CCBot blokkolásához a Robots.txt segítségével.
User-agent: CCBot
Disallow: /
A CCBot az Amazon AWS IP-címeiről keres. A CCBot követi a nofollow Robots meta taget is:
<meta name="robots" content="nofollow">
Mi van, ha nem blokkolod a Common Crawl-t?
A webes tartalmak engedély nélkül is letölthetők, a böngészők így működnek, ők töltik le a tartalmakat. A Google-nek vagy bárki másnak nincs szüksége engedélyre ahhoz, hogy letöltse és felhasználja a nyilvánosan közzétett tartalmakat.
A weboldal szerkesztőinek korlátozott lehetőségei vannak
A kérdés, hogy etikus-e a mesterséges intelligencia webes tartalmakon való fejlesztése és tanítása, úgy tűnik, hogy nem képezi részét a technológia fejlesztéséről szóló beszélgetésnek.Magától értetődőnek tűnik, hogy az internetes tartalmakat le lehet tölteni, össze lehet foglalni és át lehet alakítani egy ChatGPT nevű termékké, a tartalom gyártók bármiféle beleegyezése nélkül.