Nová výskumná štúdia spochybňuje prístup trénovania umelej inteligencie na veľkých objemoch online dát a varuje pred možnou chybou vo vývoji AI systémov. Výskumníci zistili, že keď sú modely AI trénované na dátach, ktoré zahŕňajú obsah generovaný samotnou AI, ich výkon sa časom zhoršuje, čo je fenomén nazývaný kolaps modelov.
Ten nastáva, keď sa AI četboty, ako napríklad ChatGPT, trénujú na dátach stiahnutých z webových stránok, článkov a komentárov. Niektorí odborníci vyjadrili obavy, že tieto modely sa časom stanú menej presnými a v podstate sa zrútia, ak budú trénované na obsahu generovanom AI, a nie skutočnými ľuďmi.
Štúdia publikovaná v časopise Nature poukazuje na to, že súčasný spôsob trénovania neúmyselne vytvára a potenciálne nezmyselné výsledky. Chyby z jedného modelu sa cyklicky zhoršujú spracovaním ďalším modelom, čím sa AI vzďaľuje od reality, kvalita údajov degraduje, až kým výzvy používateľov v podstate neprinesú nezrozumiteľný text.
Súčasná umelá inteligencia je hladná a neefektívna. Nahradiť ju majú nové TTT modely
Hoci kolaps modelov zostáva do značnej miery teoretickou obavou, štúdia poznamenáva, že budúce modely AI sa budú nevyhnutne trénovať na údajoch vytvorených ich menej dokonalými predchodcami. Texty, videá a obrázky generované AI sa už aktuálne šíria po webe a prakticky nekontrolovane prenikajú do všetkých oblastí online priestoru. Technologické spoločnosti vrátane veľkých hráčov na trhu ako Meta, Google a Anthropic tiež experimentujú s trénovaním modelov na syntetických údajoch, ktoré vytvárajú pomocou generatívnej AI.
Zistenia štúdie by mohli byť zdvihnutým prstom pre spoločnosti zaoberajúce sa AI, aby si zabezpečili prístup ku kvalitným údajom generovaným ľuďmi, čo môže byť nákladné. Nie je jasné, či tieto údaje samy o sebe postačujú na uspokojenie potrieb technologických spoločností, no podľa výskumníkov je nevyhnutné, aby si vývojári AI zachovali prístup k autentickým tréningovým dátam. Problém je v tom, že neexistuje jednoduchý spôsob, ako spoľahlivo identifikovať obsah generovaný AI vo veľkom meradle.
Sociálne siete ako Facebook sa už aktuálne pokúšajú takýto obsah označovať a tým ho jasne odlíšiť aj v rámci boja proti dezinformáciám. Označovanie je však založené hlavne na dobrovolnosti používateľov, čo nepochybne nebude stačiť na to, aby sa podarilo spoľahlivo oddeliť obsah generovaný AI a ľuďmi. Ako riešenie sa zrejme ponúka vytrénovanie špecializovanej umelej inteligencie na detekciu a oddelenie kontaminovaných dát od tých autentických.