Umelá inteligencia (AI) závisí od obrovského množstva dát, ktorých hodnota sa odhaduje na jeden bilión dolárov. Miliardár Elon Musk varuje, že táto technológia už vyčerpala primárny zdroj na svoj tréning: dáta vytvorené ľuďmi. Namiesto toho začala používať synteticky generované údaje, čo zvyšuje riziko halucinácií, vyhlásil podľa Fortune.
Inžinieri a dátoví vedci trénujú AI zjednodušením celého internetu, všetkých kníh a zaujímavých videí na „tokeny“, ktoré AI dokáže spracovať a učiť sa z nich. „Suma ľudských poznatkov bola pri tréningu AI vyčerpaná,“ uviedol E. Musk v rozhovore s CEO marketingovej spoločnosti Stagwell, Markom Pennom, ktorý odvysielali na platforme X. „To sa stalo v podstate minulý rok,“ dodal.
Aby mohli modely pokračovať v tréningu, začali používať syntetické dáta, ktoré generuje samotná AI. E. Musk prirovnal tento proces k tomu, že model napíše esej a následne si ju sám ohodnotí.
Vzdelanie je nám už zbytočné, obávajú sa vedci, ktorých prácu nahrádza AI
Technologickí giganti, ako Microsoft, Google a Meta, už využívajú syntetické dáta na tréning svojich modelov. Google DeepMind napríklad použil umelo generovanú databázu 100 miliónov jedinečných príkladov na tréning systému AlphaGeometry, aby riešil zložité matematické problémy. OpenAI v septembri predstavila model o1, ktorý dokáže kontrolovať správnosť vlastných výstupov.
Syntetické dáta majú nevýhody. E. Musk upozornil, že ich používanie zvyšuje pravdepodobnosť „halucinácií“ – nezmyselných alebo nesprávnych informácií, ktoré AI môže prezentovať ako pravdivé. Tieto nesprávne informácie, označované ako „AI slop“, už zaplavujú internet, čo vyvoláva obavy medzi odborníkmi aj používateľmi. Šéf globálnych záležitostí v Mete Nick Clegg vo februári uviedol, že spoločnosť pracuje na identifikácii AI-generovaného obsahu na jej platformách. „Ako sa hranica medzi ľudským a syntetickým obsahom stiera, ľudia chcú vedieť, kde sa táto hranica nachádza,“ napísal N. Clegg v blogovom príspevku.