Transformátory, prevládajúca architektúra v oblasti umelej inteligencie, ktorá stojí za modelmi ako OpenAI Sora, Anthropic Claude, Google Gemini a GPT-4, začínajú narážať na svoje limity. Ich neefektívnosť pri spracovaní veľkého množstva dát a vysoká spotreba energie vedú výskumníkov k hľadaniu nových riešení. Jedným z nich sú test-time training (TTT) modely, ktoré by mohli priniesť revolúciu v oblasti generatívnej AI.
Základom transformátorov je mechanizmus pozornosti, ktorý im umožňuje sústrediť sa na relevantné časti vstupných dát. Tento mechanizmus však vyžaduje uchovávanie informácií o všetkých predchádzajúcich krokoch spracovania, čo vedie k vysokej výpočtovej náročnosti, najmä pri práci s veľkým množstvom dát.
OpenAI vyvíja model umelej inteligencie Strawberry, ktorý má myslieť logicky ako človek
TTT modely tento problém riešia nahradením mechanizmu pozornosti interným modelom strojového učenia. Tento model, na rozdiel od transformátorov, nepotrebuje uchovávať informácie o všetkých predchádzajúcich krokoch spracovania. Namiesto toho sa učí reprezentovať vstupné dáta pomocou menšieho počtu parametrov, čo výrazne znižuje výpočtovú náročnosť a zvyšuje efektivitu modelu.
Hoci je táto technológia ešte v plienkach, potenciál TTT modelov je zásadný. Vývojári veria, že by mohli túto schopnosť spracovania rôznych typov dát ešte výrazne zlepšiť a zefektívniť v porovnaní so súčasnými modelmi. Najmä pri spracovaní rozsiahlych sekvencií dát a zložitých úloh, ako je napríklad generovanie dlhých videí vo vysokej kvalite alebo analýza mohutných textových korpusov v reálnom čase.