Kodo Balsas

„Titans“ ir MIRAS: ilgalaikė AI atmintis ir platesnis kontekstas

3 min readAutorius: Kodo Balsas
DI pasitikejimo reitingas:
4/5(Aukštas)

„Titans“ ir MIRAS sistemos įveda AI ilgalaikę atmintį ir gebėjimą apdoroti milžiniškus kontekstus, sujungiant RNN greitį su „Transformer“ tikslumu.

„Transformer“ architektūra revoliucionavo sekų modeliavimą, tačiau susidūrė su didėjančiomis skaičiavimo sąnaudomis ir apribojimais apdorojant itin ilgus kontekstus. Nors nauji modeliai, tokie kaip „Mamba-2“, pasiūlė greitesnį mastelio keitimą, jie vis tiek negalėjo efektyviai užfiksuoti visos informacijos iš ilgos sekos. Siekdami įveikti šiuos apribojimus, pristatome „Titans“ architektūrą ir MIRAS sistemą – proveržį, leidžiantį AI modeliams efektyviau apdoroti milžiniškus kontekstus ir įgyti ilgalaikę atmintį realiuoju laiku, sujungiant RNN greitį su „Transformer“ tikslumu.

„Titans“: dinamiškas mokymasis ir ilgalaikė atmintis

„Titans“ įdiegia naujovišką gilųjį neuroninį tinklą kaip ilgalaikės atminties modulį, skirtingai nei tradiciniai fiksuoto dydžio RNN vektoriai. Šis modulis leidžia modeliui apibendrinti didelius informacijos kiekius neprarandant svarbaus konteksto, veiksmingai sintezuojant ir suprantant visą informaciją, o ne tik ją kaupiant.

Pagrindinis „Titans“ bruožas yra „staigmenos metrika“. Modelis naudoja vidinį signalą (gradientą), kad selektyviai atnaujintų savo ilgalaikę atmintį tik pačia naujausia ir kontekstą keičiančia informacija. Pavyzdžiui, jei modelis apibendrina finansinę ataskaitą ir susiduria su „banano nuotrauka“, „staigmenos metrika“ bus didelė, nurodydama, kad ši netikėta informacija turi būti įsimenama. Tai užtikrina greitą ir efektyvų apdorojimą. Sistemoje taip pat integruojami „momentas“ (atsižvelgiant į dabartinę ir praeities staigmeną) ir „užmiršimas“ (adaptyvus svorio mažinimas, siekiant valdyti atminties talpą), kad būtų optimizuotas atminties valdymas.

MIRAS: vieningas sekų modeliavimo požiūris

MIRAS sistema suteikia teorinį pagrindą, suvienijantį sekų modeliavimo pasiekimus. Ji apibrėžia sekos modelį per keturis pagrindinius aspektus: atminties architektūrą, dėmesio šališkumą, išlaikymo vartus ir atminties algoritmą. MIRAS atskleidžia, kad visi pagrindiniai sekų modeliai iš esmės sprendžia tą pačią problemą: kaip efektyviai derinti naują informaciją su senomis atmintimis.

Skirtingai nuo tradicinių modelių, kurie remiasi vidutine kvadratine paklaida (MSE) arba taškine sandauga, MIRAS leidžia kurti naujas architektūras su neeuklidiniais tikslais ir reguliarizavimu, įveikiant ankstesnių metodų apribojimus ir padidindami išraiškingumą. Naudodamiesi MIRAS, sukūrėme specifinius modelius:

  • YAAD: mažiau jautrus „išskirtims“, naudojantis švelnesnę baudos funkciją (Huber nuostolių funkciją).
  • MONETA: tiria sudėtingesnes matematines baudas (apibendrintas normas) stabilesnei ilgalaikei atminčiai.
  • MEMORA: siekia maksimalaus atminties stabilumo, priverčiant atmintį veikti kaip griežtą tikimybinį žemėlapį.

Eksperimentai ir rezultatai

„Titans“ ir MIRAS variantai (YAAD, MONETA, MEMORA) buvo kruopščiai palyginti su pirmaujančiomis architektūromis, tokiomis kaip „Transformer++“, „Mamba-2“ ir „Gated DeltaNet“. Eksperimentai, apimantys kalbos modeliavimą, genomikos modeliavimą ir laiko eilučių prognozavimą, parodė nuosekliai geresnį tikslumą ir mažesnį painumą.

Gilios atminties galia: Abliaciniai tyrimai patvirtino, kad atminties architektūros gylis yra itin svarbus, užtikrinantis geresnį mastelį ir našumą didėjant sekos ilgiui.

Ekstremalus ilgo konteksto atšaukimas: „Titans“ žymiai pranoko visus etaloninius modelius, įskaitant didelius modelius, tokius kaip GPT-4, „BABILong“ teste, reikalaujančiame samprotavimų itin ilgų dokumentų kontekste. „Titans“ sėkmingai apdoroja kontekstus, viršijančius 2 milijonus žetonų.

Apibendrinant, „Titans“ ir MIRAS sistema žymi esminį proveržį sekų modeliavime. Naudodami giliuosius neuroninius tinklus kaip atminties modulius, jie įveikia fiksuoto dydžio pasikartojančių būsenų apribojimus. MIRAS suteikia galingą teorinį suvienijimą, atveriantį duris naujos kartos sekų modeliams, kurie sujungia RNN efektyvumą su išraiškinga galia, reikalinga ilgo konteksto AI erai.

#Tech#Development