Vai al contenuto

Il nuovo studio Amazon AI introduce Pyramid-BERT per ridurre la complessità tramite la successiva selezione di token basata su core set

Il nuovo studio Amazon AI introduce Pyramid-BERT per ridurre la complessità tramite la successiva selezione di token basata su core set


This Article is written as a summay by Marktechpost Staff based on the paper 'Pyramid-BERT: Reducing complexity via successive core-set based token selection'. All Credit For This Research Goes To The Researchers of This Project. Check out the paper and post.

Please Don't Forget To Join Our ML Subreddit

Negli ultimi anni, i trasformatori sono diventati una componente significativa in molti modelli di apprendimento automatico, ottenendo risultati all’avanguardia su varie attività di elaborazione del linguaggio naturale come traduzione automatica, risposta alle domande, classificazione del testo, etichettatura dei ruoli semantici e così via. Il pre-addestramento, la messa a punto o la deduzione di tali modelli, d’altro canto, richiede una quantità significativa di risorse informatiche. La complessità dei trasformatori deriva principalmente da una pipeline di codificatori, ciascuno con uno strato di auto-attenzione multi-testa. Il processo di auto-attenzione è un collo di bottiglia importante per i dati di lunga sequenza poiché crescono quadraticamente con la lunghezza della sequenza di input.

Molti studi hanno tentato di affrontare questo problema comprimendo e accelerando i trasformatori per ridurre le spese di pre-formazione e messa a punto.

Un recente studio di Amazon propone un nuovo approccio Select che cerca di ridurre gradualmente la lunghezza della sequenza nella pipeline dell’encoder. Come menzionano i ricercatori nel loro articolo “Pyramid-BERT: riduzione della complessità tramite la successiva selezione di token basata su core set”, le attività della PNL a livello di sequenza come la classificazione e la classificazione del testo hanno influenzato questa ricerca.

I modelli SOTA Transformer esistenti prevedono l’utilizzo di un’unica incorporazione dal livello superiore del codificatore, come il token CLS. Mantenere la sequenza completa fino all’ultimo codificatore aggiunge ulteriore complessità in questa situazione.

Il loro lavoro è diviso in due categorie: Select: un meccanismo per ridurre la lunghezza di una sequenza, tramite potatura o pooling. Train-Select è un approccio di addestramento o messa a punto specifico del meccanismo.

Le rappresentazioni dei token nei livelli superiori stanno diventando sempre più ridondanti. Secondo i ricercatori, un core-set compatto, costituito da un sottoinsieme dei token, può naturalmente rappresentare una raccolta di token ad alta ridondanza. Il loro approccio per Select si basa sul concetto di set base, che è stato ispirato da questo.

Ricerche precedenti hanno fornito strategie euristiche per ridurre la lunghezza della sequenza, ma l’apprendimento richiede molto tempo. Al contrario, il loro approccio diventa più efficace con l’aumentare della ridondanza della rappresentazione.

Fonte: https://www.amazon.science/blog/simplifying-bert-based-models-to-increase-efficiency-capacity

Alcuni degli approcci Train-Select richiedono un approccio completo di pre-formazione. A causa della grande qualità della loro soluzione Select, possono semplicemente saltare il processo di formazione aggiuntivo. Al contrario, altri richiedono una messa a punto sul modello completamente non compresso, il che significa mantenere tutti i token fino al livello finale dell’encoder. L’impatto di questa semplificazione è significativo, che migliora la velocità e l’efficienza della memoria non solo dell’inferenza ma anche del processo di addestramento, consentendo di utilizzare hardware normale (e script di addestramento) nel metodo di addestramento anche per sequenze molto lunghe.

I ricercatori hanno confrontato Pyramid-BERT con molte strategie all’avanguardia per rendere i modelli BERT più efficienti. I loro risultati mostrano che il loro metodo può accelerare l’inferenza da 3 a 3,5 volte sacrificando solo l’1,5% di precisione, mentre il miglior metodo disponibile perde il 2,5% di precisione alle stesse velocità.

Inoltre, affermano che quando il loro metodo viene applicato agli esecutori ––variazioni sui modelli BERT sviluppati specificamente per testi lunghi––l’impronta di memoria dei modelli è ridotta del 70% mentre la precisione è aumentata. La migliore tecnica esistente subisce un calo di precisione del 4% a quel tasso di compressione.

Nel complesso, il loro approccio fornisce una tecnica teoricamente giustificata per ridurre la lunghezza della sequenza. I loro risultati dimostrano un’accelerazione e una riduzione della memoria sia per l’addestramento del trasformatore che per l’inferenza. Allo stesso tempo, il modello soffre molto meno in termini di prestazioni predittive rispetto ad altre tecniche esistenti.



Source link

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

it_ITItaliano