Vai al contenuto

Nuevo estudio de IA de Amazon presenta Pyramid-BERT para reducir la complejidad a través de una sucesiva selección de tokens basada en conjuntos básicos

Il nuovo studio Amazon AI introduce Pyramid-BERT per ridurre la complessità tramite la successiva selezione di token basata su core set


This Article is written as a summay by Marktechpost Staff based on the paper 'Pyramid-BERT: Reducing complexity via successive core-set based token selection'. All Credit For This Research Goes To The Researchers of This Project. Check out the paper and post.

Please Don't Forget To Join Our ML Subreddit

En los últimos años, los transformadores se han convertido en un componente importante en muchos modelos de aprendizaje automático, logrando resultados de vanguardia en varias tareas de procesamiento de lenguaje natural, como traducción automática, respuesta a preguntas, clasificación de texto, etiquetado de funciones semánticas, etc. El entrenamiento previo, el ajuste fino o la inferencia de tales modelos, por otro lado, requiere una cantidad significativa de recursos informáticos. La complejidad de los transformadores proviene principalmente de una tubería de codificadores, cada uno con una capa de autoatención de varios cabezales. El proceso de autoatención es un cuello de botella importante para los datos de secuencia larga, ya que crecen cuadráticamente con la longitud de la secuencia de entrada.

Muchos estudios han intentado abordar este problema comprimiendo y acelerando los transformadores para reducir los gastos de capacitación previa y ajuste.

Un estudio reciente de Amazon propone un enfoque Select novedoso que intenta reducir gradualmente la longitud de la secuencia en la canalización del codificador. Como mencionan los investigadores en su artículo “Pyramid-BERT: Reducción de la complejidad a través de la selección sucesiva de tokens basada en conjuntos básicos”, las tareas de PNL a nivel de secuencia, como la clasificación y clasificación de textos, han influido en esta investigación.

Los modelos SOTA Transformer existentes predicen el uso de una sola incorporación desde la capa superior del codificador, como el token CLS. Mantener la secuencia completa hasta el último codificador agrega complejidad adicional en esta situación.

Su trabajo se divide en dos categorías: Seleccionar: un mecanismo para reducir la longitud de una secuencia, ya sea mediante poda o agrupación. Train-Select es un enfoque de entrenamiento o ajuste fino específico del mecanismo.

Las representaciones de tokens en las capas superiores son cada vez más redundantes. Según los investigadores, un conjunto básico compacto, compuesto por un subconjunto de tokens, puede representar naturalmente una colección de tokens con alta redundancia. Su enfoque para Select se basa en el concepto de conjuntos básicos, que se inspiró en esto.

Investigaciones anteriores han proporcionado estrategias heurísticas para reducir la longitud de la secuencia, pero su aprendizaje requiere mucho tiempo. Por el contrario, su enfoque se vuelve más exitoso a medida que crece la redundancia de la representación.

Fuente: https://www.amazon.science/blog/simplifying-bert-based-models-to-increase-efficiency-capacity

Algunos de los enfoques Train-Select requieren un enfoque completo de pre-entrenamiento. Debido a la gran calidad de su solución Select, es posible que simplemente se salten el proceso de capacitación adicional. Por el contrario, otros requieren un ajuste fino en el modelo completo sin comprimir, lo que significa mantener todos los tokens hasta la capa final del codificador. El impacto de esta simplificación es significativo, lo que mejora la velocidad y la eficiencia de la memoria no solo de la inferencia sino también del proceso de entrenamiento, lo que permite utilizar hardware normal (y scripts de entrenamiento) en el método de entrenamiento incluso para secuencias muy largas.

Los investigadores compararon Pyramid-BERT con muchas estrategias de vanguardia para hacer que los modelos BERT sean más eficientes. Sus hallazgos muestran que su método puede acelerar la inferencia de 3 a 3,5 veces mientras sacrifica solo un 1,5 por ciento de precisión, mientras que el mejor método disponible pierde un 2,5 por ciento de precisión a las mismas velocidades.

Además, afirman que cuando su método se aplica a los Ejecutantes (variaciones de los modelos BERT desarrollados específicamente para textos extensos), la huella de memoria de los modelos se reduce en un 70 % mientras que la precisión aumenta. La mejor técnica existente sufre una caída de precisión del 4% a esa tasa de compresión.

En general, su enfoque proporciona una técnica teóricamente justificada para reducir la longitud de la secuencia. Sus resultados demuestran una aceleración y una reducción de la memoria tanto para el entrenamiento como para la inferencia de transformadores. Al mismo tiempo, el modelo sufre mucho menos en términos de rendimiento predictivo en comparación con otras técnicas existentes.



Source link

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

it_ITItaliano