Meta acaba de lanzar una nueva e impresionante herramienta llamada SeamlessM4T. Este elegante modelo de IA puede transcribir y traducir casi 100 idiomas, y es un gran paso adelante para hacer que las barreras del idioma sean cosa del pasado.
La compañía afirma que SeamlessM4T, hace traducción automática masiva multilingüe y multimodal, puede convertir voz en texto y texto en voz en casi 100 idiomas. Identifica 100 idiomas de entrada y los convierte en 35 idiomas de salida para funciones de voz a voz y texto a voz.
Debido a que se distribuye bajo la licencia Creative Commons CC BY-NC 4.0, los investigadores son libres de mejorarlo. La información de SeamlessAlign, parte del conjunto de datos de traducción abierta de Meta, también estuvo disponible junto con SeamlessM4T. A diferencia de los grandes modelos de traducción existentes que dividen la traducción entre varios sistemas, SeamlessM4T hace el trabajo de traducción completo en una sola operación, según Meta, lo que lo convierte en "un avance significativo".
Meta SeamlessM4T funciona bastante rápido
Si SeamlessM4T funciona según lo previsto, uno de sus aspectos intrigantes es su supuesta capacidad para detectar el cambio de código o la transición entre dos o más idiomas dentro de una sola frase.
Cuenta con el potencial de discernir instantáneamente cuando un hablante combina idiomas, como se demuestra en un video donde distingue sin esfuerzo entre hindi, telugu e inglés. Esta capacidad podría revolucionar la comunicación intercultural, fomentando un mundo donde el idioma ya no sea una barrera.
"De acuerdo con nuestro enfoque de ciencia abierta, estamos lanzando públicamente SeamlessM4T bajo una licencia de investigación para permitir a los investigadores y desarrolladores ejecutar este trabajo. También estamos lanzando los metadatos de SeamlessAlign, el conjunto de datos de traducción multimodal abierto más grande hasta la fecha. totalizando 270,000 horas de alineaciones de voz y texto", dice Meta.
Para producir modelos más livianos y administrar más información, Meta afirmó que modificó su caja de herramientas de modelado de secuencias Fairseq para generar SeamlessM4T.
Según Meta, creó un sistema que puede reconocer frases dañinas o delicadas al crear SeamlessM4T. Según la definición dada por Meta, las palabras tóxicas son aquellas cuya "traducción puede incitar al odio, la violencia, la blasfemia o el abuso". El objetivo es poder identificar casos en los que la toxicidad introducida por la traducción resultante no ha existido previamente en el contenido original.