desarrollador francés Mistral AI está lanzando un nuevo conjunto de modelos de lenguaje diseñados para brindar capacidades de inteligencia artificial de alta gama a más personas, independientemente de dónde se encuentren, qué tan confiable sea su acceso a Internet o qué idioma hablen.
La compañía anunció el martes un nuevo modelo de lenguaje grande, llamado Mistral Large 3, destinado a usos amplios y de propósito general. Piense en ChatGPT o Gemini. Los otros modelos vienen en una variedad de tamaños y capacidades y están diseñados para usarse en los propios dispositivos. Estos modelos más pequeños pueden funcionar en computadoras portátiles, teléfonos inteligentes, automóviles o robots, y pueden ajustarse para realizar tareas específicas.
Todos los modelos son de código abierto y de peso abierto, lo que significa que los desarrolladores que los utilizan pueden ver cómo funcionan y modificarlos para adaptarlos a sus necesidades. “Creemos profundamente que esto hará que la IA sea accesible para todos, básicamente la pondrá en sus manos”, dijo en una entrevista Guillaume Lample, cofundador y científico jefe de Mistral AI.
Mistral AI, fundada por ex investigadores de Google DeepMind y Meta, no es un nombre tan grande en los EE. UU. como rivales como OpenAI y Anthropic, pero es más conocido en Europa. Junto a los modelos disponibles para investigadores y empresas, ofrece un chatbot llamado Le Chat, que está disponible a través del navegador o en tiendas de aplicaciones.
Modelos de IA diseñados para ser multilingües
Lample dijo que la compañía tiene el objetivo con su nuevo conjunto de modelos de proporcionar capacidades de inteligencia artificial de vanguardia y de alta gama que sean de código abierto y accesibles. Parte de eso tiene que ver con el idioma. La mayoría de los modelos de IA populares en EE. UU. están diseñados principalmente para usarse en inglés, al igual que las herramientas de evaluación comparativa que comparan las capacidades de los modelos. Y si bien esos modelos son capaces de funcionar en otros idiomas y traducir, es posible que no sean tan buenos como sugieren los puntos de referencia cuando se usan en idiomas distintos del inglés, dijo Lample.
Mira esto: ¿Puede la IA desarrollar una adicción al juego? Las guerras de los navegadores impulsadas por la IA y el futuro del trabajo con Jason Hiner de ZDNET | Tecnología hoy
Mistral AI quería que sus nuevos modelos funcionaran mejor para hablantes de todos los idiomas, por lo que aumentó la cantidad de datos de entrenamiento en idiomas distintos del inglés en proporción a los datos en inglés. “Creo que la gente normalmente no presiona demasiado las capacidades multilingües porque si lo hacen, también deteriorarán un poco el desempeño en los puntos de referencia populares que todos ven”, dijo Lample. “Entonces, si realmente quieres que tu modelo brille en los puntos de referencia populares, tienes que sacrificar el (rendimiento) multilingüe. Y a la inversa, si quieres que el modelo sea realmente bueno en multilingüe, entonces tienes que renunciar a los puntos de referencia populares, básicamente”.
Una variedad de tamaños para una variedad de usos.
Además del modelo Mistral Large 3 de uso general, con sus 675 mil millones de parámetros totales, hay tres modelos más pequeños llamados Ministral 3 (3 mil millones, 8 mil millones y 14 mil millones de parámetros), cada uno de los cuales viene en tres variedades, para un total de nueve. (Un parámetro es el peso o función que le dice a un modelo cómo manejar sus datos de entrada. Los modelos más grandes son mejores y más capaces, pero también necesitan más potencia de cálculo y funcionan más lentamente).
Las tres variedades de modelos más pequeños se dividen de esta manera: un modelo base que el usuario puede modificar y ajustar, uno ajustado por Mistral para que funcione bien y uno creado para razonar que dedica más tiempo a iterar y procesar una consulta para obtener una mejor respuesta.
Leer más: Conceptos básicos de IA: 29 formas en las que puede hacer que la IA Gen funcione para usted, según nuestros expertos
Según Lample, los modelos más pequeños son particularmente importantes ya que muchos usuarios de IA quieren algo que realice una o dos tareas bien y de manera eficiente en lugar de modelos generales grandes y costosos. Los desarrolladores pueden personalizar estos modelos para esos trabajos específicos, y una persona o empresa puede alojarlos en sus propios servidores, ahorrando el costo de ejecutarlos en un centro de datos en algún lugar.
Los modelos más pequeños también pueden funcionar en dispositivos específicos. Uno pequeño podría ejecutarse en su teléfono inteligente, uno un poco más grande en su computadora portátil. Esto tiene beneficios para la privacidad y la seguridad (sus datos nunca salen de su dispositivo), así como ahorro de costos y energía.
Un modelo pequeño que se ejecuta en el dispositivo tampoco necesita acceso a Internet para funcionar, lo cual es vital cuando se piensa en el uso de la IA en cosas como robots y automóviles, donde no es el caso contar con Wi-Fi confiable para que las cosas funcionen correctamente.





