Las empresas son generando más vídeos que nunca. Desde años de archivos de transmisión hasta miles de cámaras de tiendas e innumerables horas de material de producción, la mayor parte permanece sin usar en servidores, no observado y no analizado. Esto es datos oscuros: un recurso masivo y sin explotar que las empresas recopilan automáticamente pero que casi nunca utilizan de manera significativa.

Para abordar el problema, Aza Kai (CEO) y Hiraku Yanagita (COO), dos ex empleados de Google que pasaron casi una década trabajando juntos en Google Japón, decidieron crear su propia solución. El dúo cofundó menteinfinitauna startup con sede en Tokio que desarrolla infraestructura que convierte petabytes de vídeo y audio no vistos en datos comerciales estructurados y consultables.

“Mi cofundador, que pasó una década liderando soluciones de datos y marcas en Google Japón, y yo vimos llegar este punto de inflexión cuando todavía estábamos en Google”, dijo Kai. Para 2024, la tecnología había madurado y la demanda del mercado se había vuelto lo suficientemente clara como para que los cofundadores se sintieran obligados a construir la empresa ellos mismos, añadió.

Kai, quien anteriormente trabajó en Google Japón en la nube, el aprendizaje automático, los sistemas publicitarios y los modelos de recomendación de video y luego dirigió equipos de ciencia de datos, explicó que las soluciones actuales exigen una compensación. Los enfoques anteriores podían etiquetar objetos en cuadros individuales, pero no podían rastrear narrativas, comprender la causalidad o responder preguntas complejas sobre el contenido del video. Para clientes con décadas de archivos de transmisión y petabytes de metraje, incluso las preguntas más básicas sobre su contenido a menudo quedaban sin respuesta.

Lo que realmente cambió fue el progreso en los modelos de visión y lenguaje entre 2021 y 2023. Fue entonces cuando la IA de video comenzó a ir más allá del simple etiquetado de objetos, señaló Kai. La caída de los costos de la GPU y las ganancias de rendimiento anual de aproximadamente un 15-20% durante la última década ayudaron, pero la historia más importante fue la capacidad hasta hace poco, los modelos simplemente no podían hacer el trabajo, dijo a TechCrunch.

InfiniMind obtuvo recientemente 5,8 millones de dólares en financiación inicial, liderada por UTEC y a la que se unieron CX2, Headline Asia, Chiba Dojo y un investigador de IA en a16z Scout.. La empresa trasladará su sede a EE. UU., mientras continúa operando una oficina en Japón. Japón proporcionó el banco de pruebas perfecto: hardware sólido, ingenieros talentosos y un ecosistema de startups de apoyo., permitiendo al equipo perfeccionar su tecnología con clientes exigentes antes de globalizarse.

Su primer producto, TV Pulse, se lanzó en Japón en abril de 2025. La plataforma impulsada por IA analiza el contenido televisivo en tiempo real, ayudando a las empresas de medios y minoristas a “realizar un seguimiento de la exposición del producto, la presencia de la marca, el sentimiento del cliente y el impacto de las relaciones públicas”, según la startup. Después de programas piloto con las principales emisoras y agencias, ya cuenta con clientes de pago, incluidos mayoristas y empresas de medios.

Evento tecnológico

Boston, Massachusetts
|
23 de junio de 2026

Ahora, InfiniMind está lista para el mercado internacional. Su producto estrella, DeepFrame, una plataforma de inteligencia de video de formato largo capaz de procesar 200 horas de metraje para identificar escenas, oradores o eventos específicos, está programado para un lanzamiento beta en marzo, seguido de un lanzamiento completo en abril de 2026, dijo Kai.

Créditos de imagen: mente infinita

El espacio del análisis de vídeo está muy fragmentado. Empresas como TwelveLabs proporcionan API de comprensión de video de uso general para una amplia gama de usuarios, incluidos consumidores, prosumidores y empresas, dijo Kai, mientras que InfiniMind se enfoca específicamente en casos de uso empresarial, incluido el monitoreo, la seguridad y el análisis de contenido de video para obtener información más profunda.

“Nuestra solución no requiere código; los clientes traen sus datos y nuestro sistema los procesa, proporcionando información útil”, dijo Kai. “También integramos comprensión de audio, sonido y voz, no solo imágenes. Nuestro sistema puede manejar una duración de video ilimitada y la rentabilidad es un diferenciador importante. La mayoría de las soluciones existentes priorizan la precisión o los casos de uso específicos, pero no resuelven los desafíos de costos”.

La financiación inicial ayudará al equipo a continuar desarrollando el modelo DeepFrame, ampliar la infraestructura de ingeniería, contratar más ingenieros y llegar a clientes adicionales en Japón y EE. UU.

“Este es un espacio apasionante, uno de los caminos hacia la AGI”, afirmó Kai. “Comprender la videointeligencia general implica comprender la realidad. Las aplicaciones industriales son importantes, pero nuestro objetivo final es ampliar los límites de la tecnología para comprender mejor la realidad y ayudar a los humanos a tomar mejores decisiones”.

Fuente