7. Multimodalidad: Cómo combinar texto, imagen y voz en tus proyectos de IA

Puntos Destacados

Definición de multimodalidad y sus diferencias con multicanalidad.
Combinación de formatos: texto, imagen, voz y video.
Casos prácticos de aplicación en negocios.
Comparación entre diferentes IAs (Claude, GPT, DeepSeek).
Implementación progresiva y consideraciones técnicas.

Descripción del Episodio

En este séptimo episodio del podcast, los hosts exploran el concepto de multimodalidad en la inteligencia artificial, analizando cómo la combinación de texto, imagen, voz y video puede potenciar las soluciones empresariales y mejorar la experiencia del usuario en diferentes contextos.

Diferencias entre multimodalidad (formatos) y multicanalidad (canales).
Aplicaciones empresariales: atención al cliente, análisis de productos, documentación interactiva.
Comparativa entre diferentes motores de IA y sus personalidades.
Consideraciones técnicas para implementación efectiva.
Estrategia de mínimo producto viable para adopción gradual.
Futuro de la integración entre plataformas y formatos.

[00:00]Inteligencia Artificial para Negocios, episodio 7. Multimodalidad. Cómo combinar texto, imagen y voz en tus proyectos con IA

Muy buenas a todos y bienvenidos a este episodio número 7 del podcast Inteligencia Artificial para Negocios con ustedes Iván Acuña y señor Luis Martínez acompañándonos, acompañándonos en el recorrido de este mundo, que es la inteligencia artificial que vada a los negocios y sobre todo impulsando ideas, impulsando sueños y realidades con esta tecnología para poder así y compartirles nuestras experiencias. Y compartirle todo lo que podemos llegar a hacer. Vamos a dar introducción al tema, no sin antes recordarles que pueden ingresar a cifsa digital punto com.

Ahí encuentran todos nuestros servicios, productos y demás para poder saber cómo podemos ayudarles a potenciar realmente la operación de su negocio con inteligencia artificial, ya sea algo ya desarrollado, algo a la medida, algo que puede implementar muy sencillamente o tan complejo como así lo decen cifsa digital punto com. Señor Luis, muy buenas tardes.

Qué tal, ¿cómo están? Buenas tardes. Pues aquí ya listos y hoy vamos a hacer una dinámica diferente.

Vamos a estarle con preguntándole a los a los tres compadres. Nos falta uno, pero ese no tiene tanta habilidad para para el texto, es más para otras cosas técnicas. Vamos a estar platicando con nuestro amigo oriental dip sick, nuestro ya conocido uno 0 mini y también tenemos por acá a sonnet 3.7 a ver qué qué opiniones tienen al respecto del tema que vamos a ver el día de hoy.

La otra version 3.7 que salió antier, antier, parecen 3, 4 días con esta tecnología y estamos viendo que realmente el aprendizaje profundo y la análisis de dentro del contexto lo mayor posible es muy avanzado. Este 3.7 me está gustando bastante, pero bueno, primero multimodalidad. ¿Qué qué qué se refiere a multimodalidad?

Sabemos que con el lanzamiento del primer. La primer tecnología al público que fue hecha el GPT y comenzó el mundo del del texto. Todos los usuarios empezaron a interactuar con la inteligencia artificial a través del texto.

Esto quiere decir que se empezó a ver las posibilidades. Primero de la interpretación de lo que le estamos introduciendo a los modelos. Y segundo, ¿cómo puedo ir más allá además de un texto?

Porque las imágenes es algo que potencia mucho el entendimiento tanto del de los motores como del usuario. Entonces la multimodalidad nace y empezó con el texto para después pasando la imagen para después dividirse o difurcarse, como dice el señor Luis, en voz y posterior en vídeo. Multimodalidades.

Hoy estoy viendo aquí que tienen diferentes personalidades.

Un pequeño paréntesis para que la audiencia lo sepa, pues tenemos a diferentes proyectos. Uno que es interesante de estar presumiendo es aquel proyecto en el que ponemos a platicar como si tuviéramos una sala de juntas con diferentes inteligencias. Ponemos a desarrollar un tema a las diferentes inteligencias y nos arroja ciertos resultados.

Es como si tuvieras una sala de juntas con gerentes que sí participan. Ninguno está cabeceando, ninguno está en su teléfono. Ninguno está cobrando vacío su nómina.

Porque vaya que cobran con lo justo. Yo diría que lo justo cada uno de ellos. Y, por ejemplo, aquí tengo a nuestro amigo asiático, Deep Sik, que hay muchas cosas que se dicen de él que son mentira y otras que no se dicen que son bastante relevantes.

Pero, bueno, el primero, Deep Sik nos dice que este este proceso de multimodalidad nos lo dice así como muy llano. Dice es texto, imagen y voz juntos crean una experiencia completa como si estuvieras en una película que necesitas ver imagen, audio y estar en un lugar cómodo, ¿no? El guión.

Después, este GPT nos dice un DJ en una fiesta, junta imágenes, texto y voz para darle flow a tus proyectos. Que conste que no le estoy pidiendo ningún tipo de expresiones así coloquiales ni nada. Esto me lo está dando así.

Que aburrido.

Desde el GPT estoy usando, perdón. Dije que estaba usando 0.1 mini o 1 mini. Es o 3 mini.

El que estamos utilizando, es que estoy utilizando ahorita. Y el Vanagloriado 3.7 Sonnet nos explica esta multimodalidad como cuando vas a un restaurante y no sólo te traen comida rica, sino que también está presentada hermosamente y además suena una música ambiental.

Y bueno, desde mi punto de vista, yo lo yo lo vería desde un enfoque diferente a lo que. A lo que dicen estos tres entidades. Yo creo que la multimodalidad es necesaria para cuando ya diste el segundo paso.

O sea, el primer paso dentro de una empresa para mí creo que sería pues acercarte a un chatbot, algún tipo de respuesta, a algún análisis de datos, o sea, un proceso nomás para ver cómo, cómo jala esta madre y ya después te puedes clavar a la multimodalidad. No, o sea que es por ejemplo, tienes un proceso de publicaciones en redes sociales. Por ahí saludos a toda la audiencia que nos escuchen, nos ven redes sociales y ven las publicaciones.

Bueno, pues ya saben que los avatares de Iván están, escribe y escribe y escribe en chinga todo el tiempo. Habrá que defender. Él dice que si escribe sus propias entradas de blog, este habrá que habrá que revisarlo.

Pero bueno. Pero eso es un escenario donde tienes puro texto, una publicación y luego al texto le agregas una imagen. Y después, para mí, la multimodalidad tiene otras dimensiones que es OK, sales por correo electrónico, pero ese correo electrónico sale ya con parámetros, ideas, conocimientos o en general información sobre a quién le va a llegar ese correo electrónico.

Se genera una una posiblemente una cita hablando de un generador de citas. Generas una cita y luego hay una interacción. Ya puede ser la interacción por voz, por whatsapp.

Entonces ya lo pasaste por lo menos por tres canales, que es el de redes sociales, el de mail, el de teléfono, el de whatsapp puede” ser y de ahí te lo llevas al calendario. De ahí te lo llevas a generar incluso hasta un video. Próximamente estaremos viendo ahí videos de del holograma de de Iván.

Ya salió que.

Que bueno, todo todavía. Él dice, no mames, que estoy así de así, así tengo la cara y dice, pues de esta madre me está deformando. Habrá que perfeccionar todavía más la tecnología.

No creo que pondré a esta madre.

No creo que sea la tecnología, dice. A eso eso es lo que yo entiendo por multimodalidad, o sea que estás hablando en diferentes plataformas, pero al final es un solo ambiente donde posiblemente no esté trabajando un solo motor, sino que tengas a diferentes motores interconectados que consultan la misma información, o se quedan de ver en el mismo lobby, por decirlo de una manera de una serie de diferentes departamentos. Y todos coinciden en un lugar para platicarse lo que hicieron, sus resultados y luego poder, pues tener algún tipo de retroalimentación.

Creo que estoy muy un poco abstracto. Traté de aterrizarlo con este ejemplo de de mandas un mail, lo capturas, ya sabes la información de la empresa, le mandas una llamada y luego esa llamada tiene un resultado, le mandas un WhatsApp, generas una cita, le das seguimiento y empiezas, incluso hasta hacer el levantamiento. Todo eso se puede, pero son diferentes canales.

Creo que ese es el aspecto que yo le daría a la multimodalidad, y no lo que están diciendo tanto estos estos tres motores, creo que más bien yo pienso que parte por el hecho de que tienes varias maneras de poder introducir y sacar información de los asistentes, independientemente de la tecnología que estés usando, que ya lo dijiste muy puntual. Es más bien cómo introduzco el la información deseada para poder obtener el resultado que se busca. El tema de multimodalidad es diferente que multicanalidad.

Es decir, podemos tener un asistente en distintos lados, pero este asistente solamente recibe un tipo de información. Texto, imágenes, audio. O podemos tener un asistente en muchos lados, recibiendo muchos formatos.

Es más bien un tema de formato de cómo, cómo nos entrega la información, cómo la introducimos para poder llevar a cabo ya la tarea final. Pero ahora aplicándole a los negocios, ¿qué es la multimodalidad? ¿Cómo lo utilizo yo actualmente?

Si bien Luis me mencionó que estamos desarrollando. Todo el alcance de las redes sociales a través de este tipo de herramientas o de tecnología se basa mucho en qué es lo que voy a lograr en los negocios, ¿qué es lo que quiero buscar? Porque la tecnología está y está para quien desee utilizarla.

Si no, sin embargo, si no tiene un objetivo claro, por más que tengas muchos modales, muchas maneras de presentarlo, pues no vas a llegar a ningún lado. Entonces, en términos de negocios, en términos de. De empresa, lo que veo es la presentación de la información de una manera distinta, no solamente en términos de texto, términos planos, no solamente en audio, sino una manera más creativa de presentar y sobre todo hacer las cosas mucho más sencillas y rápidas con el objetivo único de que te conozcan, por lo menos a menos como yo lo estoy utilizando.

Estoy viendo que el que contesta más rápido es 3.7 Sonnet, el que mejor, el que lo hace un poquito más familiar. O sea, tal vez si tienes problemas en hablar como un robot, o sea, si tienes, mira, yo lo definiría así. Si tienes habilidades sociales, usa Cloud.

Si no las tienes, usas los demás.

Porque lo que estoy, lo que estoy viendo aquí es, por ejemplo, estoy, estoy plasmando la misma idea, exactamente la misma idea la estoy replicando con los tres. La premisa es discute conmigo que pasa si la multimodalidad puede ser diferentes canales o lo que tú dijiste. Las diferentes formas de entregar la información.

Sonnet dice, ah, me pillaste una confusión común. La multimodalidad tiene dos significados en el mundo digital. Uno es combinar formatos y otra cosa es modificar, utilizar diferentes canales.

Como ya lo dijiste. Si podría esa respuesta la pudieras haber sustituido por una respuesta de Cloud. Seguramente saldría más barata para la empresa.

Y en Ambientes con IA la cosa se pone más interesante, dice Cloud. Tu asistente virtual puede responderle por texto, gráfico o hablarle. Todo sea lo que según necesitas.

Luego, GPT03mini nos dice, imagina que tu mensaje es un superhéroe con múltiples poderes, correo, voz, redes, etcétera. Cada canal con su propio escenario. Y el truco está en mantener la esencia de tu marca adaptando el estilo a cada ambiente.

Luego, por otro lado, Dipsyck responde, mail, perfecto para algo formal y detallado como un menú de cinco pasos. Voz, ideal para algo rápido y personal. Un podcast de recetas express.

Redes sociales. Ahí va directo al meme o al reel. Captas la atención en segundos.

O sea. Nos están, tienen como personalidades distintas. Cabe mencionar que los tres, bueno, Dipsyck estamos con Dipsyck R1.

También para mencionarlo. Y los tres tienen respuestas completamente diferentes al mismo prompt. Eso es normal.

Sin embargo, me llama la atención que uno sí tiene la posibilidad de. Desarrollar este. Me pillaste como si tuvieras así un.

Una personalidad, una caracterización y de este lado Dipsyck en el extremo completamente opuesto es esto, esto, esto, para que lo entiendas rápido. Con ejemplos a SAS este analógicos. Yo creo que si hay el tema de de creo que el reto está cuando combinas estos elementos de si la multicanalidad, pero también las diferentes formas de entregarle información.

Ahí creo que viene como uno de los grandes retos para las empresas, que es adaptarse. Permitirse o darse la oportunidad. Sí, claro, no, no viene desde que llegó el Internet, por ejemplo, desde que entraron las computadoras y así.

Pero por ejemplo, ahorita lo veo como.

Como si fuera una cacería de brujas esperando a ver a qué hora sale mal. Para que cualquier elemento digan es que no sirve el asistente, es que no hace esto. Por ejemplo, nos ha pasado de que.

Como que hay una percepción de esta tecnología, como por un lado que tuviera personalidad propia, cosa que no es así. Y la otra es que. De que toma decisiones adivinando las cosas.

Y aquí la multicanalidad tiene un reto. Debemos de hacer una estandarización de los diferentes, tanto canales como resultados, para que en el mismo ambiente hagan sentido. Y no se vuelvan peras con manzanas, fresas con uvas y así, sino que todo termine en un equilibrado cóctel de frutas.

Ya estoy contestando también como la, como los motores de inteligencia. Ya lo estoy llevando a la a la abstracción. Entonces, sí, las peras pueden ir con las manzanas.

Siempre es cuando estemos en una charola de cóctel de frutas. Pero para eso hay que dar un proceso a la información. Hay que hacer una estructuración de información.

Y pues esto es donde, donde, donde la no es la IA quien va a dictar, sino es la propia empresa, la necesidad de la información quién va a dictar, cómo se hace eso, eso que se está pidiendo.

Sobre todo porque estamos hablando en términos empresariales. O sea, si fuera de usuario simple a pie, pues no importaría mucho cómo estás en tu ente, en tu en la información. Pero en términos empresariales, pues sí se debe de tener la delicadeza de meter la información lo más limpia posible, lo más sanitizadas.

Si le quieren llamar más técnica.

Para poder incluso que estén de a perdón, incluso que estén de acuerdo con nos acaba de pasar esta semana no que nos dicen oye, necesito que estos sean los pasos a seguir, no que primero se haga una validación de ABC y luego uno, dos, tres. Y luego llega el otro gerente y nos dice no, primero es el uno y luego la hay, luego la ve y luego el dos, y luego la se y luego el tres. Y entonces no puede hacer las dos cosas a la vez, o sea, definan su estructura.

El pedo está antes donde los seres humanos se tienen que poner de acuerdo y creo que también hay un problema.

No, no espero de tecnología. Estamos hablando de otra cosa. Comunicación.

Casos de uso empresariales. Puntos importantes a ver la multimodera. Ya ha dicho todo el contexto y toda la definición de las ideas.

Lo que lo veo muy claro es en atención a cliente, como siempre, la atención a cliente destacando porque pues es donde está el mayor volumen de ese tipo de interacciones con sus propios usuarios. En dónde va a entrar. Texto.

Y es lo que vendemos también. Simple, sencillo, común.

Y es lo que vendemos.

Aparte.

Cómo no manejarlo.

Texto para poder hacer las primeras interacciones y poder dar contexto a los asistentes lo más, lo mayor posible para poder hacer una conversación mucho más fluida, limpia y que las partes tengan una resolución. No texto, imagen para comprobar ciertos parámetros, ciertas puntos donde hay que llevar a los asistentes hacia algún lado. Llámese comprobantes de pago, llámese pantallazos de errores dentro de sistemas.

Estos paras casos particulares entre la multimodalidad para poder dar el contexto, lo mayor asistente y poder así trazar la ruta hacia la respuesta indicada del usuario. Segundo. Análisis de productos y servicios.

Ah, sí. Porque lo mismo reitero, las imágenes nos proporcionan un contexto más enriquecido hacia los asistentes. Sin embargo, es probable que este tipo de imágenes sean muy estáticas y esta multimodalidad ya no sea tan óptima que te pueda dar un chat sencillo.

Vale. Y documentación técnica interactiva. Am.

Es probable. Que los mismos asistentes generen documentaciones avanzadas donde, donde se requiera tener o captar ciertas imágenes, como lo puede ser. Se me ocurre un ejemplo de un.

E algún armado o algún instructivo donde te va procesando las imágenes en vivo conforme el usuario lo requiera. Estos son los casos de uso que estoy dislumbrando aquí de bote pronto. Sin embargo, el el grueso del uso de esta tecnología va a estar siempre en el tenis en el clíptes.

¿Qué es lo que dice de este lado? A ver, a mí se me ocurriría casos de uso prácticos. Pues me voy a permitir presumir los proyectos que traemos, ¿no?

Primero, este generación automática de cotizaciones, asistencia y soporte para la facturación, asistentes de venta, asistentes de soporte técnico, asistentes de cobranza, generación de tickets, generación de mails, búsqueda y crawling de prospectos, generación de citas. ¿Qué más hacemos en tus tiempos libres? Pues que su plantilla para el QR, para la contraseña, para.

¿Qué más se ocupa? ¿Necesitas una página en media hora? También se puede armar.

Estática, obviamente, no, no más con un formulario. Y al otro, pues nos toma con tu hora y media. ¿Qué dicen de este lado?

DeepSic coincide contigo. Atención a clientes.

Normalmente.

Atención a clientes. Marketing inteligente. No coincido mucho con DeepSic en cuanto a dice reuniones eficientes.

Pues nada, es un texto speech. No necesariamente tiene que hacer un análisis tan profundo.

O no necesariamente es una reunión catalogado como tal, güey.

Ajá. Entrenamiento de empleados. Eso creo que podría ser bastante interesante.

Bueno, pues nosotros me faltó ese, ese, ese, ese producto. La asistente de reclutamiento que tenemos por ahí. Este ventas personalizadas.

Ehm, y de este lado GPT dice, ehh, bancos. Pues creo que es el menos creativo este, carnal. GPT.

Aseguradoras, apps, alertar a clientes. No, no, no. La verdad es que 0-3-mini definitivamente sirve para otras cosas.

Este, ehh, y 3.7 Cloud Sonnet dice, ehh, soporte técnico multimodal en el retail, en los bancos, en la manufactura, operaciones de, ehh, instrucciones visuales, comandos de voz, feedback táctil. Pues sí, sí, hay varios casos que nosotros no hemos explorado, pero creo que los que hemos explorado, pues son, hospitales. Pues bastante diversos, o sea, el tema de si hay en la parte de soporte, qué necesitas para una cita, ¿por ejemplo?

¿Cuándo hacer una cita? Pues básicamente un asistente que sabe hacer su jale y que y que no está supeditado a cambios de humor, vacaciones, o sea, está alejado de cualquier ápice sindicalista.

Vaya infraestructura y consideraciones técnicas. Bueno, primero, ¿qué tan técnico quieres llegar a ser? Quieres desarrollar lo infos, quieres utilizar herramientas de alguien más, quieres utilizar infraestructura de alguien más.

Y como siempre, la tercerización es lo más eficiente, porque ahorras mucho tiempo en desarrollo y investigación. Sin embargo, he dicho de otra manera, lo más sencillo o la tecnología que podrías utilizar es la de open ahí que te que es. Pienso que te es suficiente en el menos en el 90 95 por ciento de los casos o los que hemos tratado con eso suficiente.

Si tienes en cuenta la documentación tanto de texto como de imagen y pues por video por API aún no está, no está disponible al público en general. Vale, entonces. Ah, bueno, los audios con whisper y todo eso también.

Pero más que una consideración técnica es tienes tus pros como siempre, como reitero en los últimos siete episodios, tienes tus procesos bien mapeados. Entonces es como el punto principal y crucial de la consideración técnica para mí. Porque de ahí ya se desenvuelve las rutas hacia las herramientas y hace todo el perfil técnico que se requiere.

Voy a retomar algo que se dijo por ahí en el en el episodio anterior. No es no es tecnológico, pero es un requisito importante. Lectura y comprensión de nivel secundaria.

Eso es, este, sin ciudad de redacción, alguien que sepa. Bueno, ahí sí está más cabrón, porque es alguien que sepa ordenar sus ideas y sí es un poquito más, más complicado. Un punto, creo que aquí, un punto clave con lo que nos hemos estado topando es cuando conversamos, por ejemplo, con otros equipos de de de de de áreas de tecnología.

De repente surgen las preguntas, no mames, que puedes hacer eso. Y la respuesta no está en la tecnología, no está en saber este o conocer alguna librería que haga su magia, sino simplemente es el decir, ah, mira, pues es que en vez de brincarle de aquí para acá, das un pasito chiquito y luego le das un briquito chiquito y lo voy a hacer grande. O sea, de repente son cuestiones más lógicas o arquitectónicas que realmente de tecnología.

O sea, no, no a veces le damos la vuelta así. Y el pedo aquí, creo que es, o sea, son entretenidas esas conversaciones con otros equipos porque nos permiten saber qué otros fierros hay, qué otras tecnologías hay, qué otros trampolines para dar brincos hay. Y de este lado, pues también pueden conocer algo, ¿no?

0.3 mini se queda muy, muy corto en las respuestas, por ejemplo, para considerar los requisitos mínimos para considerar. Define una estrategia, elige los canales y asegúrate que la la la capacita tu equipo. O sea, no mames, o sea, eso lo hubiera podido yo saber.

Que este. No sé, con cualquier. En cualquier otra imagen, ¿no?

Aquí el tema es retar como que tan propositivos pueden ser. El asistente 3.7 sonnet. Antes de lanzarte a la multa multimodalidad, piensa en tu infraestructura, tu red, tus servicios, tu procesamiento de voces que lo vas a utilizar.

La accesibilidad.

No sé, no, ¿porque no?

Y siendo un poco inclusivo, cada canal debe tener sus alternativas. O sea, estamos hablando de arquitectura, de redundancias, etcétera. Por supuesto, el presupuesto, amigo.

Así me dice, wey, amigo, wey. El presupuesto, implementar la multimodalidad, no es barato. Al inicio, necesitas hardware, software, entrenamiento, pero piensa en el ROY a largo plazo.

O sea, esta madre ni siquiera le considere la parte económica, ya me está llevando al mundo del capitalismo. ¿Por qué no? Y luego, de este lado, DeepSec, igual con su característica concretud, objetivo claro, tecnología adecuada, datos de calidad, experiencia del usuario, cuida la privacidad y seguridad, haz pruebas y ajustes.

Coincide con que el equipo tiene que estar capacitado. Y piensa en la escalabilidad. Yo creo que enfatizaría en el equipo capacitado y la capacitación solo se trata de leer y escribir, que a veces puede ser un reto, ¿no?

Organizar las ideas y ahí me iría dentro de sus capacitaciones. Antes de meter a alguien a un proyecto, pergúntenle qué es la gramática, qué es la lógica y denle un texto pequeño para el análisis y comprensión, porque de repente uno se lleva unas sorpresas.

La prueba.

Ándale a ver qué tanto saben mentir. Y la otra, pues pónganle pruebitas, aunque sea.

Aunque sea pruebas de definiciones básicas, no que puedan visualizar o abstraer de que se está hablando, porque a veces digo y nos lo han confesado así, tal cual nos dicen. Es que yo no tengo nada que ver con front. De repente nos hablas de front.

No entiendo un coño de lo que me estás diciendo. No, de repente acá este el señor está en desn. Nos habla sobre no, pues es que la consola dos puntos diagonal y luego le das para arriba, para abajo, izquierda, derecha, golpe fuerte y listo.

Ya sale lo que andamos buscando. Entonces si es algo complejo, porque aquí tenemos que hablar para integrar, si tiene que haber dentro de su equipo, alguien yo lo resumiría así. Alguien de arquitectura, alguien de front, alguien de back y alguien de ia.

Que sepas muy avanzado, pues yo yo creo que es que estás, tú estás hablando de una implementación y in house como tal, y de desarrollo y todo, pero. AM pienso. Que es mucho más sencillo que esto que estás diciendo, o sea, eh, sí, lo que tú dices es correcto, técnicamente es correcto, pero en términos de negocio, bueno, estás yendo por un lado muy muy largo y sinoso donde, donde si la empresa no conoce realmente el poder de la inteligencia artificial vas a utilizar a personas que piensas que sí, cuando en realidad apenas están explorando.

Entonces creo que el punto o desafío es más allá del equipo técnico es este.

Quiero que lleguen trajeados y luego no tienen ni palgaz. Dices para bañarse es más que eso.

Es definir correctamente los procesos y cómo voy a utilizarlos. Es para mí ese punto es como el clave y la lo resumiría todo todo un podcast. En ese.

Procesos definidos. Procesos que se pueden automatizar, procesos que pueden llevar a la inteligencia artificial y listo. No ocupo más todo lo demás se puede porque pues aquí estamos para eso.

Trabajamos eso digital punto com se puede hacer. Pero sin un proceso claro vas a empezar a dar brincos y brincos y brincos y regresarte sobre tu mismo eje porque no se ha definido correctamente el uso de esta inteligencia artificial. Así sean audio, así sean voz, así sea como sea.

No va a haber manera, vale. Puntos finales. ¿Hacia dónde va la tecnología?

Pues cada vez estamos viendo que las herramientas tienen integraciones lo más amplias posibles, es decir, el uso de X, Y, Z herramienta que tienen salidas con X o Y canales para poder así lograr los objetivos. Lo que veo, lo que vislumbro es la integralidad, con más plataformas para así obtener dos cosas. Primero, para qué se está utilizando este tipo de herramientas de multimodalidad.

Y segundo, la data que está obteniendo una vez ejecutada las órdenes o los procesos. Es lo que yo, yo estoy bien integrada sobre todo.

Mientras le pregunto a estos personajes, yo lo pondría como media con un solo punto en conclusión. Váyanse en Lin Projects. O sea, definan el mínimo producto viable.

No se metan en pedos. Mi recomendación muy personal para generar un poquito más de controversia. No se metan en pedos de que el PMO y que de que esto del agilismo y de que eso es un a veces.

Cuando estamos comenzando con esto e esas herramientas. E pues terminan burocratizando, entorpeciendo, tropezando los procesos. Cuando en realidad solo podrías necesitar ni siquiera un producto, o un era alguien que no conozca de tantas herramientas.

En mi experiencia, ¿por qué? Porque de repente, este, pues le metes como una. Quieres hablar usuario producción, necesitas un traductor.

Si estoy de acuerdo que a veces hace falta un traductor. Pero siento que solo entorpecen. Entonces si si si reducimos el en el en el en manufacturing o el en managing de los procesos, es identifiquemos la necesidad esencial y vamos a satisfacerla.

Por ejemplo, ¿cuál es la necesidad esencial? Oye, que yo necesito que lo hemos vivido, no necesito que alguien atienda a mis clientes por WhatsApp, porque luego se tardan hasta 15 días en contestar y pues no chingues. Fin de cita.

Esa es esa es la necesidad. Bueno, no necesitas meterte una arquitectura de un proceso de generación de pipeline para estructurar todos tus contactos, generación de valor. No, no, primero, lo único que necesitas es un asistente que responda por WhatsApp en menos de 15 segundos, no en 15 días.

Ahí está, eso es todo lo que se necesita. Y de ahí.

Diciendo es que el cual es. Mapeado, güey, la necesidad. ¿Qué pasa si llega a la empresa y no solo se quiere subir a la ola?

Que sabemos que la inteligencia. Ahí es. Estar en todos lados.

Ahí es donde entra nuestra. Pues nuestra responsabilidad, no decirlo. Oye, que quiero que haga esto y que lo otro que la china no perate, güey.

No, no, no funciona así. Y no sé qué primero es paso uno. ¿Cuál es cuál es la donde tienes el mayor pedo?

¿Ese sería no cuál es cuál es tu pedo? No, pues que mi pedo, mi mayor pedo es que no contestan rápido el WhatsApp. Ah, pues esto se resuelve con esto.

Te lo tengo en dos semanas. Listo, güey. Y luego de ahí, oye, ¿ahora cuál es tu pedo?

No, pues que ahora se están contestando las conversaciones y necesito identificarlas. Ah, pues entonces vamos a construir algo para tipificar las conversaciones. Después para darle seguimiento, después para darles más valor, después que tu calendario, después integramos lo demás, tu CRM y así.

Pero eso ya es responsabilidad de este lado. Para siempre y cuando la intención sea un proyecto. Y este lo voy a resumir a una frase que usaba hace tiempo.

Que quieres aplausos, ¿pesos o aplausos? Porque a veces no se pueden las dos. Entonces, si quieres pesos, pues ve y da resultados.

Si quieres aplausos, pues vete por lo bollante y lo estrambótico y así. Puede que no entregues ni madre al final de todo, que artes al cliente y no le entregues ni madre. ¿Por qué?

Porque no era el camino más viable. Porque para hacer eso, justo lo que acabas de decir, a veces el camino de corporatividad, pues terminan necesitando. Oye, que no son cuatro personas, son 16 personas.

Y la nómina de 16 personas especializadas, pues ya valió madre el proyecto. Entonces yo me iría con ese punto, minimum viable product. Con eso y pueden acercarse a esta ola, porque justo como decías, no hay mucha documentación para saber como el camino que se tiene que seguir en muchas ocasiones.

Hay veces que tienes que estarle buscando, inventarte cosas para puentear, para darle la vuelta, para sortear que este impedimentos, no sé. O sea, hay muchas cosas ilimitantes que se tienen que estar este sorteando, ¿no? Coincide con nada más para terminar, coincide con sonet.

Mi recomendación estrella empieza pequeño. Recomendación de 3 0 3 mini define objetivos, integra bien tus canales, mide tus resultados. Empieza pequeño también elige bien las herramientas, mide resultados, capacita el equipo otra vez.

Algo saben de los de los seres humanos, ¿eh? Mantén la seguridad. Y la multimodalidad es un lienzo en blanco.

Experimente, diviértete, dice o.

Experimente, diviértete con cifsa digital punto com. Ahí pueden conocer todos los servicios que podemos ayudarles si necesitan multimodalidad o no. A o podemos comenzar con pequeño, con un simple asistente y llegar hasta donde dicen cifsa digital punto com señor Luis.

Nos vemos en un próximo episodio. Muchas gracias. Muchas gracias a todos.

Sobre los Hosts

Luis Martínez

Co-host

Experto en implementación de soluciones de IA con más de año y medio de experiencia en el campo.

Iván Acuña