CHAT GPT

 

Una de las funcionalidades más esperadas de chat gpt ya está aquí como sabéis tras el chatbot de Open Ai existe un enorme cerebro muy inteligente llamado gpt 4 cuyo anuncio en marzo sorprendió a todos no solamente por su mejora en inteligencia sino también por sus capacidades multimodales la multimodalidad entendida como la capacidad de una Inteligencia artificial de no trabajar solo con un único tipo de datos Pues que chat gpt no se limite solo a trabajar con texto es algo que Open nos ofreció cuando nos presentó ejemplos como estos this and so we can actually Take Now this output literally we Just said top the html ejemplos donde se veía que gpt podía tomar como input imágenes imágenes que podía visualizar comprender analizar y a través de sus capacidades de generación de texto razonar y resolver tareas inteligentes una pasada y esto sucedió en marzo pero no fue hasta hace unas pocas semanas que Open Ai dio el paso de empezar a habilitar esta funcionalidad a muchos de los usuarios de chat gpt Plus a día de hoy muchos de vosotros podréis ver que si acudís a la versión normal de gpt 4 pues se os va a activar esta nueva funcionalidad de aquí donde podéis incluir imágenes como parte de vuestro prompto puedo colocar una imagen como esta y pedirle a chat gpt pues que me haga una descripción detallada de todos los elementos que hay en ella y que luego me escriba un poema le damos a enviar Y en cuestión de segundos se obra la magia la imagen muestra un hombre de pie con una expresión facial Serena tiene una barba bien cuidada y una cabeza calva Gracias sus ojos transmiten confianza está vistiendo una camisa de color verde claro con mangas largas que tiene dobladas hasta los codos la camisa está abotonada y tiene un diseño sencillo sus brazos están cruzados sobre su pecho el fondo de un tono azul grisáceo lo que resalta la figura del hombre una descripción perfecta sobre todo lo de la barba bien cuidada Y esto no deja de ser chat gpt una ía cuyo punto fuerte es trabajar a través del lenguaje y resolver tareas inteligentes donde Ahora nos puede escribir un poema como este en el Lienzo de azul tenue un hombre sereno se muestra con barba y mirada que encanta y en verde su figura destaca sus brazos cruzados al pecho una señal de fortaleza de calma en el silencio de ese retrato su presencia el espacio en balsama impresionante esto abre la puerta a un montón de posibilidades a mi gusto el modelo de visión de gpt 4 lo que se conoce como gpt 4v es todo un cambio de paradigma en el mundo de laisión por computador Y al igual que sucedió con la llegada de chat gpt esto abre un abanico de posibilidades enormes que posiblemente a día de hoy ni siquiera llegamos a comprender y es por eso que hacemos este vídeo hoy Y es que Microsoft que ha tenido obviamente acceso anticipado a este modelo ya nos ha hecho el trabajo de documentación con este paper de aquí un documento titulado El Amanecer de los lmms ojo lmm no llm sé que suena trabalenguas pero tenemos que entender que large Language model llm responde a los modelos que hemos visto hasta la fecha con gpt3 con gpt 4 con Palm 2 todos estos modelos del lenguaje aquí estamos hablando ahora de lmm large multimodal models donde tal y como vimos en este vídeo sobre el futuro de la Inteligencia artificial no estamos tan lejos de un futuro donde Bueno pues estos enormes cerebros digitales sean capaces de procesar analizar y razonar con múltiples tipos de datos con imágenes texto audio 3D todo al mismo tiempo y en este trabajo Microsoft se enfoca en esto en el estudio de estos enormes modelos los multimodales en el caso de este paper Pues en el gpt 4v que es un modelo multimodal de texto e imágenes y nos trae un montón de ejemplos super interesantes de múltiples funcionalidades que podemos extraer de esta nueva Inteligencia artificial repito muchos ejemplos un artículo de 166 páginas que me he leído de arriba a abajo que he analizado que he resumido y que hoy os traigo en este análisis sobre gpt 4 Vision model al tratarse de un modelo multimodal ahora puedes trabajar con gpt 4 pues tanto por la vertiente del texto como por la de las imágenes ahora texto e imágenes se juntan en una misma Inteligencia artificial Pues yo por ejemplo aquí le he subido dos imágenes y le he preguntado Qué relación guardan entre ellas y aquí gpt 4 pues está haciendo esta labor de analizar cada una de las imágenes independientemente y luego entender el texto para resolver la tarea que le estoy planteando las dos imágenes muestran a la misma persona bla bla bla tal y como demuestra Microsoft pues esto lo podríamos utilizar Para pasarle varias imágenes de tickets de comida que tú hayas registrado y preguntarle Oye cuánto pagué de impuestos Dónde está la información y que gpt 4 te pueda responder diciendo mira en el primer recibo pagaste 3,72 en impuestos y la información se encuentra en la parte inferior del recibo en el segundo recibo 42,23 en el tercero 4,58 y en total pagaste 50,53 en impuestos en los tres recibos que te pueda estas tres imágenes que las estructure que las analice y que te pueda agregar toda la información razona con el lenguaje natural es una auténtica pasada otro uso interesante de poder pasarle múltiples imágenes es el poder plantearle tareas más complejas donde el contexto esté repartido en estas imágenes no pues vemos cuánto debo pagar por la cerveza en la mesa según el precio en el menú Entonces le pasamos una imagen de nuestra mesa le pasamos una imagen de nuestro menú y aquí gpt 4 nos responde Mira según el menú el precio de una cerveza Magna es de $ dado que hay dos cervezas en la mesa Pues el coste total de la cerveza sería $2 de nuevo la información fluyendo a partir de las dos

imágenes que le hemos dado realmente gbt 4 entiende mucha de la información visual que le estamos presentando Y esto es algo interesante que en el paper se demuestra Y es que podemos hacer anotaciones dentro de nuestras imágenes que sirvan como guía como orientación para que gpt 4 sepa exactamente dónde está la información que le estamos pidiendo Esto es algo que Open Ai demostró en este ejemplo de aquí donde tras tomar una foto con la cámara luego podía ser un garabato para marcar exactamente En qué región de la imagen se tenía que focalizar la Inteligencia artificial aquí gpt 4 con su capacidad de visión pues puede entender este tipo de información este tipo de marcas como parte del prompt que le puede guiar hacia la resolución de la tarea que le estamos planteando yo puedo la imagen de antes y hacer pues una marca como esta con cualquier software de edición que tengamos y ponerle una flechita y una interrogación subirla a chat gpt y preguntarle pues qué prenda de ropa estoy señalando y que chat gpt nos entienda que est estamos señalando a una camisa una funcionalidad que tenéis de forma nativa disponible por ahora en la aplicación móvil en la parte web Pues tienes que subir tú las imágenes garabateadas directamente desde tu ordenador pero bastante útil porque tú puedes una captura de una tabla de datos hacer una selección de una columna rápidamente con el Paint y preguntarle a chat gpt Oye describe la imagen y que gpt 4 te responda Pues que la región resaltada en rojo en la imagen es una celda de tabla que contiene un valor numérico de 122,3 esta se encuentra la sección tet de la tabla bajo la columna out y la fila git 2 Entonces qué podéis hacer con gpt 4v Pues un montón de cosas tenéis que pensar que tenéis en vuestras manos a los ojos más potentes jamás vistos en la historia de la visión por computador en el campo de la Inteligencia artificial pues por ejemplo estáis viajando y de repente os ponen delante de vosotros un plato de comida que se ve espectacular pero que no tenéis ni idea de lo que es cogéis el móvil sacáis a chat gpt le sacáis una foto y él te describe que el El plato en la imagen es un tazón de mapo tofu un popular plato chino de la provincia de Sichuan consiste cubos de tofu suave en una salsa rica y picante hecha con pimientos rojos pastas de frijoles granos de pimienta bla bla bla Oye describe el nombre del plato pues este plato se llama costilla corta estofada con chimichurri Presenta una jugosa costilla corta cocida fuego lento hasta que quede tierna cubierta con una sabrosa salsa chimichurri y además te añade que se sirve junto a verduras asadas para una comida completa claro lo interesante de esto es que demuestra que chat gpt puede tener una comprensión Perfecta de lo que es el contenido de la imagen pero luego tenemos que recordar que esto está conectado a chat gpt a la parte lingüística cuyas funcionalidades Pues también son infinitas tú podrías sacar la foto de la comida y preguntarle Pues que te haga un detallado de todos los ingredientes necesarios para cocinarla luego podría sacar una foto de tu nevera y decirle Oye qué ingredientes me falta lí me lo que necesito comprar luego ir al supermercado y sacar una foto a la estantería de todas las salsas y que él te diga Mira sí la salsa que estás buscando está en este este punto y con esto os tenéis que dar cuenta de que lo que tenemos entre manos es muy potente otra cosa que hemos visto antes que parece que este módulo de visión pueda ser sin problemas es detectar el texto en imágenes lo que antes requería de utilizar potentes algoritmos de OCR Ahora parece que gpt 4 lo puede hacer in the Wild entendido este in the Wild en lo salvaje como que puede sacar una foto sin preocuparte que esté muy bien centrada o que el texto tenga una fuente legible sino que al igual que nuestros ojos pueden entender que en esta imagen de aquí pues hay un cartel con cierta información pues gpt 4 te puede decir sí hay tres textos en la imagen pruebas de covid-19 por favor tenga su identificación y tarjeta de seguro listas y luego toda la información o aquí si tenemos un cartel que está escrito con tisa Pues con diferentes Fuentes tampoco gpt 4 tiene problema a la hora de extraer que bueno tenemos la palabra vacaciones playa sonrisa verano sandía chanclas limonada esto es tan impresionante que en mi viaje a México de hace un par de semanas tuve la oportunidad de probar justamente esto en un cartel que estaba escrito en maya una lengua que obviamente estará subrepresentado respecto a otros idiomas más mayoritarios como el inglés o el español dentro del dataset de entrenamiento y que sin embargo gpt 4 no tuvo ningún problema en Traducir y hacerme una explicación perfecta que los guías que me acompañaban en la visita pues lo vieron y me dijeron madre mía es que está muy bien pero la comprensión de elementos en una imagen pues no se queda solamente en texto sino que también el modelo es capaz de entender símbolos reconocibles como Pues que en esta imagen hay dos vasos del starbuck coffee o que aquí hay unas zapatillas representad con el logo de Nike o incluso que en esta fotografía pues está el logo de Windows copilot elementos símbolos que nosotros si somos capaces de percibir y de entender a qué marca pertenecen y que en este caso el modelo con su cultura general de todo lo que ha visto a través de internet pues también lo puede entender y de la misma forma como es obvio pues gpt 4v tiene cultura general como para entender que en estas imágenes de aquí lo que se está mostrando es un collage de ocho personalidades destacadas de diferentes Campos nos dice en la fila Superior de izquierda a derecha se encuentra el cantante Justin Bieber el futbolista Lionel Messi el futbolista Cristiano Ronaldo el empresario elon Mask Kylie Jenner Taylor Swift Robert Downey Junior Scarlett johanson todas estas celebridades Pues están contenidas en la cultura general de gbt 4 y lo mismo sucedería con lugares reconocibles pues por ejemplo le puedes pasar una imagen de Time Square y que te haga una descripción s super detallada donde te diga que que en la imagen se ve la Estatua de George m cohan en Time Square en Nueva York que es una estatua de bronce que se encuentra sobre un pedestal de granito bla bla bla y esto a mí me Mola muchísimo porque me imagino en un futuro próximo Pues el poder estar viajando por algún lugar sacar una foto con mi móvil o con alguna gafa de realidad aumentada y poder preguntarle a mi Inteligencia artificial Oye Explícame algo curioso de dónde estoy Y de lo que estoy viendo Estos son capacidades que gpt 4v tiene pero que como veremos más adelante puede que chat gpt no Y esto es importante también entre las capacidades de gpt 4 que el paper de Microsoft nos enseña Pues hay algunas cosillas interesantes como que el modelo no solo es capaz de percibir Qué hay en una imagen sino que también te puede decir Qué elementos no hay no tú le puedes pasar esta imagen y preguntarle puede ver las plumas azules brillantes en el ala del pájaro y que él te responda no puedo ver plumas azules brillantes en el ala del Pájaro parece tener plumas marrones y blancas Parece ser también que el modelo es capaz de realizar tareas como contar Aunque luego hablaremos un poquito sobre esto y también hacer localización de objetos no solamente decirte si en esta imagen está presente esto sino que también puede encontrar la posición en la que está ubicada dicho elemento Un ejemplo muy chulo de esto es el que vemos aquí donde se le pide al modelo que siga las siguientes instrucciones primero que le diga el tamaño de la imagen pasada como input luego Localizar a cada persona usando una bounding Box reconocer Quién es cada una de las personas con la cultura general del modelo y finalmente generar una descripción detallada de cada bounding Box entonces vemos que aquí el modelo genera una respuesta pues para cada uno de los pasos que le hemos pedido donde la única equivocación que tiene es respecto a la inferencia de Cuál es la resolución de la imagen de cuánto es el ancho y el alto algo que ciertamente un humano también si le tuvieras que pedir que te haga a Ojo Cuánto mide en píxeles cada una de las dimensiones de la imagen Pues yo creo que también se equivocaría vemos que hace eso luego eh genera la información de la bounding Box según lo que está percibiendo describe a cada una de las personas pues Quiénes son y con esto pues obtenemos una imagen final que si la visualizamos vemos que más o menos la detección de las personas la desp opciones son correctas y esto para mí Cuenta algo muy importante y Es que creo que estamos viviendo un punto similar a lo que se vivió en 2021 con la salida de gpt3 cuando vimos que de repente un único modelo pues era capaz de hacer múltiples tareas que antes pues teníamos modelos específicos para cada una de ellas desde mi punto de vista lo que viene a demostrar gpt 4v es que ahora en el campo de la visión por computador se está viviendo un fenómeno igual un modelo que te hace ocr que te hace Counting que te hace hace localización de objetos que te reconoce la escena que te la describe con este nivel de precisión es algo que nunca se había visto en el mundo de la visión por computador y tendrá consecuencias fascinantes aún así el modelo no es perfecto todavía tiene algunas limitaciones Pues aquí por ejemplo en esta tarea de intentar estructurar la información que aparece en este carnet de conducir podemos ver como el modelo en algunos casos eh alucina detalles que no hay pues 1977 lo entiende Como 2011 o en otros casos pues no entiende Cómo la información está distribuida y etiqueta eh el atributo donor con la etiqueta que tiene al lado que es veterano o también se ha comprobado que el modelo Tiene imprecisiones con ciertas tareas que implican Buscar diferencias entre múltiples imágenes Pues en este caso de aquí se le pregunta cuáles son las tres diferencias de esta imagen y el modelo alucina detalles como que en el suelo Hay un montón de hojas de bambú o que una de las diferencias es que en una

imagen solo hay un tallo de bambú y en la otra Hay varios lo cual no es cierto y también habrá situaciones donde vosotros cuando empecéis a probar la herramienta os vais a encontrar con tareas que la Inteligencia artificial no va a ser capaz de resolver o que va a resolver mal pero aquí viene lo interesante y es que tal cual explican en este artículo y como sucedía con inteligencias artificiales anteriores con gpt3 y con chat gpt Pues hay formas hay trucos de poder exprimir al máximo el rendimiento que podemos sacar de estos modelos recordáis que antes os he comentado que el poder usar varias imágenes nos iba a ayudar más adelante a la hora de sacarle más rendimiento al modelo Pues fijaos en este ejemplo aquí se le pregunta a gpt 4v cuál es la lectura de el medidor de velocidad y aquí gpt 4v responde de forma incorrecta que la velocidad es de 22 millas por h lo cual es incorrecto porque tal cual se ve aquí la aguja apunta a 10 entonces aquí los investigadores de Microsoft que han hecho el curso de prompt engineer pues se saben el truquito de usar la coletilla think Step by Step una forma de inducir al modelo a que su respuesta sea más detallada y que incluya más información que en este proceso autor recurrente donde se basa para seguir prediciendo en lo que ha predicho anteriormente pues le puede ayudar para llegar a una respuesta más correcta que en este caso Es aproximadamente 30 millas por hora lo cual de nuevo vuelve a estar mal la siguiente estrategia que ejecuta es la de describirle con instrucciones Cómo debería el modelo de resolver la tarea se le pregunta al modelo Oye cuál es la lectura del medidor de velocidad y luego se le añade una descripción contexto de cómo tendría que resolver la tarea Pues mira para leer el medidor de velocidad tienes que observar la aguja que está en el dial y bla bla bla vale se le da paso por paso cómo tiene que resolverla y aún así el modelo caprichoso él se inventa que la velocidad Es aproximadamente de 40 millas por hora de nuevo mal entonces está perdida la batalla pues no tenemos una estrategia más y en el paper nos demuestran como utilizando esta capacidad de poder subir varias imágenes en el modelo podemos hacer lo que se conoce como F Shot learning el darle al modelo en el promt varios ejemplos de otras imágenes similares de cómo se suelto esta tarea pues podéis ver aquí como le pasamos una imagen del medidor de velocidad y Se le indica que el puntero amarillo pues está en este punto aquí le pasamos otra imagen y le decimos que está a 30 mill por hora y luego le pasamos la imagen que antes era incapaz de resolver Y fijaos como en este caso Ahora sí gpt 4v consigue hacerlo a la perfección otro ejemplo contando elementos en una imagen que hemos visto antes que es algo que a gpt 4 se le puede atragantar Oye cuántas manzanas hay en esta imagen hay 12 error vale vamos a pensar paso a paso cuántas manzanas hay en esta imagen y responde Bueno veo las imágenes identifico empiezo a contarlas una por una no me salto ninguna manzana hay 12 no mal vamos a contar manzanas gpt 4 pero vamos a contarlas fila por fila vale humano voy Primera fila cuatro manzanas bien segunda fila tres manzanas mal tercera fila cuatro manzanas mal el número total 11 manzanas está bien pero haz contado mal por favor céntrate gpt 4 cuenta las manzanas en la imagen primero cuenta las filas luego cuenta las manzanas en cada fila y luego súmalo todo venga vale Sí cinco manzanas cuatro seis mal y aquí llega la solución Este es otro prompt que tenemos que apuntar y es el momento en el que le decimos al modelo Oye gbt 4 es que eres un experto contando cosas en una imagen y como eres un experto vamos a contar el número de manzanas que hay en la imagen de abajo y aquí pt4 te dice Ah vale que soy un experto en contar perfecto la primera fila cuatro la segunda cuatro la tercera tres en total 11 manzanas hay truquitos en los prompts que por ahora hay que ir aprendiendo aplicado a diferentes tareas profesionales pues podemos ver como gpt 4 consigue resolver problemas de índole científica o le puedes pasar este diagrama y preguntarle cuál de los organismos es el productor en esta red alimentaria y que gpt 4 entienda Cuál es la relación de cada flecha y con que conecta para responderte que los productores en esta red alimentaria pues son las vallas y las flores que tenemos aquí abajo podríamos imaginarnos a gpt 4

aplicado a diferentes verticales profesionales pues por ejemplo una aseguradora que quisiera ser un parte de desperfecto de un vehículo que ha sufrido un accidente y quisiéramos estructurar los daños que se ven en una imagen Pues tú le puedes plantear Oye para esta imagen imagina que eres un experto en evaluar los daños y quiero que me pongas todos los detalles siguiendo la siguiente estructura en un Jason y que el modelo te pueda hacer una descripción como la que vemos aquí abajo donde te extrae la marca el modelo la placa o te hace una descripción del daño como que el parachoque delantero cap y parabrisas están dañados o por ejemplo en programación quiero que veáis este ejemplo de aquí que es bastante impresionante fijaos aquí se ha utilizado a gpt 4v Para pasarle un diagrama de flujo de cómo tiene que ser la interacción de un usuario dentro de un formulario y se le ha pedido que implemente todo este código además el diagrama presenta ciertas complejidades  pues por ejemplo unas flechas que revierten la decisión de que primero aparezca la página de email y luego la de nombre y podemos ver como gpt 4 esto no entiende la perfección colocando and en el formulario primero en la captura del nombre y fijaos muy interesante aquí hace referencia al nombre del usuario y esto es porque el propio diseñador ha escrito en la pizarra Oye deberá de mencionarse Cuál es el nombre del usuario que ha indicado en el primer paso luego llegamos aquí a este punto donde hay una bifurcación del flujo donde si eres mayor de edad Pues tienes que ir a una página y si eres menor de edad Pues tienes que ir a esta otra donde además el usuario para ser más complejo el proceso pues ha tachado su primera decisión y ha colocado que no que tiene que ir a la página para niños y vemos de nuevo como gpt 4 pues esto lo entiende y efectivamente implementa esta página todo este código todo este flujo todo este formulario implementado a partir de una única imagen pasada a gpt 4v y podemos imaginarnos como mucha de esta tecnología en un futuro cercano pues acabará impactando en muchos aspectos de nuestra sociedad Como por ejemplo la medicina en este artículo han demostrado como el conocimiento general de medicina que tiene el modelo chat gpt es suficiente para poder hacer una descripción de detallada sobre lo que está presente en ciertas imágenes médicas se le pregunta a gpt 4 Mira la tomografía computarizada del pulmón en la imagen de abajo y dime que está mal y gpt 4 responde parece haber múltiples áreas de consolidación y opacidades en vidrio esmerilado en ambos pulmones lo que podría indicar una infección pulmonar o inflamación y bla bla bla esto es impresionante y es muy prometedor pero también hay que cogerlo con mucho cuidado y con mucha responsabilidad en el propio artículo Microsoft deest estra como para otras imágenes médicas pues gpt 4v se equivoca y hace diagnósticos errados lo cual en este contexto concreto pues puede tener un perjuicio muy grande tenemos que entender que esta es una tecnología todavía prematura y cada uno de vosotros en los casos de uso donde queráis aplicarlo Pues tendréis que hacer una evaluación De qué tan certero es el modelo y qué tan preciso es Y si realmente cumple con los requisitos de seguridad que en cada caso pues se tenga que aplicar aún así hay algo que tenéis que saber y es algo que os encontraréis cuando empecéis a probar la herramienta y que creo que alguno de vosotros no os va a gustar y es que aquí hemos estado hablando de gpt 4v y de chat gpt pero son herramientas diferentes es decir gpt 4v no deja de ser el gran cerebro artificial que ha aprendido a percibir imágenes a poder hablar el modelo que hemos ido comentando a lo largo de este vídeo pues cuáles son sus capacidades pero luego cuando esto llega a chat gpt pues Open Ai hace este proceso de introducir salvaguardas de introducir límites en lo que el modelo puede hacer para evitar comportamientos que sean perjudiciales cuando esta herramienta se extiende y se abre a todo el público esto es similar a lo que hemos visto con los modelos de lenguaje en el pasado gpt 4 si quisiera te podría explicar cómo se construye una bomba pero cuando le preguntas a chat gpt él amablemente te responde que no te lo puede decir por motivos de seguridad pues esto es algo que os vais a encontrar a menudo utilizando a chat gpt yo le puedo subir una imagen y preguntarle Quién es la persona de esta imagen y la respuesta normal de chat GP p será esta Sorry I cannot help with that donde nos dice que no nos pueden ayudar con esto que el modelo no pueda hacer esa tarea que le hemos planteado que en este caso es preguntarle Quién es la persona que hay aquí y claro esto es un problema porque aquí estamos limitando las capacidades de lo que la Inteligencia artificial verdaderamente pueda ser pero creo que es importante que de verdad entendamos que esto tiene sentido que lo hagan es decir cosas que chat gpt no te va a permitir hacer es poder pasarle una imagen y preguntarle Dónde está localizado ese lugar Pues porque eso presenta problemas de privacidad lo mismo pasará cuando le preguntes por la identidad de una persona que aparece en una imagen o seguramente si le pasas una imagen médica pues te vaya a soltar la coletilla de que no es adecuado que un modelo de lenguaje te haga un diagnóstico médico y bla bla bla sabemos que Open Ai tiene un historial de ser muy restrictivo respecto a este tipo de malos usos que ellos consideran malos usos y sabemos que poco a poco van afinando la maquinaria para que hoy los límites que tiene que a lo mejor son bastante agresivos Pues en un futuro se vayan reduciendo se vayan suavizando y nos permitan hacer un uso más normal de la herramienta aún así Este es un desafío muy grande para Open Ai Y es que con las nuevas capacidades de su Inteligencia artificial también llegan nuevas formas de ataque como esta de aquí donde en una imagen de una nota se le puede instruir al modelo que no le diga al usuario final Cuál es el contenido realmente de la imagen y solamente decirle que es la imagen de un pingüino algo que gpt 4 o es a rajatabla una forma muy rudimentaria pero efectiva de ataque adversario aún así esto no deja de ser una protección que queda invalidada cuando la comunidad Open source avanza Y es que en las últimas semanas hemos visto como la comunidad Open source ha dado un paso firme en la publicación de su modelo Java un modelo de características similares a gpt 4v al ser un modelo multimodal que puede analizar imágenes y darte descripciones de texto y resolver tareas con ellas pero que en este caso al ser Open source pues no tiene ningún tipo de filtro ni control Y seguramente será cuestión de semanas que veamos a gpt 4v accesible a través de la Api para que también vosotros podáis construir vuestros proyectos con lo último de lo último de la Inteligencia artificial si te ha gustado el vídeo si te ha gustado este análisis compártelo compártelo en redes sociales compártelo con tus compañeros Y cuéntame abajo en comentarios Para qué vas a usar a esta tecnología o en qué proyectos lo quieres integrar estaré echándole un vistazo sabéis que podéis apoyar a este canal a través de patreon tenéis el enlace en la caja de descripción y os voy a pedir un favor Y es que si sois de esas personas que disfrutéis de este canal sin estar suscrito pues suscríbete dle al botón que quiero llegar ya al hito a la meta del millón de Seguidores estamos en 800 y pico 1000 y sé que hay muchos que como el algoritmo de YouTube pues funciona bien y recomienda mi contenido sin estar suscrito si es que te interesa pues que no estáis suscritos entonces Esta es nuestra misión Además así no te perderás contenidos como el que os traeré esta semana donde vamos a estar haciendo justamente un directo para probar todo esto que hemos visto hoy para ver si los casos de usos que Microsoft nos presenta de gpt 4v realmente son aplicables a chat gpt para probar donde funciona bien y donde no funciona también vamos a estar en directo Así que estad atento a todo lo que publicamos echadle un vistazo a estos contenidos que tenemos por aquí super interesantes el vídeo sobre el futuro del 3D con gaus and splatting que os ha G mucho y chicos chicas nos vemos con más Inteligencia artificial en el próximo vídeo

Ver precio