Gil Perry es CEO y co-fundador de D-ID, una empresa especializada en el desarrollo de avatares sintéticos. En diálogo con Ok-Bot by Convercom contó los detalles de este emprendimiento con base en Tel Aviv, Israel, cuya tecnología permite en segundos obtener un clon digital.

La iniciativa tiene cada vez más adeptos: desde empresas audiovisuales y multinacionales de alimentos, hasta el público en general. Además, cómo se integran con los novedosos modelos de lenguaje como ChatGPT.

-¿Podés contarnos sobre la inspiración detrás de D-ID?

-D-ID se estableció en 2017 por tres innovadores que originalmente crearon la primera solución de identificación de imágenes faciales para proteger la privacidad de las personas al publicar imágenes de sí mismos en línea. Pronto se dieron cuenta de que la misma tecnología de Deep Learning que podría enmascarar la identidad de las personas, se podría aplicar para animar imágenes estáticas, lo que dio lugar a la visión detrás de Deep Nostalgia.

-¿Cómo difiere la tecnología de D-ID de otros proveedores de avatares sintéticos y chatbots?

-El Creative Reality Studio de D-ID es la primera plataforma generativa de video AI multimodal que permite la generación tanto de imágenes como de texto y luego combinar ambos para crear un video animado. A diferencia de la mayoría de otros software de avatares sintéticos, que limitan a los usuarios a una selección de caras prehechas, D-ID permite a los usuarios crear sus propias caras subiendo una sola imagen de la cara de una persona o usando su imaginación y Stable Diffusion de Stability AI para generar una original.

Los usuarios pueden agregar luego el texto generado por GPT-3, integrado en la plataforma, para ayudarlos a escribir su guion, determinando lo que dirá el avatar. Hemos estado trabajando en nuestra tecnología durante cinco años para que las expresiones faciales se vean lo más naturales posible y se muevan de manera natural, incluso cuando la cara es de una criatura extraterrestre, algo que otros proveedores de avatares sintéticos y chatbots no pueden replicar. Los proveedores que ofrecen la capacidad de crear una persona realista requieren un estudio completo de pantalla verde profesional para duplicar los movimientos, mientras que los nuestros se han desarrollado utilizando la tecnología de aprendizaje profundo e inteligencia artificial.

-¿Puede guiarnos a través del proceso de crear un avatar sintético usando la tecnología de D-ID?

-Nuestro estudio de realidad creativa es una plataforma de autoservicio donde storytellers, influencers, iconos y profesionales de marketing convierten contenido escrito y de audio en videos atractivos y económicos. El estudio ofrece presentadores de alta definición premium con movimientos realistas de torso superior y facial, incluyendo gestos de manos; opciones adicionales para crear un presentador premium personalizado, lo que requiere un corto rodaje de video con el sujeto; y presentadores estándar con videos generados a partir de cualquier foto frontal y texto o audio.  Además, el estudio también brinda opciones multimodales para generar texto con GPT-3 de Open AI y generación de imágenes de Stable Diffusion de Stability AI, para crear caras digitales compuestas y agregar discurso basado en las descripciones de los usuarios. El estudio es simple y amigable para el usuario, permitiendo que los usuarios creen videos sorprendentes con sólo unos pocos clics. Permite la creación de video en múltiples idiomas simplemente traduciendo el texto, en lugar de contratar diferentes presentadores humanos hablantes nativos en cada idioma.

En esta línea, ofrece voces neuronales extensas en 119 idiomas y variantes. También hay una opción de entrada de audio donde los usuarios pueden subir un presentador digital impulsado por la voz más personalizado, así como la clonación de voz para igualar y replicar la voz de una persona específica. Los usuarios tienen acceso a un plugin exclusivo para PowerPoint, lo que permite colocar un humano digital personalizable directamente en una presentación para dar vida al texto con un video presentador.

-¿Cómo garantiza D-ID la privacidad y seguridad de los datos de los usuarios en sus sistemas de avatar sintético y chatbot?

-D-ID utiliza el protocolo https seguro y todas las imágenes se almacenan de forma privada en el almacenamiento en la nube de AWS con SSE (cifrado en el lado del servidor con un estándar de cifrado AES-256 de 256 bits). Cualquier usuario puede eliminar sus imágenes y videos, que luego se eliminarán permanentemente de todos los registros de D-ID. El texto pasa por la moderación de contenido de Microsoft Azure para prevenir contenido ofensivo/sexual y todas las imágenes pasan por Amazon Rekognition para identificar imágenes ofensivas o celebridades. Además, todos los videos están marcados con una marca de agua que indica que fueron generados por Inteligencia Artificial.

-¿Puede compartir algún uso notable o interesante de la tecnología de D-ID en la industria o en los negocios?

D-ID trabaja con muchas compañías líderes y proveedores de desarrollo y aprendizaje que quieren aprovechar su tecnología basada en IA. Algunos de ellos incluyen Skilldora con sede en Fort Mill, que lanzó la primera plataforma de e-learning para entregar cursos exclusivamente por instructores de AI, y la empresa japonesa de e-learning Skill Plus. Algunos de los otros clientes de D-ID incluyen Warner Bros. Studios, Mondel?z, Publicis y MyHeritage, con quien D-ID se asoció para crear la sensación viral de Deep Nostalgia.

-¿Puede hablar sobre el impacto potencial de los avatares sintéticos y los chatbots en el mercado laboral?

-La inteligencia artificial (IA) y la automatización tienen el potencial de alterar el mercado laboral al automatizar muchas de las tareas de oficina usando modelos de lenguaje (LLMs) como GPT-3. Al descargar el trabajo más trivial, esto permitirá a los empleados enfocarse en el que requiere habilidades humanas como el pensamiento crítico y la solución creativa de problemas. Los avatares sintéticos y los chatbots también facilitarán experiencias digitales más personales y humanas con los clientes. Creemos que es más probable que complementen y mejoren el trabajo humano, en lugar de reemplazarlo por completo.

-¿Cómo planea D-ID expandir y evolucionar su tecnología en el futuro?

-Recientemente lanzamos nuestro producto de autoservicio, que está abierto al consumidor. Sin embargo, D-ID tiene un fuerte enfoque en los clientes B2B y empresariales y continuaremos enfocándonos en el desarrollo de tecnologías IA generativas relevantes para las empresas.

-¿Puede contarnos sobre alguna colaboración que D-ID haya establecido en la industria AI y tecnológica?

-Tenemos asociaciones con varias organizaciones que trabajan para hacer de este sector un espacio seguro, incluyendo  Partnership on AI, Content Authenticity Initiative, y Synthetic Futures. Hemos colaborado con varias empresas mencionadas anteriormente, MyHeritage, con quien D-ID se asoció para crear la sensación viral de Deep Nostalgia, así como Warner Bros. Studios, Mondel?z, and Publicis.

¿Puede contarnos sobre algún proyecto especialmente desafiante o emocionante en el que haya trabajado D-ID?

-D-ID está dedicado a utilizar su poderosa tecnología con fines éticos y positivos y su tecnología ha sido utilizada en campañas de impacto social para sensibilizar sobre la violencia doméstica, encontrar personas desaparecidas, conciencia sobre el VIH, experiencias de la guerra en Ucrania en niños, educación sobre el Holocausto y más.

-¿Cómo afecta la aparición de tecnologías AI conversacionales poderosas como ChatGPT a D-ID?

-La liberación pública de ChatGPT y otras plataformas generativas como MidJourney y DALL-E y la popularidad que han ganado en los últimos meses han hecho que la gente sea mucho más consciente de los usos prácticos de la AI. D-ID se ha beneficiado de la disposición del público a experimentar con este software y nuestra empresa se ha convertido en la herramienta complementaria perfecta para aquellos que quieren convertir sus imágenes o textos generados por Inteligencia Artificial en videos.

Ayudanos a seguir pensando, buscando y elaborando información para conectar a la sociedad. Si valoras lo que hacemos....

Invitame un café en cafecito.app
Buy Me a Coffee at ko-fi.com

Hacé tu comentario

Por si acaso, tu email no se mostrará ;)