🏓 L'IA pour créer des vidéos, des robots plus forts que toi au ping pong

Ton rapport du mois d'octobre est prêt

Oct 31, 2022

Hey!

J’espère que tu passes un bon week-end. Si c’est le cas, il risque d’être encore meilleur 👀

Le voilà enfin ! Ton rapport du mois d’octobre est prêt. Je te parle de tout ce qui s’est passé d’intéressant en intelligence artificielle.

😇 De quoi on parle aujourd’hui

🧑🏼‍💻 Google veut sa part dans l’AI art
⌫ Runway efface, Runway remplace ! (et ça vaut le détour)
🏓 Les robots de Google jouent au ping pong
👩🏻‍💻 Interview warmup vous aide à préparer vos entretiens
💬 Trouver les bons prompts est devenu un skill recherché
🚀 De arxiv à ar5iv
🔎 Etalab introduit un nouvel outil (ENFIN!)
🐍 Python 3.11 est là
🎙 AudioLM, le nouveau modèle de Google pour continuer les audios

🤖 C’est parti !

Pour donner une grille de lecture de ce qui se passe en IA aujourd’hui, il est clair que les modèles de génération d’images/vidéos sont le sujet le plus chaud du moment.

Même si les GAFAM par exemple, sont très actifs sur à peu près tous les fronts.

D’un point de vue global, concernant le paradigme dans lequel évolue l’intelligence artificielle, beaucoup de choses risquent de changer.

Les modèles d’entreprises à impact comme OpenAI s’essoufflent, et devraient bientôt laisser leur place à des acteurs comme Stability.ai qui proposent un fonctionnement plus communautaire et libre, ou carrément à des approches décentralisées.

Il est surprenant qu’un modèle comme DALL-E 2, entraîné avec les travaux d’artistes et de photographes partout dans le monde, ne bénéficie qu’à une poignée de privilégiés.

Mais bon, OpenAI sait mieux que nous ce qui est bien pour nous 😄…

Google introduit Imagen video

Après l’annonce de Make-A-Video par Meta en septembre, Google aussi avance ses pions sur la génération de vidéos par intelligence artificielle.

Même si Google travaille beaucoup sur ces sujets là, ils n’ont pas été autant mis avant qu’OpenAI ou Meta.

Pour l’instant on a qu’une landing page et un article de recherche, je ne sais pas si Google donnera accès à son modèle.

Trouver les bons prompts est devenu un skill recherché

Avec la démocratisation des modèles de génération d’images, il est devenu important de trouver les bonnes formulation pour permettre aux modèles de comprendre au mieux la requête.

J’ai trouvé un petit projet très intéressant qui recense, à l’aide d’un arbre interactif, les prompts entrés par les utilisateurs de stable diffusion.

L’auteur, Teo Sanchez (que j’ai rencontré début octobre d’ailleurs, on prépare quelque chose avec La revue IA ⌛️👀), a rédigé un article sur le sujet, le voici.

AudioLM, un modèle de Google pour continuer les audios

Les modèles de reconnaissance vocale d'aujourd'hui sont de plus en plus performants.

Et ça tombe bien car je pense que les interactions humains-machines se feront par la voix plus naturellement.

Par contre, lorsqu'il s'agit de faire de la synthèse vocale, c'est autre chose, on est encore mauvais sur ces sujets.

Google a proposé un modèle capable de continuer des audios, copier la voix d'un humain pour finir une phrase, ou finir un morceau de piano, et ça marche plutôt bien.

Sur cette vidéo on voit l'entrée du modèle (la bande son avant les pointillés), et la continuation obtenue en sortie.

De arxiv à ar5iv

J’ai trouvé une petite astuce super cool, surtout pour ceux qui lisent beaucoup de papiers de recherches sur arxiv.

En remplaçant le x de arxiv par un 5 dans la barre de recherche, on obtient une page web très quali avec le contenu de l’article, les noms des auteurs, les illustrations, les citations, tout y est !

Etalab introduit un nouvel outil

C’est toujours frustrant de devoir télécharger un dataset pour le tester. C’est trop lourd, ça prend du temps et c’est peu sécurisant. Les plateformes gouvernementales m’ont fait perdre pas mal de temps à cause de ça.

Etalab vient d’introduire un outil pour observer le contenu d’un dataset avant de le télécharger, enfin !

Accéder à l'outil

Runway introduit erase and replace

Runway, une des entreprises partenaires du projet stable diffusion, a introduit une nouvelle fonctionnalité.

Cette feature permet d’effacer un objet en le sélectionnant avec un curseur, puis le remplacer en écrivant du texte.

Runway @runwayml

Introducing Erase and Replace A new AI Magic Tool that allows you to transform your images simply by using a natural language description. Available now: runwayml.com

Interview warmup vous aide à préparer vos entretiens

La semaine dernière Google a parlé d’un projet assez impressionnant, il s’agit d’interview warmup. C’est un outil qui utilise la reconnaissance vocale et du NLP, qui vise à aider les candidats à préparer leurs entretiens d’embauche.

L’outil est déjà utilisé pour certains métiers de la data ou encore l’UX design. Je te conseille vraiment de le tester !

Bonus : Stable diffusion To The Moon

Le modèle stable diffusion n’a pas encore montré tout ce qu’il avait sous le capot. Le fait d’avoir laissé le projet en open source a permis à la communauté de créer des projets formidables avec stable diffusion.

Ce thread Twitter regroupe 14 spin-off de stable diffusion disponibles sous forme de notebook colab, qui permettent de faire de jolis projet artistiques. J’en cite quelques-uns et je te laisse regarder en détail si ça t’intéresse :

Générer les meilleurs prompts pour stable diffusion (d’ailleurs, c’est un gros sujet dont je parlerais bientôt!)
Faire une interpolation entre 2 images générées
Générer des objets en 3D avec stable diffusion (en s’inspirant du modèle dreamfusion)

Stable Diffusion 🎨 - News, Art, Updates @StableDiffusion

Over the 7 weeks since Stable Diffusion's release, we've seen many amazing open-source contributions from the community. A lot of them have come in the form of awesome Google Colab notebooks! 🔥 Here is a thread of 14 awesome notebooks we've seen from the community ↓

Quelle belle manière de conclure cette veille 😇
Comme d’hab, n’hésite pas à partager et répondre à ce mail pour me donner ton avis, ça m’aidera pour continuer ce projet :)