Hello!
Maintenant que tout le monde parle d’IA (et n’importe qui), je me suis dit que je devais redoubler d’effort niveau contenu pour t’aider à démêler le vrai du faux.
Je reprends ma veille, et cette fois je suis vraiment motivé.
Je m’engage à t’envoyer au minimum 2 emails par mois (enregistre-le ou écris le dans la blockchain, je vais tenir ma promesse !).
🧞♂️ Ce que tu vas apprendre dans cette édition :
🤖 C’est quoi les Transformers et comment ça marche ?
🚀 Est-ce que AutoGPT est vraiment une révolution ?
🏞️ La segmentation d’images atteints des sommets grâce à SAM (pas Altman pour une fois)
🦜 Le phénomène LangChain : créer un ChatGPT personnalisé.
Les Transformers
Bon ça n’a rien à voir avec la série américaine, je trouvais juste ce GIF stylé.
C'est incroyable de se dire que la plupart des grandes révolutions IA de ces dernières années reposent sur ce même modèle.
A chaque nouvelle évolution en deep learning, on se dit toujours la même chose, cette fois c’est fini, on a atteint le sommet.
Mais à chaque fois on arrive à repousser encore un peu plus les limites.
TLDR : Les transformers sont une architecture de réseaux de neurones proposés en 2017, par des chercheurs de Google en collaboration avec l’université de Toronto, dans un papier de recherche devenu mythique : Attention is all you need.
Ils ont permis d’atteindre des niveaux jamais égalés sur des sujets comme la compréhension du langage, avec des modèles de références comme GPT.
❓ Pourquoi en avait-on besoin ?
Historiquement, les modèles de langages reposaient sur des réseaux RNN, et en particulier LSTM.
Ils fonctionnent bien, mais :
ils ont une mémoire limitée
et scale mal : l'entraînement d'un LSTM avec la quantité de données utilisée pour GPT-4 serait impossible.
⚙️ Comment ça marche en pratique ?
Les transformers reposent sur 3 composants :
le positional encoding
le mécanisme d'attention
et la self-attention
🎯 Le positional encoding aide à améliorer les performances en comprenant l’ordre des mots dans une séquence de textes.
Par exemple dans la phrase suivante : « Le chat noir mange le poisson. », chaque mot sera encodé en prenant en compte sa position.
Et cette technique est utilisée pour la reconnaissance d'action par pose humaine (fort !) :
Le : position 1
chat : position 2
noir : position 3
mange : position 4
le : position 5
poisson : position 6
🧠 Le mécanisme d’attention utilise des poids pour chaque mot dans la séquence, qui indiquent leur importance relative pour faire une prédiction.
Ces poids sont ensuite utilisés pour pondérer les représentations des mots dans la séquence.
Si on reprend la phrase précédente, le modèle utilise le mécanisme d’attention pour attribuer des poids aux mots suivants :
Le : 0.2
chat : 0.7
noir : 0.5
mange : 0.9
le : 0.3
poisson : 0.6
😇 Le mécanisme de self-attention va plus loin. On peut ajouter une pondération différente pour chacun des mots de la séquence, là où l’attention proposait une pondération à l’échelle de toute la phrase.
Par exemple, prenons la phrase suivante: « Le chat mange du poisson sur la table ».
Dans un modèle de self-attention, chaque mot de la phrase peut peser l’importance des autres mots pour comprendre le contexte global de la phrase.
Le mot « chat » peut donner plus d’importance aux mots « mange » et « poisson » pour comprendre l’action qui se déroule, tandis que le mot « table » peut donner plus d’importance aux mots « sur » et « mange » pour comprendre où cette action se déroule.
Les Transformers sont aussi une réponse à ceux qui prétendent que Google est fini. Google a proposé cette architecture en 2017 !
AutoGPT : révolution ou pas encore ?
Je ne sais pas encore trop quoi penser d’AutoGPT et BabyAGI.
Quand on lit les posts d’influenceurs LinkedIn et Twitter on à l’impression que c’est LA nouvelle révolution, en pratique c’est plus compliqué que ça.
Je l’ai testé, et j’ai 2 remarques :
Il est limité dans ce qu’il peut faire
Les calls vers l’API d’OpenAI peuvent coûter cher
Ceci étant dit, je pense que c’est la première itération de quelque chose de grand.
Si t’as raté l’info :
AutoGPT est un projet open source qui permet à ChatGPT de s’envoyer des prompts à lui-même pour s’améliorer et progresser vers un objectif que l’utilisateur lui a fixé initialement.
Il est connecté à internet et peut faire des actions simples comme réécrire des fichiers en local sur votre machine ou exécuter du code.
Qu’est-ce que ça change ?
D’un point de vue business, le nombre de tâches qui vont pouvoir être automatisées est énorme. On va entrer dans un modèle où les compétences techniques seront de moins en moins valorisées, au profit de compétences plus humaines (management, relation client, marketing).
Je suis ouvert au débat, n’hésite pas à me donner ton avis :)
Quel domaine sera le plus impacté à court terme ?
Je pense que le domaine de la création de contenu va être bouleversé. J’ai demandé à AutoGPT de jouer le rôle d’un influenceur IA sur Twitter dont le rôle est d’éduquer et l’objectif est d’élargir son audience. Il a créé un planning de 10 publications, avec les différents tweets et en prenant en compte les moments de pics d’activité. La force de l’outil réside dans le fait qu’il est capable d’évaluer les résultats de ses tweets en termes de reach et s’auto-corriger avant de créer la prochaine vague de tweets. Voici son répertoire de travail :
Quel domaine sera le plus impacté à long terme ?
Sur le long terme un des domaines qui vont être les plus impacté sera celui du marketing. Imagine pouvoir envoyer un email parfaitement ciblé pour chacun des clients ? En terme de conversion on pourrait doubler ou tripler les résultats.
Next steps ?
AutoGPT va d’abord être améliorée pour pouvoir réaliser plus de tâches sur internet. Ensuite il atteindra un niveau dans lequel on pourra simplement lui donner l’objectif, il saura définir un plan d'exécution pour mener à bien cet objectif.
Quelles barrières ?
Toutes les barrières technologiques ont été passées. C’est sur l’aspect éthique que des questions vont se poser. L’Europe va certainement réguler rapidement l’utilisation de ce type d’outils.
Segmentation d’images avec SAM
SAM (Segment Anything Model) est un modèle de segmentation par instance entraîné sur 11 millions d'images et proposé par Meta en open-source.
Il a été entraîné sur le principe du ZSL (zero-shot learning), qui lui permet de segmenter des objets qu'ils soient ou non dans sa base d'entraînement.
Dans mon dernier article sur La revue IA, je te montre comment l'utiliser avec Python. Et je t’explique pourquoi ça va changer beaucoup de choses :
Créer un ChatGPT personnalisé avec LangChain
Les problématiques majeures de ChatGPT sont assez limitantes en pratique :
Il est déconnecté d'internet
La taille du prompt en entrée est limitée
Il a une fâcheuse tendance à inventer des faits
Il n'est pas bon dans les tâches simples comme le calcul mental
Plus que l'IA en elle-même c'est sa démocratisation qui m'impressionne en ce début d'année.
On peut, en quelques lignes avec Python, créer une version personnalisée et connectée de ChatGPT, ou de n'importe quel autre LLM.
C'est ce qu'Alexandre et moi avons prouvé avec le premier guide 🇫🇷 pour l'utilisation de l'outil LangChain.
🎁 Cadeau, et bon week-end :)
N’hésite pas à répondre à ce mail pour me donner ton avis ou juste pour discuter 💌