Categories
Uncategorized

Les nouveaux modèles de diffusion de Google sont-ils meilleurs que les GAN ?


Google AI a introduit deux approches connectées pour améliorer la qualité de la synthèse d’images pour les modèles de diffusion : la super résolution via des raffinements répétés (SR3) et un modèle pour la synthèse conditionnée par classe, appelé modèles de diffusion en cascade (CDM).

Des chercheurs dont Jonathan Ho et Chitwan Saharia, Google Research, Brain Team, ont travaillé pour étendre les modèles de diffusion et, avec des techniques d’augmentation de données soigneusement sélectionnées, le duo a pu surmonter les approches existantes, y compris les GAN pour la synthèse d’images.

REGISTER FOR OUR UPCOMING ML WORKSHOP

Les GAN sont à la pointe de la technologie dans la plupart des tâches d’imagerie, telles que mesurées par des mesures de qualité d’échantillon telles que FID, Inception Score et Precision. Cependant, les GAN capturent moins de diversité que les modèles basés sur la probabilité de nouvelle génération.

De plus, les GAN sont difficiles à entraîner et à réduire sans hyperparamètres et régularisations soigneusement sélectionnés. Dans cet esprit, beaucoup d’efforts ont été déployés pour développer des modèles basés sur la vraisemblance avec une qualité d’échantillon similaire à celle du GAN. Les modèles de diffusion sont un type de modèle probabiliste (proposé à l’origine en 2015) dont il a récemment été démontré qu’il produisait des images de haute qualité.

Comment fonctionnent les modèles

SR3, le premier modèle, est un modèle de diffusion à super-résolution qui prend une image basse résolution en entrée et génère une image haute résolution. Tout d’abord, le modèle est entraîné par un processus de corruption d’image dans lequel du bruit est progressivement ajouté à une image haute résolution jusqu’à ce qu’il ne reste plus que du bruit pur. Vous apprenez ensuite à inverser le processus, en commençant par le bruit pur et en éliminant progressivement le bruit jusqu’à ce qu’il atteigne une distribution cible grâce au guide d’image basse résolution fourni.

De plus, avec une formation à grande échelle, SR3 obtient des résultats de référence solides dans le défi de la super-résolution pour les visages et les images naturels en mettant à l’échelle des résolutions quatre à huit fois supérieures à celles de l’image de départ basse résolution. Les résultats du modèle ont été testés avec les méthodes de super-résolution faciale de dernière génération : PULSE et FSRGAN. Les sujets reçoivent des images et sont invités à signaler ce qu’ils pensent être d’une caméra. Les performances sont mesurées par des indices de confusion (pourcentage de fois où les sujets choisissent la sortie du modèle par rapport à l’image de référence). Les résultats sont montrés plus bas.

Les chercheurs utilisent des modèles SR3 pour l’imagerie conditionnelle de classe. Un autre modèle, CDM, est un modèle de diffusion conditionnelle de classe formé sur des données ImageNet pour générer des images naturelles à haute résolution. Les chercheurs ont créé le MDP comme une cascade de modèles de diffusion multiples. Cette méthode en cascade consiste à enchaîner plusieurs modèles génératifs à plusieurs résolutions spatiales : un modèle de diffusion génère des données à basse résolution, suivi d’une série de modèles de diffusion à super-résolution SR3 qui augmentent progressivement la résolution de l’image générée jusqu’à la résolution la plus élevée. .

Voir également


En plus de ces modèles, les chercheurs ont introduit une nouvelle technique d’augmentation de données appelée augmentation de conditionnement. Cela inclut le bruit gaussien et le flou gaussien pour empêcher chaque modèle de super-résolution de surajuster à son entrée de conditionnement de résolution inférieure, résultant en une qualité d’échantillon de résolution supérieure pour le CDM.

Suivant

D’autres recherches, intitulées « Les modèles de diffusion surpassent les GAN dans la synthèse d’images » par Prafulla Dhariwal et Alex Nichol d’OpenAI, ont montré que les modèles de diffusion peuvent atteindre une qualité d’échantillon d’image supérieure à celle des modèles génératifs, mais ils ont certaines limites.

Selon l’article, bien que les modèles de diffusion soient une direction extrêmement prometteuse pour la modélisation générative, ils sont toujours plus lents que les GAN au moment de l’échantillonnage. Cela est dû à l’utilisation de plusieurs étapes de débruitage. L’un des travaux prometteurs dans cette direction est celui de Luhman et Luhman. Ils ont exploré un moyen de distiller le processus d’échantillonnage DDIM dans un modèle à une étape. Cependant, les échantillons de modèles à une étape ne sont toujours pas meilleurs que les GAN, mais ils sont bien meilleurs par rapport aux modèles précédents basés sur la probabilité à une étape. Les travaux futurs dans cette direction peuvent ouvrir un moyen de combler complètement l’écart de taux d’échantillonnage entre les modèles de diffusion et les GAN sans sacrifier la qualité de l’image.


Rejoignez notre groupe Telegram. Faites partie d’une communauté en ligne engageante. Rejoignez-nous ici.

Abonnez-vous à notre newsletter

Recevez les dernières mises à jour et offres pertinentes en partageant votre e-mail.

Kumar Gandharv

Kumar Gandharv

Kumar Gandharv, PGD en journalisme anglais (IIMC, Delhi), entreprend un voyage en tant que journaliste technologique à l’AIM. Un observateur enthousiaste de l’actualité nationale et du RI. Il adore aller à la gym. Contact: [email protected]

Leave a Reply

Your email address will not be published. Required fields are marked *