Seedream est un modèle d'intelligence artificielle générative développé par ByteDance (éditeur de TikTok), conçu pour générer des images à partir de textes.
Avec sa version 2.0, Seedream s'impose comme une solution innovante, capable de traiter des instructions en chinois et en anglais tout en produisant des images esthétiques et culturellement pertinentes.
Lancé dès décembre 2024 au sein de l’application Doubao et de la plateforme créative Jimeng, Seedream 2.0 a déjà touché des centaines de millions d’utilisateurs et est rapidement devenu un outil prisé des designers professionnels en Chine
Seedream 2.0 est un modèle de génération d’images fondé sur des techniques de diffusion, capable de comprendre et suivre des instructions en chinois comme en anglais de manière native. Il génère des images riches et esthétiquement abouties tout en intégrant du texte de façon cohérente dans l’image (par exemple titres, slogans ou caractères) – un défi où la plupart des modèles précédents échouaient.
Par rapport aux autres modèles récents de génération d’images, Seedream affiche des atouts marqués. Contrairement à des systèmes populaires comme Midjourney v6.1, Ideogram 2.0 ou Flux 1.1 Pro, qui peinent avec le rendu précis du texte ou la compréhension de cultures non occidentales, Seedream 2.0 apporte des améliorations nettes sur ces point.
Il comprend finement les instructions en deux langues (mandarin et anglais) et peut donc traiter directement des prompts en chinois, là où beaucoup de concurrents se limitaient essentiellement à l’anglais. Surtout, il excelle à intégrer du texte dans les images (par exemple des titres en toutes lettres), en réduisant fortement les erreurs habituellement générées par les modèles diffusion classiques sur les polices ou l’orthographe.
De plus, il démontre une meilleure appréhension de l’esthétique et des références culturelles chinoises : il génère avec succès des éléments visuels de la culture traditionnelle (peintures chinoises, calligraphie, motifs, etc.) de qualité élevée, domaine où les modèles concurrents étaient moins performants
En termes de performances mesurées, ByteDance a introduit un benchmark d’évaluation nommé Bench-240 pour comparer Seedream aux autres systèmes selon plusieurs critères (alignement texte-image, cohérence structurelle de l’image, qualité esthétique, etc.). Les tests ont montré qu’avec des requêtes en anglais, Seedream 2.0 offrait des images mieux structurées et une compréhension textuelle plus précise que les autres modèles.
Pour les requêtes en chinois, le modèle atteint un taux de 78 % de texte utilisable (texte généré correctement lisible) et un taux de 63 % de réponses parfaitement conformes, surpassant de manière significative les autres modèles du marché sur ces métriques.
ByteDance, surtout connu internationalement pour TikTok (Douyin en Chine), a fortement intensifié ses investissements dans l’IA ces dernières années. L’entreprise a alloué plus de 150 milliards de yuans (plus de 20 milliards de dollars) en 2025 pour ses infrastructures d’IA (centres de données, puces, etc.), montrant sa volonté de se positionner en leader du secteur. Elle dispose désormais d’une gamme étendue d’applications et de plateformes basées sur l’IA, plus d’une quinzaine selon certaines estimations, ce qui dépasse ses rivaux chinois comme Baidu ou Tencent.
Parmi ces initiatives figure Doubao, le chatbot à grand modèle de langage lancé en 2023 (dont le nom signifie « petit pain/haricot », et appelé Cici à l’international), qui compte déjà plus de 75 millions d’utilisateurs actifs mensuels en Chine. En plus de ce modèle de conversation, ByteDance a développé Jimeng (nom international : Dreamina), une plateforme de création média par IA capable de générer des images – et désormais des vidéos – à partir de texte. On compte également un générateur d’images baptisé Xinghui, un outil de génération de code assistée par IA, ainsi que d’autres services spécialisés (par ex. Kouzi pour créer des chatbots personnalisés, Maoxiang pour des compagnons virtuels émotionnels, etc.)
Le lancement de Seedream 2.0 s’inscrit donc dans une stratégie plus vaste où ByteDance cherche à bâtir un écosystème d’IA complet – du texte à l’image, en passant par la vidéo et le son – afin de renforcer ses produits (comme Douyin/TikTok) et de rivaliser avec les autres géants du secteur sur le terrain des modèles génératifs.
[…]
Du point de vue technologique, Seedream 2.0 s’appuie sur une architecture de modèle génératif par diffusion, enrichie de plusieurs innovations pour atteindre ses objectifs de bilinguisme et de haute fidélité du rendu. Le développement du modèle peut être décomposé en trois volets principaux : (1) un prétraitement massif et intelligent des données d’entraînement, (2) un pré-entraînement du modèle intégrant des mécanismes d’alignement bilingue texte-image, et (3) un affinement post-entraînement via Reinforcement Learning from Human Feedback (RLHF) pour optimiser la qualité selon les préférences humaines. Voici les points saillants de chaque composante :
La phase de préparation des données a été cruciale pour doter Seedream de connaissances variées tout en maintenant une grande qualité.