
أعلنت Stability AI يوم الخميس عن Stable Diffusion 3، وهو نموذج تكوين الصور من الجيل التالي ذو الوزن المفتوح. إنه يتبع أسلافه من خلال إنشاء صور مفصلة ومتعددة الكائنات بجودة ودقة محسنة في إنشاء النص. إعلان موجز ليس مع العرض العام، ولكن الاستقرار يفتح قائمة الانتظار اليوم لأولئك الذين يريدون المحاولة.
تدعي شركة Stability أن عائلة نماذج Spread 3 المستقرة (التي تأخذ أوصافًا نصية تسمى “المحفزات” وتحولها إلى صور مطابقة) تتراوح في الحجم من 800 مليون إلى 8 مليار معلمة. يسمح نطاق الحجم بتشغيل إصدارات مختلفة من النموذج محليًا على مجموعة متنوعة من الأجهزة، بدءًا من الهواتف الذكية ووصولاً إلى الخوادم. يتوافق حجم المعلمة تقريبًا مع سعة العينة من حيث مقدار التفاصيل التي يمكن إنتاجها. تتطلب مسرعات GPU المزيد من VRAM لتشغيل نماذج أكبر.
بدءًا من عام 2022، سنرى أن Stable AI يبدأ في تطور نماذج توليد الصور: Stable Diffusion 1.4، 1.5، 2.0و 2.1 و XL و XL Turbo والآن 3. على الرغم من أنه لا يخلو من الجدل بسبب استخدامه لبيانات التدريب المحمية بحقوق الطبع والنشر، فقد صنعت Stability اسمًا لنفسها كبديل أكثر انفتاحًا لنماذج الصور المركبة المملوكة مثل OpenAI's DALL-E 3 . واحتمال التحيز وسوء الاستخدام. (أدى هذا إلى حالات لم يتم حلها). نماذج الانتشار القياسية مفتوحة المصدر ومتاحة المصدر، مما يعني أنه يمكن تشغيل النماذج محليًا وضبطها لتغيير مخرجاتها.
-
Steady Diffusion 3 Generation، مع موجه: العمل الفني الملحمي للساحر على قمة الجبل ليلاً، يكشف عن سحر كوني في السماء المظلمة، كما يقول “Stable Diffusion 3” الذي تم إنشاؤه بواسطة الطاقة الملونة.
-
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لباتي “Go Big or Go Home” تم إنشاؤها بواسطة Stable Diffusion 3.
-
موجه الجيل الثالث للانتشار الثابت: ثلاث زجاجات زجاجية شفافة على طاولة خشبية. سائل أحمر ورقم 1 على اليسار، سائل أزرق ورقم 2 في المنتصف، سائل أخضر ورقم 3 على اليمين.
-
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة Standard Spread 3.
-
موجه الجيل الثالث للانتشار المستقر: حصان يوازن على كرة ملونة في حقل به عشب أخضر وجبل في الخلفية.
-
الجيل الثالث من الانتشار الثابت مع المطالبة: الحياة الساكنة لمزاج اليقطين المتنوع.
-
موجه الجيل الثالث للانتشار الثابت: رسم لرائد فضاء يركب خنزيرًا يرتدي توتوًا ويحمل مظلة وردية، وبجانب الخنزير يوجد روبن ذو عباءة على الأرض، مع عبارة “انتشار ثابت” في الزاوية. ”
-
Steady Diffusion 3 Generation with Prompt: الاسترخاء على طاولة المطبخ عبارة عن قماش مطرز بعبارة “Good Night” ونمر صغير مطرز. شمعة تحترق بالقرب من القماش. الإضاءة خافتة ومثيرة.
-
الجيل الثالث من الانتشار القياسي مع مطالبة: صورة لجهاز كمبيوتر مكتبي من طراز التسعينات على مكتب العمل، وشاشة الكمبيوتر تقول “مرحبًا”. على الحائط في الخلفية نرى كتابات جميلة مع النص “SD3” كبير جدًا على الحائط.
فيما يتعلق بالتطورات التكنولوجية، الرئيس التنفيذي لشركة Stability Emmett Mostak كتب في X، “يستخدم نوعًا جديدًا من محولات الانتشار (مشابه لـ Sora) جنبًا إلى جنب مع مطابقة التدفق وتحسينات أخرى. إنه يستفيد من تحسينات المحولات وهو غير قابل للتطوير ولكن يمكنه قبول مدخلات متعددة الوسائط.”
كما ذكر موستاك، يستخدم السبريد القياسي 3 عائلات تكوين محول الانتشارإنها طريقة جديدة لإنشاء الصور باستخدام الذكاء الاصطناعي، والتي تحل محل وحدات إنشاء الصور التقليدية (على سبيل المثال بنية يو نت) لنظام يعمل على قطع صغيرة من الصورة. هذا النمط مستوحى من المتحولون، الذين يعتبرون رائعين في التعامل مع الأشكال والمشاهد. لا يؤدي هذا الأسلوب إلى زيادة الكفاءة فحسب، بل ينتج أيضًا صورًا عالية الجودة.
السبريد القياسي 3 استخدامات “مطابقة التدفق“، هي تقنية لبناء نماذج الذكاء الاصطناعي التي يمكنها توليد الصور من خلال تعلم كيفية الانتقال بسلاسة من الضوضاء العشوائية إلى صورة منظمة. وهي تركز على الاتجاه العام أو التدفق، دون الحاجة إلى محاكاة كل خطوة من خطوات العملية. يجب أن يكون إنشاء الصور يتبع.

ليس لدينا إمكانية الوصول إلى Stable Dispersion 3 (SD3)، ولكن من العينات المنشورة على موقع Stability الإلكتروني وحسابات الوسائط الاجتماعية المرتبطة به، يبدو أن Generations حاليًا قابلة للمقارنة مع نماذج تركيب الصور الحديثة الأخرى، بما في ذلك DALL-E 3 المذكورة أعلاه، وAdobe Firefly، بما في ذلك Imagine with Meta AI، وMidjourney، وGoogle Image.
تم اختيار الأمثلة المقدمة من قبل الآخرين حيث يتعامل SD3 مع إنشاء النص بشكل جيد للغاية. كان إنشاء النص نقطة ضعف خاصة في نماذج تكوين الصور السابقة، لذا فإن تحسين هذه القدرة في النموذج الحر يعد أمرًا كبيرًا. كما أن الموثوقية الفورية (مدى دقة اتباع الأوصاف الواردة في التعليمات) تبدو مشابهة لـ DALL-E 3، لكننا لم نختبرها بعد.
على الرغم من عدم توفر Stable Spread 3 على نطاق واسع، بمجرد اكتمال الاختبار، تقول Stability أن أوزانها ستكون مجانية للتنزيل والتشغيل محليًا. “تعد مرحلة المعاينة هذه، مثل النماذج السابقة، أمرًا بالغ الأهمية في جمع الأفكار لتحسين أدائها وأمانها قبل الإصدار المفتوح،” كما كتب Stability.
لقد تم مؤخرًا تجربة الاتساق مع بنيات مختلفة لمركب الصور. وبصرف النظر عن SDXL وSDXL Turbo، أعلنت الشركة الأسبوع الماضي فقط طبقة ثابتةويستخدم عملية من ثلاث مراحل لتركيب النص إلى الصورة.
يسرد الصورة إمات موستاك (الاستدامة، الذكاء الاصطناعي)