شركة Stability تعلن عن Stable Diffusion 3، الجيل القادم من مولد الصور بالذكاء الاصطناعي

بواسطة Ayhan

فبراير 23, 2024

تكبير / موجه الجيل الثالث للانتشار الثابت: صورة مقربة في الاستوديو لحرباء على خلفية سوداء.

أعلنت Stability AI يوم الخميس عن Stable Diffusion 3، وهو نموذج تكوين الصور من الجيل التالي ذو الوزن المفتوح. إنه يتبع أسلافه من خلال إنشاء صور مفصلة ومتعددة الكائنات بجودة ودقة محسنة في إنشاء النص. إعلان موجز ليس مع العرض العام، ولكن الاستقرار يفتح قائمة الانتظار اليوم لأولئك الذين يريدون المحاولة.

تدعي شركة Stability أن عائلة نماذج Spread 3 المستقرة (التي تأخذ أوصافًا نصية تسمى “المحفزات” وتحولها إلى صور مطابقة) تتراوح في الحجم من 800 مليون إلى 8 مليار معلمة. يسمح نطاق الحجم بتشغيل إصدارات مختلفة من النموذج محليًا على مجموعة متنوعة من الأجهزة، بدءًا من الهواتف الذكية ووصولاً إلى الخوادم. يتوافق حجم المعلمة تقريبًا مع سعة العينة من حيث مقدار التفاصيل التي يمكن إنتاجها. تتطلب مسرعات GPU المزيد من VRAM لتشغيل نماذج أكبر.

بدءًا من عام 2022، سنرى أن Stable AI يبدأ في تطور نماذج توليد الصور: Stable Diffusion 1.4، 1.5، 2.0و 2.1 و XL و XL Turbo والآن 3. على الرغم من أنه لا يخلو من الجدل بسبب استخدامه لبيانات التدريب المحمية بحقوق الطبع والنشر، فقد صنعت Stability اسمًا لنفسها كبديل أكثر انفتاحًا لنماذج الصور المركبة المملوكة مثل OpenAI's DALL-E 3 . واحتمال التحيز وسوء الاستخدام. (أدى هذا إلى حالات لم يتم حلها). نماذج الانتشار القياسية مفتوحة المصدر ومتاحة المصدر، مما يعني أنه يمكن تشغيل النماذج محليًا وضبطها لتغيير مخرجاتها.

Steady Diffusion 3 Generation، مع موجه: العمل الفني الملحمي للساحر على قمة الجبل ليلاً، يكشف عن سحر كوني في السماء المظلمة، كما يقول “Stable Diffusion 3” الذي تم إنشاؤه بواسطة الطاقة الملونة.
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي لباتي “Go Big or Go Home” تم إنشاؤها بواسطة Stable Diffusion 3.
موجه الجيل الثالث للانتشار الثابت: ثلاث زجاجات زجاجية شفافة على طاولة خشبية. سائل أحمر ورقم 1 على اليسار، سائل أزرق ورقم 2 في المنتصف، سائل أخضر ورقم 3 على اليمين.
صورة تم إنشاؤها بواسطة الذكاء الاصطناعي بواسطة Standard Spread 3.
موجه الجيل الثالث للانتشار المستقر: حصان يوازن على كرة ملونة في حقل به عشب أخضر وجبل في الخلفية.
الجيل الثالث من الانتشار الثابت مع المطالبة: الحياة الساكنة لمزاج اليقطين المتنوع.
موجه الجيل الثالث للانتشار الثابت: رسم لرائد فضاء يركب خنزيرًا يرتدي توتوًا ويحمل مظلة وردية، وبجانب الخنزير يوجد روبن ذو عباءة على الأرض، مع عبارة “انتشار ثابت” في الزاوية. ”
Steady Diffusion 3 Generation with Prompt: الاسترخاء على طاولة المطبخ عبارة عن قماش مطرز بعبارة “Good Night” ونمر صغير مطرز. شمعة تحترق بالقرب من القماش. الإضاءة خافتة ومثيرة.
الجيل الثالث من الانتشار القياسي مع مطالبة: صورة لجهاز كمبيوتر مكتبي من طراز التسعينات على مكتب العمل، وشاشة الكمبيوتر تقول “مرحبًا”. على الحائط في الخلفية نرى كتابات جميلة مع النص “SD3” كبير جدًا على الحائط.

فيما يتعلق بالتطورات التكنولوجية، الرئيس التنفيذي لشركة Stability Emmett Mostak كتب في X، “يستخدم نوعًا جديدًا من محولات الانتشار (مشابه لـ Sora) جنبًا إلى جنب مع مطابقة التدفق وتحسينات أخرى. إنه يستفيد من تحسينات المحولات وهو غير قابل للتطوير ولكن يمكنه قبول مدخلات متعددة الوسائط.”

READ تكافح المواقع لحظر متتبع ارتباطات الويب ChatGPT بعد ظهور الاستشارات - Ars Technica

كما ذكر موستاك، يستخدم السبريد القياسي 3 عائلات تكوين محول الانتشارإنها طريقة جديدة لإنشاء الصور باستخدام الذكاء الاصطناعي، والتي تحل محل وحدات إنشاء الصور التقليدية (على سبيل المثال بنية يو نت) لنظام يعمل على قطع صغيرة من الصورة. هذا النمط مستوحى من المتحولون، الذين يعتبرون رائعين في التعامل مع الأشكال والمشاهد. لا يؤدي هذا الأسلوب إلى زيادة الكفاءة فحسب، بل ينتج أيضًا صورًا عالية الجودة.

السبريد القياسي 3 استخدامات “مطابقة التدفق“، هي تقنية لبناء نماذج الذكاء الاصطناعي التي يمكنها توليد الصور من خلال تعلم كيفية الانتقال بسلاسة من الضوضاء العشوائية إلى صورة منظمة. وهي تركز على الاتجاه العام أو التدفق، دون الحاجة إلى محاكاة كل خطوة من خطوات العملية. يجب أن يكون إنشاء الصور يتبع.

مقارنة المخرجات بين DALL-E 3 وStable Diffusion 3 من OpenAI، مع التوجيه السريع، "صورة ليلية لسيارة رياضية مع نص "SD3" على الجانب، السيارة على مضمار السباق بسرعة عالية، لافتة طريق كبيرة مكتوب عليها — تكبير / مقارنة بين المخرجات بين DALL-E 3 من OpenAI وStable Diffusion 3، “صورة ليلية لسيارة رياضية مع النص “SD3″ على الجانب، السيارة بسرعة عالية على مضمار السباق، لافتة طريق كبيرة مع النص ” سريع'.”

ليس لدينا إمكانية الوصول إلى Stable Dispersion 3 (SD3)، ولكن من العينات المنشورة على موقع Stability الإلكتروني وحسابات الوسائط الاجتماعية المرتبطة به، يبدو أن Generations حاليًا قابلة للمقارنة مع نماذج تركيب الصور الحديثة الأخرى، بما في ذلك DALL-E 3 المذكورة أعلاه، وAdobe Firefly، بما في ذلك Imagine with Meta AI، وMidjourney، وGoogle Image.

تم اختيار الأمثلة المقدمة من قبل الآخرين حيث يتعامل SD3 مع إنشاء النص بشكل جيد للغاية. كان إنشاء النص نقطة ضعف خاصة في نماذج تكوين الصور السابقة، لذا فإن تحسين هذه القدرة في النموذج الحر يعد أمرًا كبيرًا. كما أن الموثوقية الفورية (مدى دقة اتباع الأوصاف الواردة في التعليمات) تبدو مشابهة لـ DALL-E 3، لكننا لم نختبرها بعد.

READ لقد عملت في شركة Apple - هذه الاختراقات لعمر بطارية iPhone

على الرغم من عدم توفر Stable Spread 3 على نطاق واسع، بمجرد اكتمال الاختبار، تقول Stability أن أوزانها ستكون مجانية للتنزيل والتشغيل محليًا. “تعد مرحلة المعاينة هذه، مثل النماذج السابقة، أمرًا بالغ الأهمية في جمع الأفكار لتحسين أدائها وأمانها قبل الإصدار المفتوح،” كما كتب Stability.

لقد تم مؤخرًا تجربة الاتساق مع بنيات مختلفة لمركب الصور. وبصرف النظر عن SDXL وSDXL Turbo، أعلنت الشركة الأسبوع الماضي فقط طبقة ثابتةويستخدم عملية من ثلاث مراحل لتركيب النص إلى الصورة.

يسرد الصورة إمات موستاك (الاستدامة، الذكاء الاصطناعي)

Ayhan

شركة Stability تعلن عن Stable Diffusion 3، الجيل القادم من مولد الصور بالذكاء الاصطناعي

يجب أن يقرأ

ومن المتوقع أن يظهر تقرير التضخم يوم الخميس أن البنك المركزي يقترب من الهدف

أطلق نجم البوب من الجيل Z حملة هاريس. يمكن للموسيقيين البورتوريكيين أن يوصلوها إلى خط النهاية

يقنع العلماء أن القرود ليس لديها الوقت لكتابة شكسبير: تنبيه علمي

يقول خوان سوتو إن فريق يانكيز ليس لديهم أي ميزة في التوجه إلى الوكالة الحرة

أعلنت شركة Apple عن توسيع Vision Pro في بلدين آخرين

معلومات عنا

أحدث المقالات

ومن المتوقع أن يظهر تقرير التضخم يوم الخميس أن البنك المركزي يقترب من الهدف

أطلق نجم البوب من الجيل Z حملة هاريس. يمكن للموسيقيين البورتوريكيين أن يوصلوها إلى خط النهاية

يقنع العلماء أن القرود ليس لديها الوقت لكتابة شكسبير: تنبيه علمي

أخبار شعبية

القوائم

شركة Stability تعلن عن Stable Diffusion 3، الجيل القادم من مولد الصور بالذكاء الاصطناعي

مقالات ذات صلة

يجب أن يقرأ

معلومات عنا

أحدث المقالات

أخبار شعبية

القوائم