دنیای هوش مصنوعی مولد تصویر (Generative AI) لحظهای آرام نمیگیرد. درست زمانی که فکر میکردیم Midjourney v6 و DALL-E 3 پادشاهان بیرقیب این عرصه هستند، یک طوفان جدید به پا شد. نام این طوفان Flux است.
اگر اخبار تکنولوژی را دنبال میکنید، احتمالاً شنیدهاید که یک مدل جدید و متنباز (Open-Source) منتشر شده که ادعا میکند از نظر کیفیت و دقت، غولهای تجاری را شکست داده است. اما آیا این ادعا واقعیت دارد؟
در این مقاله از معین گیفت، به بررسی عمیق Flux AI میپردازیم؛ مدلی که توسط خالقان اصلی Stable Diffusion ساخته شده و آمده تا قواعد بازی را تغییر دهد.
فلاکس (Flux) چیست و از کجا آمد؟
Flux.1 خانوادهای از مدلهای تبدیل متن به تصویر است که توسط استارتاپ Black Forest Labs توسعه یافته است. چرا این مهم است؟ چون بنیانگذاران این شرکت، همان تیمی هستند که قبلاً مدل انقلابی Stable Diffusion را خلق کرده بودند. آنها حالا برگشتهاند تا با تجربهای بیشتر، مدلی قدرتمندتر ارائه دهند.
هدف Flux برطرف کردن بزرگترین نقاط ضعف مدلهای فعلی است: پیروی دقیق از دستورات پیچیده (Prompt Adherence) و توانایی نوشتن متن خوانا درون تصویر.
معرفی نسخههای مختلف Flux.1
فلاکس برخلاف میدجرنی، فقط یک مدل واحد نیست؛ بلکه در سه نسخه با کاربردهای متفاوت عرضه شده است:
۱. نسخه Flux.1 [pro]؛ نهایت قدرت
این قدرتمندترین نسخه فلاکس است که بهترین کیفیت تصویر، بالاترین حد پیروی از پرامپت و بیشترین تنوع بصری را ارائه میدهد. این نسخه متنباز نیست و فقط از طریق API و سرویسهای ابری (مانند Replicate یا Fal.ai) و با پرداخت هزینه قابل استفاده است.
۲. نسخه Flux.1 [dev]؛ برای توسعهدهندگان
این نسخه دارای “وزنهای باز” (Open-weight) است و برای مقاصد غیرتجاری در دسترس است. کیفیت آن بسیار نزدیک به نسخه Pro است اما برای اجرا روی سیستمهای شخصی به کارت گرافیک بسیار قدرتمندی نیاز دارد.
۳. نسخه Flux.1 [schnell]؛ سریع و رایگان
“Schnell” در آلمانی به معنای “سریع” است. این نسخه سبکترین و سریعترین مدل فلاکس است که تحت لایسنس Apache 2.0 منتشر شده است. این یعنی کاملاً رایگان و متنباز است و میتوانید آن را برای هر کاری (حتی تجاری) استفاده کنید و روی سیستمهای خانگی قوی نیز اجرا میشود.
چرا Flux یک انقلاب محسوب میشود؟ (ویژگیهای کلیدی)
۱. استاد نوشتن متن در تصویر (Text Rendering)
بزرگترین کابوس کاربران میدجرنی و DALL-E، نوشتن یک جمله ساده داخل عکس بود. خروجی معمولاً حروف درهمریخته و عجیب بود. Flux این مشکل را حل کرده است. شما میتوانید دقیقاً بگویید چه متنی، با چه فونتی و در کجای تصویر نوشته شود و Flux آن را به طرز شگفتانگیزی دقیق اجرا میکند.
۲. پیروی بینظیر از پرامپت (Prompt Adherence)
اگر پرامپتی طولانی با ۱۰ جزئیات مختلف به میدجرنی بدهید، ممکن است ۳-۴ مورد آن را نادیده بگیرد. اما Flux به دلیل معماری پیشرفتهاش (ترکیبی از Transformer و Diffusion)، سعی میکند تکتک کلمات شما را در تصویر نهایی لحاظ کند.
۳. واقعگرایی خیرهکننده (Photorealism)
تصاویر تولید شده با Flux، به خصوص در سبک عکاسی و پرتره، دارای بافت پوست، نورپردازی و جزئیاتی هستند که تشخیص آنها از عکس واقعی بسیار دشوار است.
مقایسه Flux با غولهای تصویرسازی
آیا Flux میتواند جایگزین اشتراک میدجرنی یا اکانت DALL-E شما شود؟ بیایید در یک نگاه مقایسه کنیم:
(جدول مقایسه در پایین مقاله قرار دارد)
نتیجهگیری مقایسه: اگر به دنبال سادهترین روش هستید، DALL-E 3 (از طریق ChatGPT) بهترین است. اگر هنریترین تصاویر را میخواهید، Midjourney هنوز بیرقیب است. اما اگر به دنبال دقیقترین کنترل روی تصویر، نوشتن متن و یک گزینه رایگان و قدرتمند هستید، Flux پادشاه جدید است.
چگونه از Flux استفاده کنیم؟
از آنجایی که Flux متنباز است، راههای زیادی برای استفاده از آن وجود دارد:
- پلتفرمهای آنلاین (سادهترین راه): سایتهایی مانند Fal.ai، Replicate یا Hugging Face Spaces امکان استفاده آنلاین از مدلهای Flux را (معمولاً با هزینه اندک یا تست رایگان) فراهم کردهاند.
- نصب روی کامپیوتر (برای حرفهایها): اگر سیستم قدرتمندی دارید (کارت گرافیک انویدیا با حداقل ۱۲ تا ۱۶ گیگابایت VRAM)، میتوانید با استفاده از رابطهای کاربری مانند ComfyUI یا Forge، نسخه Dev یا Schnell را روی سیستم خود اجرا کنید و بدون محدودیت تصویر بسازید.
سخن پایانی
ظهور Flux نشان داد که قدرت جامعه متنباز میتواند با شرکتهای تریلیون دلاری رقابت کند. این مدل استانداردهای جدیدی را برای دقت و کیفیت در دنیای هوش مصنوعی تعریف کرده است.
اگر برای استفاده از ابزارهای حرفهای هوش مصنوعی، نیاز به تهیه اشتراکهای ارزی یا گیفتکارت دارید، معین گیفت در کنار شماست تا در سریعترین زمان ممکن به دنیای بینهایت خلاقیت دسترسی پیدا کنید.
| ویژگی | Flux.1 (جدید) 🟢 | Midjourney v6 🔵 | DALL-E 3 🟠 |
|---|---|---|---|
| نوع دسترسی | ✅ متنباز (رایگان و پولی) | ❌ فقط اشتراک پولی | ❌ اشتراک (ChatGPT Plus) |
| نوشتن متن در تصویر | ⭐⭐⭐⭐⭐ عالی و دقیق | ⭐⭐ ضعیف و شانسی | ⭐⭐⭐⭐ خیلی خوب |
| پیروی از پرامپت | ⭐⭐⭐⭐⭐ بسیار بالا | ⭐⭐⭐⭐ خوب | ⭐⭐⭐⭐⭐ عالی (به کمک GPT) |
| سبک هنری | گرایش به واقعگرایی (Realism) | بسیار هنری و سینمایی | کمی کارتونی و دیجیتالی |