معیار انسجام چهره در ویدیوهای هوش مصنوعی (FCB) منتشر شد

این روزها اگر در فضای آنلاین، مخصوصاً پلتفرم‌هایی مثل یوتیوب، اینستاگرام یا Vimeo بگردید، ویدیوهای جذابی می‌بینید که تماماً توسط هوش مصنوعی ساخته شدن. برندها، استودیوهای مستقل و حتی هنرمندهای دیجیتال به‌سرعت وارد این عرصه شدن تا از قدرت مدل‌های جدید مثل Runway Gen-3 یا HunyuanVideo برای خلق ویدیوهایی با کیفیت بالا استفاده کنن. اما چالش بزرگی که همه رو با مشکل مواجه کرده، مسئله Face Consistency یا «انسجام چهره»ست.

چرا انسجام چهره در ویدیوهای هوش مصنوعی یه مسئله کلیدیه؟

مدل‌های هوش مصنوعی در تولید ویدیو به‌شدت پیشرفته‌ان، اما وقتی پای حفظ چهره‌ی یه شخصیت به میان میاد، قضیه فرق می‌کنه. الگوریتم‌ها هنوز به‌طور کامل قادر نیستن مشخصات ظاهری مثل فرم صورت، مدل مو، رنگ چشم‌ها یا حتی جزئیات ریز رو از یه فریم به فریم دیگه دقیقاً حفظ کنن. برای مثال، شاید شما ویدیویی رو ببینید که در یک نما چهره‌ی شخصیت، جوان با موهای تیره‌ست، اما چند ثانیه بعد، همون فرد پیرتر به نظر می‌رسه یا رنگ موهاش تغییر کرده. این مسئله به‌شدت باعث افت کیفیت محتوای تولیدشده می‌شه و کاربری اون رو برای کسب‌وکارها، تبلیغات یا محتوای آموزشی کاهش می‌ده.

برای حل این مشکل، پژوهشگران اخیراً یه معیار استاندارد با عنوان «معیار انسجام چهره در ویدیوهای هوش مصنوعی» (Face Consistency Benchmark) رو معرفی کرده‌ان. این معیار برای نخستین بار توسط تیمی متشکل از متخصصان TCL Research Europe و TCL Research America در کنفرانس PP-RAI 2025 ارائه شد.

همچنین بخوانید: با TaTa، هوش مصنوعی خواننده آشنا بشید

روش FCB: مدل‌های تشخیص چهره و معیار Cosine Distance

معیار انسجام چهره (FCB) از روش‌های دقیق و علمی استفاده می‌کنه تا نشون بده هر مدل AI چقدر در حفظ چهره‌ها موفقه. برای این ارزیابی از مدل‌های پیشرفته تشخیص چهره مثل VGG-Face، Facenet، ArcFace و SFace استفاده می‌شه. این مدل‌ها توانایی استخراج ویژگی‌های ظریف و منحصر‌به‌فرد هر چهره رو دارن و از طریق «فاصله کسینوسی» (Cosine Distance)، تفاوت چهره‌ها و انسجام چهره در ویدیوهای هوش مصنوعی رو بین فریم‌های مختلف اندازه‌گیری می‌کنن.

برای مقایسه دقیق‌تر، پژوهشگران چهار مدل معروف زیر رو انتخاب کردن:

Runway Gen-3
HunyuanVideo
Vchitect-2.0
CogVideoX1.5-5B

بعد، برای هرکدوم ۳۰ ویدیو با استفاده از پرامپت‌هایی که توسط ChatGPT طراحی شده بودن تولید شد و در دو حالت ارزیابی شدن:

مقایسه تمام فریم‌ها با یک فریم نماینده (مرجع)
مقایسه تصادفی ۲۰۰ جفت فریم مختلف از هر ویدیو

نتایج

به‌شکل خلاصه، نتایج معیار FCB همچین چیزی بودن:

مدل Runway Gen-3 بهترین عملکرد رو داشت.
HunyuanVideo در رتبه دوم و نزدیک به Runway قرار گرفت.
مدل‌های Vchitect-2.0 و CogVideoX1.5-5B عملکرد ضعیف‌تری از نظر ثبات چهره‌ها داشتن.

VBench چیه؟

VBench یه «بنچمارک» (چارچوب ارزیابی) برای سنجش کیفیت خروجیِ مدل‌های تولید ویدیو با هوش مصنوعیه. اما به‌جای اینکه فقط یه عدد کلی بده، کیفیت ویدیو رو به ۱۶ بُعد ریز می‌شکونه؛ بعدهایی مثل:

ثبات هویت سوژه
روانی حرکت
پرپرزدن زمانی (Temporal Flicker)
هماهنگی پس‌زمینه
رعایت رابطه‌های فضایی
و…

و برای هر بعد پرامپت‌ها و روش اندازه‌گیری مخصوص خودش رو داره. علاوه‌بر این، یک‌سری ترجیحات انسانی هم جمع‌آوری شده تا امتیازها با درکِ واقعی مخاطب هم‌راستا باشن. نتیجه‌ش چیه؟ می‌تونیم دقیق بفهمیم یه مدل کجا قویه و کجا ضعف داره، نه فقط «خوب/بد».

نسخه‌های جدیدتر VBench راجع به معیار انسجام چهره در ویدیوهای هوش مصنوعی چی می‌گن؟

VBench++ (۲۰۲۴) پشتیبانی و تنوع ارزیابی رو بیشتر کرده (مثلاً سنجش متن-به‌ویدیو و تصویر-به‌ویدیو با مجموعه‌تصاویر استاندارد و نسبت تصویر سازگار).
VBench-2.0 (۲۰۲۵) ارزیابی رو به ۵ دستهٔ «وفاداری ذاتی» گسترش داده: Human Fidelity، Controllability، Creativity، Physics و Commonsense؛ یعنی فقط ظاهر و روانی حرکت نیست، قوانین فیزیک، عقل سلیم و کنترل‌پذیری هم سنجیده می‌شن.

تفاوت VBench با «معیار انسجام چهره» (Face Consistency Benchmark) چیه؟
VBench «جامع»ه و ده‌ها جنبهٔ کلیِ کیفیت ویدیو رو می‌سنجه. Face Consistency Benchmark یک ابزار «تخصصی» و متمرکز رو ثبات چهره‌ست؛ با مدل‌های تشخیص چهره (مثل VGG-Face/ArcFace) و متریک‌هایی مثل cosine distance می‌سنجه که صورت یک شخصیت از فریمی به فریم بعد چقدر ثابت مونده. به‌بیان بسیار ساده‌شده و قابل‌لمس:

VBench: «آزمایش خون کلی»
FCB: «سطح ویتامین بدن»

وقتی می‌گیم معیار انسجام چهره، منظورمون اینه که یه مدل ویدیو AI چقدر تونسته چهره‌ی یه شخصیت رو از نما به نمای بعدی ثابت نگه داره. فرض کنید دارید کارتون مورد علاقه‌تون رو می‌بینید؛ اگر گاهی چشم قهرمان کارتونی آبی باشه و گاهی سبز، آزاردهنده می‌شه. تو دنیای واقعی هم همین‌طوره. تو بنچمارک عمومی مثل VBench، هویت کلی شخصیت (از حرکت چشم تا لحن صدا) سنجیده می‌شه، اما جزئیات ظریف صورت کمتر مورد توجه قرار می‌گیره. معیار انسجام چهره در ویدیوهای هوش مصنوعی دقیقاً همین «ثبات رنگ چشم یا حالت لب‌ها» رو می‌سنجه.

مثال ساده: شما دو فریم از یه ویدیو دارید. در فریم اول سوژه لبخند می‌زنه و در فریم دوم ناخن‌هاش قرمزه در حالی که در فریم اول سفید بوده. معیار انسجام چهره عددی به شما می‌ده که نشون می‌ده این دو فریم چقدر «شبیه» هم هستن. هر چه این عدد کمتر باشه، یعنی مدل AI بهتر تونسته صورت رو ثابت نگه داره.

تکنیک‌های ساده برای بهبود انسجام چهره در ویدیوهای هوش مصنوعی

برای نزدیک‌تر شدن به «ویدیوی واقعی»، چند روش عملی وجود داره که می‌تونید در پروژه‌های AI خودتون استفاده کنید:

هزینه‌ی هویتی (Identity Loss)
یه تابع محاسباتی اضافه می‌کنید که به مدل می‌گه «اگر رنگ چشم یا زاویه چهره تغییر کرد، جریمه شو». این کار باعث می‌شه مدل بیشتر حواسش به صورت باشه و در نتیجه معیار انسجام چهره بهبود پیدا کنه.
استفاده از جریان نوری (Optical Flow)
فرض کنید دو فریم پشت سر هم دارید. با محاسبهٔ حرکت پیکسل‌ها (مثل نقشهٔ جهت باد برای صورت)، می‌گید «الان حرکت چشم یا گونه‌ها چطوریه» و مدل رو مجبور می‌کنید تا تغییری ناگهانی در صورت ایجاد نکنه. این روش به بالا آوردن امتیاز معیار انسجام چهره کمک می‌کنه.
تنظیم دقیق پرامپت (Prompt Engineering)
مثلاً به جای نوشتن «چهره‌ی یک مرد»، بنویسید «چهره‌ی یک مرد با ریش کوتاه، ابروهای پررنگ و لبخندی نرم». این توضیح اضافه باعث می‌شه مدل در همهٔ فریم‌ها سرِ جزئیات صورت مکث کنه و معیار انسجام چهره در ویدیوهای هوش مصنوعی بالاتر بره.
تدوین دستی (Frame-by-Frame Editing)
اگر هنوز مدل به قدر کافی ثابت نیست، می‌تونید فریم‌های مشکل‌دار رو جداگانه در نرم‌افزارهایی مثل Premiere اصلاح کنید. با این کار، مطمئن می‌شید که خروجی نهایی امتیاز خوبی در معیار انسجام چهره داره.

همچنین بخوانید: چطور یک‌نفره، با سوپر دوره تولید محتوای ویدیویی با AI کار یه استودیو رو انجام بدیم؟

محدودیت‌ها و مسیر آینده

پژوهشگران پیشنهاد داده‌ان برای بهتر شدن این معیار در آینده، باید به سناریوهایی که چندین شخصیت در اون‌ها حضور دارن هم توجه بشه. همچنین علاوه بر انسجام چهره، انسجام کل بدن (Full-Body Consistency) شامل وضعیت اندام‌ها، حرکت‌ها و تعامل بین کاراکترها هم باید بررسی بشه.

کاربردهای عملی برای سازندگان و کسب‌وکارها

حالا سؤال مهم اینجاست که چرا این مسئله برای شما و کسب‌وکارتون اهمیت داره؟ در صنعت‌هایی مثل تبلیغات، ویدیوهای آموزشی و انیمیشن، ثبات بصری و قابل‌باور بودن شخصیت‌ها حیاتیه. هرگونه ضعف در انسجام چهره‌ها می‌تونه اثرگذاری پیام تبلیغاتی یا آموزشی رو کاهش بده.

اگر شما هم به دنبال استفاده از این تکنولوژی‌ها به‌صورت حرفه‌ای هستید، «سوپر دوره تولید محتوای ویدیویی با هوش مصنوعی» که توسط مدرسه اینورس برگزار می‌شه، دقیقاً برای رفع همین نیاز طراحی شده. این دوره مسیری کامل و قدم‌به‌قدم از انتخاب ابزارهای درست (مثل ChatGPT برای متن و سناریو، Runway و Krea برای ویدیو، و ElevenLabs برای صدا) تا تدوین نهایی و دستی با Premiere ارائه می‌ده.

ویژگی بارز این سوپردوره، یادگیری کامل یک ورک‌فلوی استاندارد از ایده اولیه تا ویدیو نهاییه. تمرین‌های عملی و دقیق (مثل تمرین‌های حفظ ریتم و انسجام)، به شما این توانایی رو می‌دن که دقیقاً همون کیفیتی رو به دست بیارید که مخاطب امروز از ویدیوهای حرفه‌ای انتظار داره.

یادداشت نویسنده:

در کنفرانس PP-RAI 2025، تیمی از TCL Research Europe و TCL Research America برای نخستین‌بار معیار انسجام چهره در ویدیوهای هوش مصنوعی رو به‌عنوان یه چارچوب ارزیابی معرفی کرد. پیش از این، بنچمارک‌هایی مثل VBench در CVPR 2024 و AIGCBench در TBench 2024 جنبه‌های مختلفی از کیفیت ویدیو رو (از روانی حرکت گرفته تا تطابق با پرامپت) ارزیابی کرده بودن، اما تمرکزشون روی صورت نبوده. نسخه‌ی ۲.۰ VBench (۲۰۲۵) ابعاد گسترده‌تری مثل Human Fidelity و Controllability رو هم به این پژوهش اضافه کرد؛ اما معیار انسجام چهره تنها روی ثبات چهره متمرکز شده و با دقت بیشتری وضعیت چشم‌ها، حالت لب و خطوط صورت رو بررسی می‌کنه. با معیار انسجام چهره می‌شه به‌سادگی فهمید که در کدوم مدل، شخصیت‌ها کمتر دچار تغییر ظاهری ناخواسته می‌شن

هر عدد و نتیجه‌ای که در این نوشته می‌بینید، مستقیم از سه منبع دانشگاهی به‌روز گرفته شده: (۱) مقالهٔ «Face Consistency Benchmark for GenAI Video» نوشتهٔ تیم تحقیقاتی TCL که در کنفرانس PP-RAI ۲۰۲۵ پذیرفته شده، (۲) مجموعه‌بنچمارک VBench (نسخهٔ اولیه در CVPR ۲۰۲۴ و نسخهٔ گسترده VBench-2.0 در ۲۰۲۵) و (۳) چارچوب AIGCBench که سال ۲۰۲۴ برای سنجش کیفیت کلی ویدیوهای AI منتشر شد.‌

ثبت‌نام در سوپر دوره

روز جهانی آرتیست از اینورس یک میلیون تومن…

تمدید دسترسی دوره‌ها و منتورشیپ

نسل Z و فصل جدید بازار هنر آنلاین

فرانکفورت پایتخت جهانی طراحی ۲۰۲۶ شد