این روزها اگر در فضای آنلاین، مخصوصاً پلتفرمهایی مثل یوتیوب، اینستاگرام یا Vimeo بگردید، ویدیوهای جذابی میبینید که تماماً توسط هوش مصنوعی ساخته شدن. برندها، استودیوهای مستقل و حتی هنرمندهای دیجیتال بهسرعت وارد این عرصه شدن تا از قدرت مدلهای جدید مثل Runway Gen-3 یا HunyuanVideo برای خلق ویدیوهایی با کیفیت بالا استفاده کنن. اما چالش بزرگی که همه رو با مشکل مواجه کرده، مسئله Face Consistency یا «انسجام چهره»ست.
چرا انسجام چهره در ویدیوهای هوش مصنوعی یه مسئله کلیدیه؟
مدلهای هوش مصنوعی در تولید ویدیو بهشدت پیشرفتهان، اما وقتی پای حفظ چهرهی یه شخصیت به میان میاد، قضیه فرق میکنه. الگوریتمها هنوز بهطور کامل قادر نیستن مشخصات ظاهری مثل فرم صورت، مدل مو، رنگ چشمها یا حتی جزئیات ریز رو از یه فریم به فریم دیگه دقیقاً حفظ کنن. برای مثال، شاید شما ویدیویی رو ببینید که در یک نما چهرهی شخصیت، جوان با موهای تیرهست، اما چند ثانیه بعد، همون فرد پیرتر به نظر میرسه یا رنگ موهاش تغییر کرده. این مسئله بهشدت باعث افت کیفیت محتوای تولیدشده میشه و کاربری اون رو برای کسبوکارها، تبلیغات یا محتوای آموزشی کاهش میده.
برای حل این مشکل، پژوهشگران اخیراً یه معیار استاندارد با عنوان «معیار انسجام چهره در ویدیوهای هوش مصنوعی» (Face Consistency Benchmark) رو معرفی کردهان. این معیار برای نخستین بار توسط تیمی متشکل از متخصصان TCL Research Europe و TCL Research America در کنفرانس PP-RAI 2025 ارائه شد.
همچنین بخوانید: با TaTa، هوش مصنوعی خواننده آشنا بشید

روش FCB: مدلهای تشخیص چهره و معیار Cosine Distance
معیار انسجام چهره (FCB) از روشهای دقیق و علمی استفاده میکنه تا نشون بده هر مدل AI چقدر در حفظ چهرهها موفقه. برای این ارزیابی از مدلهای پیشرفته تشخیص چهره مثل VGG-Face، Facenet، ArcFace و SFace استفاده میشه. این مدلها توانایی استخراج ویژگیهای ظریف و منحصربهفرد هر چهره رو دارن و از طریق «فاصله کسینوسی» (Cosine Distance)، تفاوت چهرهها و انسجام چهره در ویدیوهای هوش مصنوعی رو بین فریمهای مختلف اندازهگیری میکنن.
برای مقایسه دقیقتر، پژوهشگران چهار مدل معروف زیر رو انتخاب کردن:
- Runway Gen-3
- HunyuanVideo
- Vchitect-2.0
- CogVideoX1.5-5B
بعد، برای هرکدوم ۳۰ ویدیو با استفاده از پرامپتهایی که توسط ChatGPT طراحی شده بودن تولید شد و در دو حالت ارزیابی شدن:
- مقایسه تمام فریمها با یک فریم نماینده (مرجع)
- مقایسه تصادفی ۲۰۰ جفت فریم مختلف از هر ویدیو
نتایج
بهشکل خلاصه، نتایج معیار FCB همچین چیزی بودن:
- مدل Runway Gen-3 بهترین عملکرد رو داشت.
- HunyuanVideo در رتبه دوم و نزدیک به Runway قرار گرفت.
- مدلهای Vchitect-2.0 و CogVideoX1.5-5B عملکرد ضعیفتری از نظر ثبات چهرهها داشتن.
VBench چیه؟
VBench یه «بنچمارک» (چارچوب ارزیابی) برای سنجش کیفیت خروجیِ مدلهای تولید ویدیو با هوش مصنوعیه. اما بهجای اینکه فقط یه عدد کلی بده، کیفیت ویدیو رو به ۱۶ بُعد ریز میشکونه؛ بعدهایی مثل:
- ثبات هویت سوژه
- روانی حرکت
- پرپرزدن زمانی (Temporal Flicker)
- هماهنگی پسزمینه
- رعایت رابطههای فضایی
- و…
و برای هر بعد پرامپتها و روش اندازهگیری مخصوص خودش رو داره. علاوهبر این، یکسری ترجیحات انسانی هم جمعآوری شده تا امتیازها با درکِ واقعی مخاطب همراستا باشن. نتیجهش چیه؟ میتونیم دقیق بفهمیم یه مدل کجا قویه و کجا ضعف داره، نه فقط «خوب/بد».
نسخههای جدیدتر VBench راجع به معیار انسجام چهره در ویدیوهای هوش مصنوعی چی میگن؟
- VBench++ (۲۰۲۴) پشتیبانی و تنوع ارزیابی رو بیشتر کرده (مثلاً سنجش متن-بهویدیو و تصویر-بهویدیو با مجموعهتصاویر استاندارد و نسبت تصویر سازگار).
- VBench-2.0 (۲۰۲۵) ارزیابی رو به ۵ دستهٔ «وفاداری ذاتی» گسترش داده: Human Fidelity، Controllability، Creativity، Physics و Commonsense؛ یعنی فقط ظاهر و روانی حرکت نیست، قوانین فیزیک، عقل سلیم و کنترلپذیری هم سنجیده میشن.
تفاوت VBench با «معیار انسجام چهره» (Face Consistency Benchmark) چیه؟
VBench «جامع»ه و دهها جنبهٔ کلیِ کیفیت ویدیو رو میسنجه. Face Consistency Benchmark یک ابزار «تخصصی» و متمرکز رو ثبات چهرهست؛ با مدلهای تشخیص چهره (مثل VGG-Face/ArcFace) و متریکهایی مثل cosine distance میسنجه که صورت یک شخصیت از فریمی به فریم بعد چقدر ثابت مونده. بهبیان بسیار سادهشده و قابللمس:
- VBench: «آزمایش خون کلی»
- FCB: «سطح ویتامین بدن»
وقتی میگیم معیار انسجام چهره، منظورمون اینه که یه مدل ویدیو AI چقدر تونسته چهرهی یه شخصیت رو از نما به نمای بعدی ثابت نگه داره. فرض کنید دارید کارتون مورد علاقهتون رو میبینید؛ اگر گاهی چشم قهرمان کارتونی آبی باشه و گاهی سبز، آزاردهنده میشه. تو دنیای واقعی هم همینطوره. تو بنچمارک عمومی مثل VBench، هویت کلی شخصیت (از حرکت چشم تا لحن صدا) سنجیده میشه، اما جزئیات ظریف صورت کمتر مورد توجه قرار میگیره. معیار انسجام چهره در ویدیوهای هوش مصنوعی دقیقاً همین «ثبات رنگ چشم یا حالت لبها» رو میسنجه.
مثال ساده: شما دو فریم از یه ویدیو دارید. در فریم اول سوژه لبخند میزنه و در فریم دوم ناخنهاش قرمزه در حالی که در فریم اول سفید بوده. معیار انسجام چهره عددی به شما میده که نشون میده این دو فریم چقدر «شبیه» هم هستن. هر چه این عدد کمتر باشه، یعنی مدل AI بهتر تونسته صورت رو ثابت نگه داره.
تکنیکهای ساده برای بهبود انسجام چهره در ویدیوهای هوش مصنوعی
برای نزدیکتر شدن به «ویدیوی واقعی»، چند روش عملی وجود داره که میتونید در پروژههای AI خودتون استفاده کنید:
- هزینهی هویتی (Identity Loss)
یه تابع محاسباتی اضافه میکنید که به مدل میگه «اگر رنگ چشم یا زاویه چهره تغییر کرد، جریمه شو». این کار باعث میشه مدل بیشتر حواسش به صورت باشه و در نتیجه معیار انسجام چهره بهبود پیدا کنه. - استفاده از جریان نوری (Optical Flow)
فرض کنید دو فریم پشت سر هم دارید. با محاسبهٔ حرکت پیکسلها (مثل نقشهٔ جهت باد برای صورت)، میگید «الان حرکت چشم یا گونهها چطوریه» و مدل رو مجبور میکنید تا تغییری ناگهانی در صورت ایجاد نکنه. این روش به بالا آوردن امتیاز معیار انسجام چهره کمک میکنه. - تنظیم دقیق پرامپت (Prompt Engineering)
مثلاً به جای نوشتن «چهرهی یک مرد»، بنویسید «چهرهی یک مرد با ریش کوتاه، ابروهای پررنگ و لبخندی نرم». این توضیح اضافه باعث میشه مدل در همهٔ فریمها سرِ جزئیات صورت مکث کنه و معیار انسجام چهره در ویدیوهای هوش مصنوعی بالاتر بره. - تدوین دستی (Frame-by-Frame Editing)
اگر هنوز مدل به قدر کافی ثابت نیست، میتونید فریمهای مشکلدار رو جداگانه در نرمافزارهایی مثل Premiere اصلاح کنید. با این کار، مطمئن میشید که خروجی نهایی امتیاز خوبی در معیار انسجام چهره داره.
همچنین بخوانید: چطور یکنفره، با سوپر دوره تولید محتوای ویدیویی با AI کار یه استودیو رو انجام بدیم؟
محدودیتها و مسیر آینده
پژوهشگران پیشنهاد دادهان برای بهتر شدن این معیار در آینده، باید به سناریوهایی که چندین شخصیت در اونها حضور دارن هم توجه بشه. همچنین علاوه بر انسجام چهره، انسجام کل بدن (Full-Body Consistency) شامل وضعیت اندامها، حرکتها و تعامل بین کاراکترها هم باید بررسی بشه.
کاربردهای عملی برای سازندگان و کسبوکارها
حالا سؤال مهم اینجاست که چرا این مسئله برای شما و کسبوکارتون اهمیت داره؟ در صنعتهایی مثل تبلیغات، ویدیوهای آموزشی و انیمیشن، ثبات بصری و قابلباور بودن شخصیتها حیاتیه. هرگونه ضعف در انسجام چهرهها میتونه اثرگذاری پیام تبلیغاتی یا آموزشی رو کاهش بده.
اگر شما هم به دنبال استفاده از این تکنولوژیها بهصورت حرفهای هستید، «سوپر دوره تولید محتوای ویدیویی با هوش مصنوعی» که توسط مدرسه اینورس برگزار میشه، دقیقاً برای رفع همین نیاز طراحی شده. این دوره مسیری کامل و قدمبهقدم از انتخاب ابزارهای درست (مثل ChatGPT برای متن و سناریو، Runway و Krea برای ویدیو، و ElevenLabs برای صدا) تا تدوین نهایی و دستی با Premiere ارائه میده.
ویژگی بارز این سوپردوره، یادگیری کامل یک ورکفلوی استاندارد از ایده اولیه تا ویدیو نهاییه. تمرینهای عملی و دقیق (مثل تمرینهای حفظ ریتم و انسجام)، به شما این توانایی رو میدن که دقیقاً همون کیفیتی رو به دست بیارید که مخاطب امروز از ویدیوهای حرفهای انتظار داره.
یادداشت نویسنده:
در کنفرانس PP-RAI 2025، تیمی از TCL Research Europe و TCL Research America برای نخستینبار معیار انسجام چهره در ویدیوهای هوش مصنوعی رو بهعنوان یه چارچوب ارزیابی معرفی کرد. پیش از این، بنچمارکهایی مثل VBench در CVPR 2024 و AIGCBench در TBench 2024 جنبههای مختلفی از کیفیت ویدیو رو (از روانی حرکت گرفته تا تطابق با پرامپت) ارزیابی کرده بودن، اما تمرکزشون روی صورت نبوده. نسخهی ۲.۰ VBench (۲۰۲۵) ابعاد گستردهتری مثل Human Fidelity و Controllability رو هم به این پژوهش اضافه کرد؛ اما معیار انسجام چهره تنها روی ثبات چهره متمرکز شده و با دقت بیشتری وضعیت چشمها، حالت لب و خطوط صورت رو بررسی میکنه. با معیار انسجام چهره میشه بهسادگی فهمید که در کدوم مدل، شخصیتها کمتر دچار تغییر ظاهری ناخواسته میشن
هر عدد و نتیجهای که در این نوشته میبینید، مستقیم از سه منبع دانشگاهی بهروز گرفته شده: (۱) مقالهٔ «Face Consistency Benchmark for GenAI Video» نوشتهٔ تیم تحقیقاتی TCL که در کنفرانس PP-RAI ۲۰۲۵ پذیرفته شده، (۲) مجموعهبنچمارک VBench (نسخهٔ اولیه در CVPR ۲۰۲۴ و نسخهٔ گسترده VBench-2.0 در ۲۰۲۵) و (۳) چارچوب AIGCBench که سال ۲۰۲۴ برای سنجش کیفیت کلی ویدیوهای AI منتشر شد.