الذكاء الاصطناعي يزوّر الأصوات البشرية .. فكيف تحمي نفسك

تكنولوجيا

الذكاء الاصطناعي يزوّر الأصوات البشرية .. فكيف تحمي نفسك

27-05-2026 06:56 PM

السوسنة - لطالما اعتبر الصوت أحد أهم وسائل التحقق من الهوية البشرية، فعندما نتلقى اتصالا هاتفيا من أحد أفراد العائلة أو من مدير العمل أو من مسؤول نعرفه، فإننا نميل تلقائيا إلى الثقة بما نسمعه. لكن هذا الافتراض الذي استمر لعقود بدأ يتهاوى مع ظهور تقنيات استنساخ الأصوات والتزييف العميق المعتمدة على الذكاء الاصطناعي.

اليوم، لم يعد المحتال بحاجة إلى اختراق جهازك أو سرقة كلمة مرورك ليتمكن من خداعك، فبفضل أدوات الذكاء الاصطناعي الحديثة أصبح بإمكانه تقليد صوت شخص تعرفه بدقة كبيرة، وإقناعك بتحويل الأموال أو الكشف عن معلومات حساسة أو تنفيذ أوامر تبدو مشروعة تماما.

وقد دفعت هذه التطورات خبراء الأمن السيبراني والهيئات التنظيمية حول العالم إلى التحذير من موجة جديدة من الجرائم الرقمية تعتمد على استغلال الثقة البشرية أكثر من استغلال الثغرات التقنية.

التزييف الصوتي العميق هو استخدام تقنيات الذكاء الاصطناعي لإنشاء أو استنساخ أصوات بشرية تبدو حقيقية للغاية، وتعتمد هذه التقنية على نماذج التعلم العميق التي تُدرَّب على كميات ضخمة من البيانات الصوتية لتتعلم الخصائص الدقيقة للصوت البشري مثل النبرة والإيقاع وطريقة النطق والانفعالات.

ووفقا للجنة التجارة الفيدرالية الأمريكية (FTC)، فإن بعض أنظمة استنساخ الأصوات الحديثة تستطيع إنشاء نسخة مقنعة من صوت شخص ما باستخدام عينات قصيرة جدا من صوته منشورة على الإنترنت أو عبر وسائل التواصل الاجتماعي، وتؤكد اللجنة أن هذه التقنية أصبحت متاحة بشكل متزايد للجمهور والشركات والمطورين، مما يزيد من احتمالات إساءة استخدامها.

كيف تعمل تقنية استنساخ الأصوات؟
تمر عملية استنساخ الصوت عادة بعدة مراحل:
1. جمع البيانات الصوتية

يبدأ المهاجم بالحصول على تسجيلات صوتية للضحية المستهدفة. وقد تأتي هذه التسجيلات من مقاطع فيديو منشورة على منصات التواصل الاجتماعي، أو مقابلات إعلامية، أو رسائل صوتية مسجلة، أو اجتماعات افتراضية تم تسجيلها.

2. تدريب النموذج

يتم إدخال العينات الصوتية إلى نموذج ذكاء اصطناعي متخصص في استنساخ الأصوات، ويقوم النموذج بتحليل الخصائص الفريدة للصوت مثل درجة الصوت، وسرعة الكلام، واللهجة، وطريقة النطق، والأنماط العاطفية.

3. توليد الصوت المزيف

بعد انتهاء التدريب يستطيع النظام تحويل أي نص مكتوب إلى كلام يبدو وكأنه صادر عن الشخص المستهدف نفسه. وتشير أبحاث منشورة إلى أن جودة الأصوات الاصطناعية تطورت بشكل كبير خلال السنوات الأخيرة، وأصبحت بعض النماذج قادرة على إنتاج أصوات يصعب على المستمعين العاديين تمييزها عن الأصوات الحقيقية.
معلومات وإحصائيات
تؤكد التقارير الصادرة عن كبرى الجهات الأمنية والبحثية أن خطر التزييف الصوتي يتصاعد بشكل مرعب، حيث يشير خبراء الأمن في شركة كاسبرسكي إلى أن أدوات التزييف العميق الصوتي أصبحت تباع كخدمة في أسواق الإنترنت المظلم بأسعار زهيدة لا تتعدى بضعة دولارات، مما جعل التكنولوجيا متوفرة للمحتالين الهواة وليس فقط للمجموعات المتقدمة.

كما أصدرت لجنة التجارة الفيدرالية الأمريكية (FTC)، تحذيرا رسميا شديد اللهجة للمستهلكين، مؤكدة أن شكاوى الاحتيال عبر انتحال الشخصيات تصدرت قائمة جرائم الاحتيال، حيث تجاوزت الخسائر المادية المليارات، ووصف رئيس اللجنة التزييف الصوتي بالذكاء الاصطناعي بأنه "السلاح الأكثر إقناعا في يد المجرمين اليوم".

كما وثقت مختبرات الأبحاث الأمنية العالمية حالات شهيرة خسرت فيها شركات مبالغ ضخمة، ولعل أبرزها حادثة قيام مدير بنك في إحدى الدول العربية بتحويل 35 مليون دولار في عام 2020 بعد تلقيه اتصالا هاتفيا بصوت مستنسخ بدقة لأحد مديري الشركات الكبرى التي يتعامل معها، وحادثة أخرى لشركة طاقة بريطانية خسرت 243 ألف دولار جراء انتحال صوت الرئيس التنفيذي للشركة الأم عبر الهاتف.

لماذا يصعب اكتشاف الأصوات المزيفة؟
تكمن المشكلة في أن الإنسان بطبيعته يربط الصوت بالهوية، وتشير دراسة بحثية إلى أن المشاركين في التجارب أخفقوا في التمييز بين الأصوات الحقيقية والمولدة بالذكاء الاصطناعي في نسبة كبيرة من الحالات، وأظهرت الدراسة أن ثقة المشاركين في قدرتهم على الاكتشاف كانت أعلى من قدرتهم الفعلية على ذلك.

ويعود ذلك إلى عدة أسباب: التطور السريع في نماذج الذكاء الاصطناعي، وقدرة الأنظمة على محاكاة الانفعالات البشرية، واعتماد البشر على السياق الاجتماعي والثقة المسبقة، ومحدودية قدرة الأذن البشرية على اكتشاف الفروق الدقيقة.