منوعات

«الذكاء الاصطناعي الصوتي»… منجم من الذهب

حمى البيانات الصوتية تشتعل... لكن لا تدعها تنطلي عليك

00

مشغل الصوت

لطالما تخيلنا «المستقبل»… لقد تخيلنا أجهزة كمبيوتر تتحادث مع البشر: من الكمبيوتر الهادئ والمنصت دائماً في «ستار تريك» إلى جارفيس في «آيرون مان»، كان الذكاء الاصطناعي المُدعَّم بالصوت محور الخيال العلمي ورمزاً للتقدم التكنولوجي، كما كتب جاي أوكونور(*).

الذكاء الاصطناعي الصوتي

حسناً، هذا المستقبل قد بدأ الآن. والذكاء الاصطناعي الصوتي أضحى في خضم معركة «حمى البحث عن الذهب».

تطورت الواجهات التفاعلية للذكاء الاصطناعي الصوتي من أدوات تحويل النص إلى كلام بأصوات معقدة تشبه الروبوتات إلى تقنية ذكاء اصطناعي صوتي محادثة جديدة تشبه الكلام البشري إلى حدٍ بعيد، لدرجة أنها تبدو غريبة.

ردود صوتية «بشرية»

والآن يمكننا التحدث إلى «تشات جي بي تي» والحصول على ردود صوتية تبدو مدروسة ومضحكة وصادقة. يمكن لبحث الذكاء الاصطناعي من «غوغل» الآن التحدث إليك أثناء تصفح الويب والإجابة على أسئلة كمساعد مُلمّ جيداً. وهذه الروبوتات الصوتية لا تتحدث فحسب، بل تُحاور، وهي تثبت فهمها لما نقوله، بينما تحاكي بدقة التواصل النطقَ الحقيقي من خلال التوقفات، ودرجات الصوت، والعاطفة، والسياق، والنبرة.

وهذه ليست سوى البداية. لا شك أن الصوت هو آفاق الذكاء الاصطناعي القادمة. لكن تطوره يعتمد على جودة وسلامة بيانات الصوت التي يُدرّب عليها.

الذهب الحقيقي؟ بيانات الصوت

ما يُحرّك هذا الجيل الجديد من الذكاء الاصطناعي الصوتي ليس مجرد التحسين في البرمجة، بل بيانات الصوت التي تُدرّب عليها نماذج الصوت الذكية. وبشكل أكثر تحديداً، مجموعات من بيانات ضخمة من الأصوات البشرية عالية الجودة والمتنوعة، تُمثّل نطاق الكلام البشري بكل تعقيداته – عبر اللغات واللهجات والمفردات والأنماط والعواطف ودرجات الصوت والسياق.

والآن، وبعد أن أدرك قطاع الذكاء الاصطناعي توجهاته، أصبح يُدرك القيمة الأساسية لبيانات الصوت، ويرغب الجميع في الوصول إلى هذه البيانات.

مخاطر التهافت على البيانات الصوتية

وتتسابق شركات التكنولوجيا العملاقة والشركات الناشئة لجمع البيانات أو ترخيصها أو بنائها من الصفر، فالجميع يرغب في إنشاء الذكاء الاصطناعي الناطق التالي الأكثر واقعية، ويحتاجون إلى بيانات الصوت لتغذيته.

ولكن، كما كانت تهافتات البحث عن الذهب في القرن التاسع عشر، فإن هذا التهافت الحالي يحمل مخاطر وعواقب وخيمة.

معايير تقنية وأخلاقية

إذا لم يكن لديك إذن، فهذا يُعد سرقة. إني أؤمن إيماناً راسخاً بأنه لبناء الذكاء الاصطناعي الصوتي بالطريقة الصحيحة، من الناحيتين التقنية والأخلاقية، يجب أن تُلبي البيانات التي تُدرّب نماذج الذكاء الاصطناعي الصوتي ثلاثة معايير. يجب أن تكون البيانات:

* عالية الجودة: تسجيلات صوتية بشرية نقية وعالية الدقة، خالية من ضوضاء الخلفية أو التشويش، وتُمثل أصواتاً وأنماط كلام متنوعة، وتُقدّم محتوى عاطفياً ولغوياً غنياً.

* ذات حجم كبير: بيانات كافية لتدريب نموذج بشكل هادف.

* ذات نزاهة عالية: مصادر أخلاقية مع تراخيص واضحة وموافقة سليمة للاستخدام في تدريب الذكاء الاصطناعي.

يمكن للعديد من مجموعات البيانات الحالية تلبية واحد أو اثنين من هذه المتطلبات. إن الحصول على بيانات تغطي هذه العناصر الثلاثة هو الجزء الصعب.

لا تختصر الطريق

لا أسمع الكثير من الشركات تتحدث عن كيفية بناء الذكاء الاصطناعي بشكل أخلاقي، أو توضح المصادر أو الأذونات وراء جمع البيانات المستخدمة لبناء الذكاء الاصطناعي الصوتي.

نعم، إنها قادرة على التحرك بسرعة، والعديد من شركات الذكاء الاصطناعي الصوتي الناشئة تدخل السوق في غضون أشهر. ولكن عندما تتمكن من إنتاج أصوات واقعية بهذه السرعة وبرأس مال محدود للغاية، لا يسعني إلا أن أتساءل: من أين أتت كل بيانات التدريب الخاصة بها؟

لتوفير الوقت وخفض التكاليف، تختصر الشركات الطريق بأخذ الصوت من الإنترنت، والاعتماد على مجموعات بيانات ذات ملكية غامضة أو غير معروفة، أو استخدام بيانات مرخصة لتدريب الذكاء الاصطناعي، لكنها لا تلبي معايير الجودة اللازمة لتدريب نماذج صوتية مقنعة.

هذا هو كنز الذكاء الاصطناعي: بيانات تبدو لامعة، لكنها لا تصمد أمام التدقيق القانوني أو تلبي معايير الجودة المناسبة.

بيانات نظيفة ومرخّصة

الحقيقة هي أن الذكاء الاصطناعي الصوتي لا يكون جيداً إلا بقدر جودة البيانات التي تم تدريبه عليها. وإذا كنتَ تُنشئ نموذجاً صوتياً مُصمماً للوصول إلى ملايين المستخدمين، فالمخاطر كبيرة. يجب أن تكون بياناتك نظيفة، ومُعتمدة، ومُرخصة، ومُتنوعة.

انظر فقط إلى العناوين الرئيسية للأخبار: «شركة تعليق صوتي بالذكاء الاصطناعي سرقت أصوات مُمثلين، وفقاً لدعوى قضائية في نيويورك». وهكذا تُلاحق الشركات وتُقاضى بتهمة استنساخ الأصوات واستخدامها دون إذن.

عندما تسلك الطريق غير المُعتمد، فأنت لا تُخاطر فقط بمشاكل العلاقات العامة؛ بل تفتح الباب أمام دعاوى قضائية، وتضرر السمعة، والأهم من ذلك، أنك تُخاطر بخسارة كبيرة في ثقة العملاء.

بناء ذكاء اصطناعي دائم

نحن ندخل حقبة جديدة من التفاعل بين الإنسان والكمبيوتر، حيث يكون الصوت هو الواجهة الافتراضية. سيصبح الذكاء الاصطناعي المُتحدث قريباً الطريقة المُعتادة للتسوق والتعلم والبحث والعمل، وحتى بناء العلاقات.

ولكن لكي يكون هذا المستقبل مُفيداً وإنسانياً وجديراً بالثقة حقاً، علينا أن نبنيه على أسس صحيحة. فإننا ما زلنا في بداية طفرة الذكاء الاصطناعي التوليدي، والتعامل مع البيئة القانونية المتعلقة بحقوق بيانات التدريب والتراخيص أمرٌ معقد.

وإن كان هناك أمرٌ واحدٌ مؤكد، فهو أن أي منتج صوتي قائم على الذكاء الاصطناعي وناجح سيعتمد على بيانات عالية الجودة مُحصّلة بالطريقة الصحيحة.

لقد بدأ عصرُ التنافس. اللاعبون الأذكياء لا يكتفون بالبحث عن الأشياء اللامعة، بل يبنون أصواتاً تدوم طويلاً.

 مجلة «فاست كومباني»، خدمات «تريبيون ميديا».

Loading

مقالات ذات صلة

Comments (0)

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى
Show Buttons
Hide Buttons
Translate »