إرشادات السلامة

تُعدّ نماذج الذكاء الاصطناعي التوليدي أدوات فعّالة، ولكنّها تتضمّن بعض القيود. وقد تؤدي تنوّع استخداماتها وإمكانية تطبيقها إلى نتائج غير متوقّعة أحيانًا، مثل النتائج غير الدقيقة أو المتحيّزة أو المسيئة. تُعد المعالجة اللاحقة والتقييم اليدوي الدقيق أمرَين ضروريَين للحدّ من خطر الضرر الناتج عن هذه المخرجات.

يمكن استخدام النماذج التي توفّرها Gemini API في مجموعة متنوعة من تطبيقات الذكاء الاصطناعي التوليدي ومعالجة اللغة الطبيعية (NLP). لا يتوفّر استخدام هذه الوظائف إلا من خلال Gemini API أو تطبيق الويب Google AI Studio، ويخضع استخدامك لواجهة Gemini API أيضًا لسياسة الاستخدام المحظور للذكاء الاصطناعي التوليدي وبنود الخدمة في Gemini API.

تكمن إحدى مزايا النماذج اللغوية الكبيرة (LLM) في أنّها أدوات إبداعية يمكنها التعامل مع العديد من المهام اللغوية المختلفة. للأسف، يعني ذلك أيضًا أنّ النماذج اللغوية الكبيرة يمكن أن تنشئ ردودًا غير متوقّعة، بما في ذلك نصوص مسيئة أو غير مراعية أو غير صحيحة من الناحية الواقعية. بالإضافة إلى ذلك، إنّ التنوّع الكبير في هذه النماذج هو ما يجعل من الصعب التنبؤ بدقة بأنواع النتائج غير المرغوب فيها التي قد تنتجها. على الرغم من أنّ واجهة برمجة التطبيقات Gemini API مصمَّمة مع مراعاة مبادئ الذكاء الاصطناعي في Google، فإنّ المطوّرين يتحمّلون مسؤولية استخدام هذه النماذج بشكل مسؤول. لمساعدة المطوّرين في إنشاء تطبيقات آمنة ومسؤولة، تتضمّن Gemini API بعض ميزات فلترة المحتوى المدمَجة، بالإضافة إلى إعدادات أمان قابلة للتعديل على مستوى 4 جوانب من الضرر. يُرجى الرجوع إلى دليل إعدادات الأمان لمعرفة المزيد.

يهدف هذا المستند إلى تعريفك ببعض مخاطر السلامة التي يمكن أن تنشأ عند استخدام النماذج اللغوية الكبيرة، واقتراح توصيات ناشئة بشأن تصميم السلامة وتطويرها. (يُرجى العِلم أنّ القوانين واللوائح التنظيمية قد تفرض أيضًا قيودًا، ولكنّ هذه الاعتبارات خارج نطاق هذا الدليل).

يُنصح باتّباع الخطوات التالية عند إنشاء تطبيقات باستخدام نماذج اللغات الكبيرة:

فهم مخاطر الأمان في تطبيقك
مراعاة إجراء تعديلات للحدّ من مخاطر السلامة
إجراء اختبارات السلامة المناسبة لحالة الاستخدام
طلب ملاحظات من المستخدمين وتتبُّع الاستخدام

يجب أن تكون مرحلتا التعديل والاختبار متكرّرتين إلى أن تصل إلى مستوى أداء مناسب لتطبيقك.

دورة تنفيذ النموذج

فهم مخاطر الأمان في تطبيقك

في هذا السياق، يتم تعريف الأمان على أنّه قدرة نموذج لغوي كبير على تجنُّب التسبّب في ضرر للمستخدمين، مثلاً من خلال إنشاء لغة سامة أو محتوى يروّج للصورة النمطية. تم تصميم النماذج المتاحة من خلال Gemini API مع مراعاة مبادئ الذكاء الاصطناعي من Google، ويخضع استخدامك لها لسياسة الاستخدام المحظور للذكاء الاصطناعي التوليدي. توفر واجهة برمجة التطبيقات فلاتر أمان مضمّنة للمساعدة في معالجة بعض المشاكل الشائعة في النماذج اللغوية، مثل اللغة المسيئة وخطاب الكراهية، والسعي إلى تحقيق الشمولية وتجنُّب الصور النمطية. ومع ذلك، يمكن أن يشكّل كل تطبيق مجموعة مختلفة من المخاطر على مستخدميه. لذلك، بصفتك مالك التطبيق، تقع على عاتقك مسؤولية معرفة المستخدمين والأضرار المحتملة التي قد يتسبب بها تطبيقك، وضمان استخدام تطبيقك للنماذج اللغوية الكبيرة (LLM) بأمان ومسؤولية.

وكجزء من هذا التقييم، عليك مراعاة احتمالية حدوث ضرر وتحديد مدى خطورته وخطوات التخفيف من حدّته. على سبيل المثال، يجب أن يكون التطبيق الذي ينشئ مقالات استنادًا إلى أحداث واقعية أكثر حذرًا بشأن تجنُّب المعلومات الخاطئة، مقارنةً بتطبيق ينشئ قصصًا خيالية بغرض الترفيه. من الطرق الجيدة لبدء استكشاف المخاطر المحتملة على السلامة إجراء بحث عن المستخدمين النهائيين وغيرهم من الأشخاص الذين قد يتأثرون بنتائج تطبيقك. ويمكن أن يتخذ ذلك أشكالاً عديدة، بما في ذلك البحث عن أحدث الدراسات في مجال تطبيقك، أو مراقبة كيفية استخدام الأشخاص لتطبيقات مشابهة، أو إجراء دراسة أو استطلاع للمستخدمين أو إجراء مقابلات غير رسمية مع المستخدمين المحتملين.

نصائح متقدمة

تحدَّث مع مجموعة متنوعة من المستخدمين المحتملين ضمن الجمهور المستهدَف بشأن تطبيقك والغرض المقصود منه للحصول على منظور أوسع بشأن المخاطر المحتملة وتعديل معايير التنوّع حسب الحاجة.
يقدّم إطار عمل إدارة مخاطر الذكاء الاصطناعي الذي أصدره المعهد الوطني للمعايير والتكنولوجيا (NIST) التابع للحكومة الأمريكية إرشادات أكثر تفصيلاً وموارد تعليمية إضافية حول إدارة مخاطر الذكاء الاصطناعي.
توضّح ورقة DeepMind المنشورة حول المخاطر الأخلاقية والاجتماعية للضرر الناتج عن النماذج اللغوية بالتفصيل الطرق التي يمكن أن تتسبّب بها تطبيقات النماذج اللغوية في إلحاق الضرر.

مراعاة إجراء تعديلات للحدّ من مخاطر السلامة

بعد أن فهمت المخاطر، يمكنك تحديد كيفية التخفيف منها. يُعدّ تحديد المخاطر التي يجب منحها الأولوية والمقدار الذي يجب بذله لمحاولة تجنُّبها قرارًا مهمًا، تمامًا مثل تحديد أولويات الأخطاء في مشروع برمجي. بعد تحديد الأولويات، يمكنك البدء في التفكير في أنواع إجراءات التخفيف التي ستكون الأنسب. في كثير من الأحيان، يمكن أن تحدث تغييرات بسيطة فرقًا وتحدّ من المخاطر.

على سبيل المثال، عند تصميم تطبيق، يجب مراعاة ما يلي:

ضبط نتائج النموذج لتعكس بشكل أفضل ما هو مقبول في سياق تطبيقك يمكن أن يؤدي الضبط إلى جعل ناتج النموذج أكثر قابلية للتوقّع واتساقًا، وبالتالي يمكن أن يساعد في الحدّ من بعض المخاطر.
توفير طريقة إدخال تسهّل الحصول على نتائج أكثر أمانًا: يمكن أن يؤثر الإدخال الدقيق الذي تقدّمه إلى نموذج لغوي كبير في جودة الناتج. ننصحك بتجربة طلبات الإدخال للعثور على ما يناسب حالة الاستخدام لديك بأمان، إذ يمكنك بعد ذلك تقديم تجربة مستخدم تسهّل ذلك. على سبيل المثال، يمكنك حصر خيارات المستخدمين في قائمة منسدلة تتضمّن طلبات إدخال، أو تقديم اقتراحات منبثقة تتضمّن عبارات وصفية تبيّن أنّها آمنة في سياق تطبيقك.
حظر المدخلات غير الآمنة وفلترة المخرجات قبل عرضها على المستخدم في الحالات البسيطة، يمكن استخدام قوائم الحظر لتحديد الكلمات أو العبارات غير الآمنة وحظرها في الطلبات أو الردود، أو مطالبة المراجعين بتعديل هذا المحتوى أو حظره يدويًا.

ملاحظة: يمكن أن يؤدي الحظر التلقائي استنادًا إلى قائمة ثابتة إلى نتائج غير مقصودة، مثل استهداف مجموعة معيّنة تستخدم عادةً مفردات في قائمة الحظر.
استخدام مصنّفات مدرَّبة لتصنيف كل طلب استنادًا إلى الأضرار المحتملة أو الإشارات العدائية ويمكن بعد ذلك اتّباع استراتيجيات مختلفة بشأن كيفية التعامل مع الطلب استنادًا إلى نوع الضرر الذي تم رصده. على سبيل المثال، إذا كان الإدخال عدائيًا أو مسيئًا بشكل واضح، قد يتم حظره وعرض ردّ مكتوب مسبقًا بدلاً منه.
نصيحة متقدّمة
- إذا أشارت الإشارات إلى أنّ الناتج ضار، يمكن للتطبيق استخدام الخيارات التالية:
  - قدِّم رسالة خطأ أو ناتجًا مكتوبًا مسبقًا.
  - أعِد تجربة الطلب، فقد يتم إنشاء نتيجة آمنة بديلة، لأنّ الطلب نفسه قد يؤدي أحيانًا إلى نتائج مختلفة.
وضع ضمانات للحماية من إساءة الاستخدام المتعمد، مثل منح كل مستخدم معرّفًا فريدًا وفرض حدّ على عدد طلبات البحث التي يمكن للمستخدم إرسالها خلال فترة زمنية محدّدة إجراء وقائي آخر هو محاولة الحماية من عمليات حقن الطلبات المحتملة. إنّ هجوم حقن الطلبات، مثل هجوم حقن SQL، هو طريقة يستخدمها المستخدمون الضارون لتصميم طلب إدخال يتلاعب بناتج النموذج، مثلاً عن طريق إرسال طلب إدخال يطلب من النموذج تجاهل أي أمثلة سابقة. يمكنك الاطّلاع على سياسة الاستخدام المحظور للذكاء الاصطناعي التوليدي لمعرفة تفاصيل حول إساءة الاستخدام المتعمدة.
تعديل الوظيفة إلى شيء ينطوي على مخاطر أقل بطبيعته أما المهام التي تكون محدودة النطاق (مثل استخراج الكلمات الرئيسية من فقرات نصية) أو التي تتطلّب إشرافًا بشريًا أكبر (مثل إنشاء محتوى قصير ستتم مراجعته من قِبل شخص)، فغالبًا ما تشكّل خطرًا أقل. على سبيل المثال، بدلاً من إنشاء تطبيق لكتابة ردّ على رسالة إلكترونية من البداية، يمكنك بدلاً من ذلك حصر استخدامه في توسيع مخطط أو اقتراح صياغات بديلة.

إجراء اختبارات السلامة المناسبة لحالة الاستخدام

يُعدّ الاختبار جزءًا أساسيًا من عملية إنشاء تطبيقات قوية وآمنة، ولكن سيختلف مدى الاختبار ونطاقه واستراتيجياته. على سبيل المثال، من المرجّح أن يشكّل تطبيق إنشاء قصائد الهايكو بغرض التسلية مخاطر أقل حدة من تطبيق مصمّم لاستخدامه من قِبل شركات المحاماة لتلخيص المستندات القانونية والمساعدة في صياغة العقود. لكن قد يستخدم أداة إنشاء قصائد الهايكو مجموعة أكبر من المستخدمين، ما يعني أنّ احتمال حدوث محاولات معادية أو حتى إدخالات ضارة غير مقصودة قد يكون أكبر. يُعدّ سياق التنفيذ مهمًا أيضًا. على سبيل المثال، قد يُعتبَر تطبيق تتم مراجعة نتائجه من قِبل خبراء بشريين قبل اتخاذ أي إجراء أقل عرضة لإنتاج نتائج ضارة من التطبيق المطابق الذي لا يخضع لمثل هذه الرقابة.

من الشائع إجراء عدة تكرارات لإجراء التغييرات والاختبار قبل الشعور بالثقة في أنّك جاهز للإطلاق، حتى بالنسبة إلى التطبيقات التي تنطوي على مخاطر منخفضة نسبيًا. هناك نوعان من الاختبارات مفيدان بشكل خاص لتطبيقات الذكاء الاصطناعي، وهما:

تتضمّن مقاييس الأمان تصميم مقاييس أمان تعكس الطرق التي يمكن أن يكون بها تطبيقك غير آمن في سياق كيفية استخدامه المحتمل، ثم اختبار مدى جودة أداء تطبيقك وفقًا للمقاييس باستخدام مجموعات بيانات التقييم. من الممارسات الجيدة التفكير في الحد الأدنى المقبول لمستويات مقاييس الأمان قبل إجراء الاختبار، وذلك حتى تتمكّن من 1) تقييم نتائج الاختبار مقارنةً بهذه التوقعات، و2) جمع مجموعة بيانات التقييم استنادًا إلى الاختبارات التي تقيّم المقاييس التي تهمّك أكثر.
نصائح متقدمة
- يجب الحذر من الاعتماد بشكل مفرط على الأساليب الجاهزة، لأنّه من المحتمل أن تحتاج إلى إنشاء مجموعات بيانات اختبار خاصة بك باستخدام مقيّمين بشريين لتناسب سياق تطبيقك بشكل كامل.
- إذا كان لديك أكثر من مقياس واحد، عليك تحديد كيفية الموازنة بينها إذا أدّى تغيير إلى تحسين أحد المقاييس على حساب مقياس آخر. كما هو الحال مع هندسة الأداء الأخرى، قد تحتاج إلى التركيز على أسوأ أداء في مجموعة التقييم بدلاً من التركيز على متوسط الأداء.
يتضمّن الاختبار الخصومي محاولة إيقاف تطبيقك بشكل استباقي. والهدف من ذلك هو تحديد نقاط الضعف حتى تتمكّن من اتخاذ الخطوات المناسبة لمعالجتها. قد يستغرق اختبار التنافس وقتًا وجهدًا كبيرَين من المقيمين الذين لديهم خبرة في تطبيقك، ولكن كلما أجريت المزيد من الاختبارات، زادت فرصتك في رصد المشاكل، خاصةً تلك التي تحدث نادرًا أو بعد تشغيل التطبيق بشكل متكرر فقط.
- الاختبار الخصومي هو طريقة لتقييم نموذج تعلّم آلي بشكل منهجي بهدف معرفة سلوكه عند تزويده بمدخلات ضارة أو مؤذية عن غير قصد:
  - قد يكون الإدخال ضارًا عندما يكون مصمّمًا بشكل واضح لإنتاج ناتج غير آمن أو مؤذٍ، مثل الطلب من نموذج لإنشاء النصوص أن ينشئ نصًا مسيئًا حول دين معيّن.
  - يكون الإدخال ضارًا عن غير قصد عندما يكون الإدخال نفسه غير مؤذٍ، ولكنّه ينتج عنه مخرجات ضارة، مثل الطلب من نموذج لإنشاء النصوص أن يصف شخصًا من عرق معيّن والحصول على مخرجات عنصرية.
- ما يميّز الاختبار الخصومي عن التقييم العادي هو تركيبة البيانات المستخدَمة في الاختبار. بالنسبة إلى الاختبارات الخصومية، اختَر بيانات الاختبار التي من المرجّح أن تؤدي إلى إخراج إشكالي من النموذج. ويعني ذلك اختبار سلوك النموذج لرصد جميع أنواع الأضرار المحتملة، بما في ذلك الأمثلة النادرة أو غير العادية والحالات الحدّية ذات الصلة بسياسات الأمان. ويجب أن يشمل أيضًا تنوّعًا في الأبعاد المختلفة للجملة، مثل البنية والمعنى والطول. يمكنك الرجوع إلى ممارسات الذكاء الاصطناعي المسؤول في Google في ما يتعلق بالإنصاف للاطّلاع على مزيد من التفاصيل حول الاعتبارات التي يجب أخذها في الحسبان عند إنشاء مجموعة بيانات اختبارية.
  نصائح متقدمة
  - استخدِم الاختبار الآلي بدلاً من الطريقة التقليدية المتمثّلة في الاستعانة بفِرق اختبارية لمحاولة إيقاف تطبيقك. في الاختبارات الآلية، يكون "الفريق الأحمر" نموذج لغة آخر يعثر على نص إدخال يؤدي إلى إخراج نتائج ضارة من النموذج الذي يتم اختباره.
ملاحظة: من المعروف أنّ النماذج اللغوية الكبيرة (LLM) تنتج أحيانًا نتائج مختلفة لطلب الإدخال نفسه. قد تكون هناك حاجة إلى إجراء عدة جولات من الاختبارات لرصد المزيد من النتائج التي تتضمّن مشاكل.

مراقبة المشاكل

مهما أجريت من اختبارات وخفّفت من المشاكل، لا يمكنك ضمان عدم حدوث أي مشاكل، لذا عليك التخطيط مسبقًا لكيفية رصد المشاكل التي قد تحدث والتعامل معها. تشمل الأساليب الشائعة إعداد قناة خاضعة للمراقبة ليشارك المستخدمون ملاحظاتهم (مثل التقييم بنعم أو لا) وإجراء دراسة حول سلوك المستخدمين للحصول بشكل استباقي على ملاحظات من مجموعة متنوعة من المستخدمين، وهو أمر مفيد بشكل خاص إذا كانت أنماط الاستخدام مختلفة عن التوقعات.

نصائح متقدمة

عندما يقدّم المستخدمون ملاحظات حول منتجات الذكاء الاصطناعي، يمكن أن يؤدي ذلك إلى تحسين أداء الذكاء الاصطناعي وتجربة المستخدم بشكل كبير بمرور الوقت، مثلاً، من خلال مساعدتك في اختيار أمثلة أفضل لتحسين الطلبات. يقدّم فصل "الملاحظات والتحكّم" في دليل "الأشخاص والذكاء الاصطناعي" من Google اعتبارات أساسية يجب أخذها في الحسبان عند تصميم آليات تلقّي الملاحظات.

الخطوات التالية

راجِع دليل إعدادات الأمان للتعرّف على إعدادات الأمان القابلة للتعديل المتاحة من خلال Gemini API.
يمكنك الاطّلاع على مقدمة حول كتابة الطلبات للبدء في كتابة طلباتك الأولى.

إرشادات السلامة

فهم مخاطر الأمان في تطبيقك

نصائح متقدمة

مراعاة إجراء تعديلات للحدّ من مخاطر السلامة

نصيحة متقدّمة

إجراء اختبارات السلامة المناسبة لحالة الاستخدام

نصائح متقدمة

نصائح متقدمة

مراقبة المشاكل

نصائح متقدمة

الخطوات التالية