الخصوصية التفاضلية

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث
Commons-emblem-copyedit.svg هذه الصفحة ليس لها أو لها القليل فقط من الوصلات الداخلية الرابطة إلى الصفحات الأخرى. (يناير 2014)
Heckert GNU white.svg انتبه هذه الصفحة تم إنشاؤها بناء على عملية ترجمة جزئية أو كلية للصفحة الأصلية « Differential privacy » في ويكيبيديا الإنجليزية تحت رخصة جنو للوثائق الحرة. وقد تكون غير دقيقة أو ناقصة في حالة عدم إكمال ترجمتها.
لو كنت تجيد اللغة التي تمت ترجمة المقالة منها وتجد أنها دقيقة وكاملة، رجاء أزل هذا التنبيه.


الخصوصية التفاضلية[1] هي وسيلة لضمان خصوصية الأفراد المشتركين في استطلاعات الرأي، أو في اي قاعدة بيانات (طبية مثلا)، مقابل ما قد يمكن استنتاجه عنهم عبر التحليل الإحصائي لأستطلاع الرأي أو قاعدة البيانات.

تهدف الخصوصية التفاضلية لاستخلاص أكبر قدر ممكن من الدقة من الاستعلامات المطروحة على قواعد البيانات الإحصائية، مع التقليل في نفس الوقت من فرص التعرف على سجلاتها.

الوضع[عدل]

ضع في الاعتبار طرف مؤتمن، متحصّل على قاعدة بيانات من المعلومات الحساسة (على سبيل المثال لا حصر: سجلات إحصائية، معلومات تسجيل الناخبين، أو استعمالات البريد الإلكتروني).

هذا الطرف يهدف إلى نشر معلومات إحصائية عامة عن تلك البيانات لعموم الناس، مع الحفاظ على خصوصية المستخدمين ممن كانت بياناتهم مسجلة في قاعدة البيانات. مثل هذا النظام يسمّى "قاعدة بيانات إحصائية".

مفهوم "لاقابلية التمييز" [2]، المسماة لاحقاً بـالخصوصية التفاضلية[1]، تُمنْهِج مفهوم "الخصوصية" في قواعد البيانات الإحصائية.

(لاقابلية التمييز = indistinguishability)

الخصوصية التفاضلية "‫ε"[عدل]

‫الإجراءات المتخذة من قبل الخادم (الطرف) المؤتمن يمكن نمذجتها عن طريق خوارزمية عشوائية، نسميها هنا \mathcal{A}\,\!.

‫الخوارزمية العشوائية \mathcal{A}\,\! تملك الخصوصية التفاضلية "‫ε" إذا كان لكل زوج من قواعد البيانات D_{1}\,\!

و

D_{2}\,\! ‫، مختلفين في عنصر واحد فقط، نجد المعادلة التالية متحققة لكل S \subseteq \mathrm{Range}(\mathcal{A}) في مجال الخرج الخاص بالخوارزمية‫:

\Pr[\mathcal{A}(D_{1}) \in S]\leq \exp(\epsilon)\times\Pr[\mathcal{A}(D_{2}) \in S]\,\!

‫ملحوظة: الخصوصية التفاضل هو خاصية من خصائص آلية النشر (الخوارزمية العشوائية \mathcal{A})، وليست من خصائص قاعدة البيانات في حد ذاتها.

‫معنى ما سبق أن آلية النشر (\mathcal{A}) ستتصرف بنفس الطريقة تقريباً، لأي قاعدتي بيانات متجاورتين (مختلفان في عنصر واحد فقط)، على كلتاهما‫. هذا التعريف للخصوصية التفاضلية يضمن (بشدّة) أن وجود فردٍ معين من عدمه لن يؤثر على نتيجة الاستعلام بشكل ملحوظ. ‫ ‫على سبيل المثال، لو لدينا قاعدة بيانات لسجلات طبية (D_{1}) حيث كل سجل عبارة عن زوج (الاسم، س) وس، إما صفر (إذا كان معافى) أو واحد (إذا كان مصاباً بمرض السكّري).

الاسم مصاب بالسكّري؟ (س)
سمير 1
منى 1
يوسف 0
سميّة 0
شريف 1

‫تصوّر لو مستخدم خبيث (أحياناً يلقّب بالـ"خِصْم") يريد معرفة إن كان شريف مصاباً بالسكّري أم لا. هذا المستخدم يعرف أيضاً أن شريف يقبع في الصف الخامس من الجدول. لو الخِصْم بإمكانه الاستعلام بصورة معينة، Q(i)، حيث نتيجة الاستعلام عبارة عن مجموع "س" لأول i صف، فبإمكان الخصم بكل بساطة أن يراجع قيمة الاستعلام Q(5)-Q(4) لمعرفة إن كان شريف مصاباً بالسكّري من عدمه.

من اللافت للنظر ان هذا المثال يوضح ان معلومات الأفراد يمكن ان تُفضح حتى بدون الاستعلام عن الفرد بعينه.

المراجع[عدل]

  1. ^ أ ب Dwork, ICALP 2006.
  2. ^ Dwork, McSherry, Nissim and Smith, 2006.
Midori Extension.svg هذه بذرة مقالة تحتاج للنمو والتحسين. ساهم في إثرائها بالمشاركة في تحريرها.