تحليل العنصر الرئيسي

من ويكيبيديا، الموسوعة الحرة
اذهب إلى: تصفح، ‏ ابحث
تحليل العنصر الرئيسي لتوزيع طبيعي متعدد المتغيرات مركزه (1,3) ذي انحراف معياري قدره 3 على امتداد الاتجاه التقريبي (0,878, 0,478)، و قدره 1 في الاتجاه المتعامد عليه. يشير السهمان إلى المتجهتين الذاتيتين لمصفوفة التغاير، المنقحتين. يتمثل التنقيح في قسمة إحداثيات كل متجهة ذاتية على الجذر التربيعي للقيمة الذاتية الموافقة، و إزاحة المتجهتين حتى يتطابق منبعاهما مع النقطة المتوسطة للمعطيات.

تحليل العنصر الرئيسي أو تحليل المركبات الرئيسية (بالإنجليزية: Principal component analysis) (بالفرنسية: Analyse en composantes principales) هي عملية رياضياتية تنتمي إلى شعبة تحليل البيانات، و التي تتمثل في تحويل عدد من المتغيرات المترابطة إلى عدد أقل من المتغيرات الغير المترابطة. المتغيرات الناتجة عن عملية التحويل تسمى بالمركبات (أو المكونات أو المحاور) الرئيسية. القيمة المضافة للعملية هي تسهيل تأويل المعطيات المعقدة، عبر تمكين الباحث و الإحصائي من تحقيق أمثل توافق بين التقليل من عدد المتغيرات الواصفة للمعطيات، و فقدان المعلومة الأصلية (التباين) الناتج عن اختزال الأبعاد الأصلية.

تاريخ[عدل]

مقتطف من المقالة الأصلية لكارل بيرسون كيفية إيجاد أمثل المستقيمات و المستويات المقاربة لمنظومة نقط في الفضاء. أنظر النص الكامل للمقالة في المرجع (1)

تم اختراع تحليل المركبات الرئيسية عام 1901 من قبل كارل بيرسون، منظر اختبار χ²، كمحاولة لتعميم مبادئ و روح نظرية عزم القصور الذاتي المستعملة في الميكانيك. حاول بيرسون، آنذاك، تعميم أعماله في مجالي الانحدار و الارتباط، ليس لتفسير متغير بآخر بل لوصف البيانات و تلخيصها.[1]
في 1930، طور الاقتصادي و الإحصائي الأمريكي هارولد هوتلين الطريقة، في إطار تقعيد نظري شمل طرق التحليل العاملي Factorial analysis، التي انبثقت من طريقة تحليل المركبات الرئيسية. كان أكبر عائق أمام تبني الطريقة هو الكم الهائل من الحسابات المعقدة التي تستهلكها، و التي لم تكن إمكانيات الحساب الآلي المتوفرة في النصف الأول من القرن العشرين تسمح بها، خصوصا على مستوى تقطير المصفوفات و حساب المتجهات الذاتية لمصفوفة التغاير، و هي عمليات حاسمة في تحليل المركبات الرئيسية.[2]
ابتداء من الستينات، و مع تطور الحساب الآلي، كبرت شعبية الطريقة و باقي طرق التحليل العاملي، في مجتمع الإحصائيين، بل و تم تبنيها من طرف مجالات معرفية متنوعة كالاقتصاد[3] و علم الاجتماع و المعلوميات (المعالجة الرقمية، ضغط البيانات،...)

أمثلة استعمال[عدل]

مثال للمقاربة الاستكشافية الوصفية لتحليل المكونات الرئيسية: في هذا المثال المحوران الممثلان هما أحسن طريقة لتمثيل معطيات ثلاثية الأبعاد في مستوى ثنائي البعد، مع فقدان أقل قدر ممكن من التباين الأصلي.

بصفة عامة، تستعمل الطريقة في الحالات التالية (لائحة غير حصرية):

  • في إطار مقاربة استكشافية و وصفية: عندما يكون عدد المتغيرات المفسرة للساكنة الإحصائية كبيرا، يتعذر على الإدراك البشري مقاربة المعطيات عبر رسم بياني شامل، تحليل المركبات الرئيسية يمكن من إيجاد أمثل فضاء (من بعدين أو ثلاثة أبعاد)، يمكن من إسقاط البيانات الأصلية، و استنباط بنيتها العامة، بسرعة. في هذا المستوى من الاستعمال، تحليل المركبات الرئيسية يلعب دورا موجها (و ملهما) لتحاليل إحصائية أكثر عمقا، و يمكن من السبر السريع للبيانات و المتغيرات الناشزة.[4]
  • في تحييد ارتباط المتغيرات الواصفة للبيانات: المحاور (أو المركبات) الناتجة عن التحليل غير مرتبطة في ما بينها، مما يمكن من استعمالها كمتغيرات جديدة لوصف البيانات.
  • في تنقية المعطيات من الضجيج: في حالة اعتبار الباحث للمحاور الغير الرئيسية، غير مفيدة انطلاقا من نسبة مساهمتها في تفسير القصور الذاتي/التباين الأصلي.

مفاهيم أولية[عدل]

نعتبر عينة إحصائية مكونة من K فردا، حسب قيمهم بالمتغيرات X1, …, XN.
تمثل العينة رياضياتيا عبر مصفوفة M ب K سطرا و N أعمدة:

M=\begin{bmatrix} X_{1,1} & \cdots & X_{1,N} \\ \vdots & \ddots & \vdots \\ X_{K,1} & \cdots & X_{K,N}\end{bmatrix}

لكل متغير Xn، نمثل القيم المحققة ب X1, n, …, XK, n.
نمثل المتوسط ب \bar X_n و الانحراف المعياري ب σXn.
إذا كانت القيم المتحققة الممثلة في المصفوفة M ذات احتمالات حدوث متساوية، فإن لكل عنصر X_{i,j} نفس الثقل 1/K عند حساب خصائص العينة. أما إذا أردنا تمييز كل فرد بثقل معين (قي حالة العينات المعدلة أو المجمعة)، نطبق وزنا p_{i} على كل تحقق للمتغيرات. تمثل الأوزان (التي يساوي مجموعها 1) في مصفوفة قطرية D حجمها K:

D=\begin{bmatrix} p_{1} & & & 0 \\ & p_{2} & & \\ & & \ddots & \\ 0 & & & p_{K}\end{bmatrix}

في الحالة البديهية، التي تكون فيها الأوزان متساوية: D = {1 \over K} I، بحيث I هي مصفوفة الوحدة.
كل سطر من المصفوفة، الذي يمثل الفرد i، نعتبره نقطة داخل فضاء تآلفي بعده N، بينما كل عمود من المصفوفة، يعتبر متجهة إحداثيات في فضاء متجهي بعده K.
هاتان المقاربتان هما عماد تحليل العنصر الرئيسي، لأن من خلالهما سيتم إيجاد أمثل فضاء (سهل الإدراك ذي بعدين أو ثلاثة) لوصف المعطيات و استنتاج خصائصها الإحصائية. هذه العملية تستلزم عمليات تحويل أولية، مبنية على معارف الجبر الخطي و مفاهيم الجداء القياسي و المعيار و المسافة الأقليديين.

عملية تحويل العينة[عدل]

نعتبر المتجهة (\bar X_1, \cdots, \bar X_N) التي هي مركز ثقل عينة البيانات، و نشير إليها ب g.

g = M^{T}D\tilde{1} بحيث \tilde{1} هي متجهة داخل {\mathbb{R}}^K كل إحداثياتها تساوي 1.
عملية التحويل تتمثل في تركيز العينات حول مركز ثقلها:

\bar M=\begin{bmatrix} X_{1,1}-\bar X_1 & \cdots & X_{1,N}-\bar X_N \\ \vdots & \ddots & \vdots \\ X_{K,1}-\bar X_1 & \cdots & X_{K,N}-\bar X_N\end{bmatrix} = M - \tilde{1}g^{T}.


ثم اختزالها عبر الانحراف المعياري لكل متغير:

\tilde M=\begin{bmatrix} {X_{1,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{1,N}-\bar X_N\over \sigma(X_N)} \\ \vdots & \ddots & \vdots \\ {X_{K,1}-\bar X_1\over \sigma(X_1)} & \cdots & {X_{K,N}-\bar X_N\over \sigma(X_N)}\end{bmatrix}.


عملية التحويل هاته ضرورية إذا أراد الباحث تحييد تأثير العوامل التالية:

  • عامل وحدة القياس: إذا كانت طبيعة البيانات المدروسة مختلفة (أوزان و مسافات مثلا)، عملية التحويل عبر التركيز و الاختزال تمكن من مقاربة موضوعية للبيانات لا تتأثر بوحدات القياس المختارة.
  • عامل التباين: في حالة عدم القيام بعملية التحويل، إذا كان لمتغير تباين كبير، فسيجذب المكونات الرئيسية إليه، حاجبا المعلومات الكامنة في المتغيرات الأخرى.

رغم ذلك، للعملية سلبية في حالة وجود متغير يلعب فقط دور ضجيج إحصائي؛ في هذه الحالة سيكون له نفس المكانة التفسيرية للمتغيرات الأخرى؛ مما يفرض على الباحث مواجهة و مقارنة نتائج تحليل العنصر الرئيسي بعملية تحويل بآخر بدونها، حتى تكون الدراسة أكثر موضوعية.

حساب مصفوفات التغاير و الارتباط[عدل]

بعد تحويل المصفوفة M إلى \bar M أو \tilde M، يعطي جداؤهما مع منقولتيهما:

{\rm Cov} = 1/K \cdot {}\bar M^{T} \cdot \bar M

{\rm Corr} = 1/K \cdot {}\tilde M^{T} \cdot \tilde M
المصفوفتان الناتجتان هما مربعتان بعداهما N (عدد المتغيرات) و متماثلتان و حقيقيتان. و بالتالي فهما قطورتان (أو قابلتان للجدولة) في قاعدة متعامدة معيارية، حسب المبرهنة الطيفية لكارل فايغستراس.

المبرهنة الطيفية بالنسبة للمصفوفات:
لكل مصفوفة متماثلة A حقيقية، توجد مصفوفة متعامدة P و مصفوفة قطرية D، كلتاهما حقيقية، بحيث A تساوي P.D.P-1

معيار القصور و الاستنتاج الحسابي للعناصر الرئيسية[عدل]

في ما يلي، نعتبر مجموعة البيانات في شكلها المحول (المركز أو المركز المختزل، حسب سياق الدراسة). كل Xn يتم تعويضه ب X_n-\bar X_n أو (X_n-\bar X_n)/\sigma(X_n). تستعمل المصفوفة \bar M للإشارة إلى \bar M أو \tilde M، حسب التحويل المختار. المبدأ الأساسي لتحليل العنصر الرئيسي هو إيجاد أمثل محور u، يكون توليفة خطية ل Xn، بحيث يكون تباين البيانات، حول هذا المحور قصويا. بتعبير رياضي، الهدف يتحول إلى إيجاد متجهة u، يكون ناتج إسقاط العينة عليها ذا تباين قصوي. إسقاط عينة المتغيرات X على المتجهة u يكتب كما يلي:

\pi_u(M) = M \cdot u

تباين العينة المسقطة πu(M) تساوي:

\pi_u(M)^{T} \cdot 1/K \cdot \pi_u(M) = u^{T}\cdot \underbrace{M^{T}\cdot  1/K \cdot M}_C \cdot u

بحيث C هي مصفوفة مصفوفة التغاير. حسب المبرهنة المشار إليها في فقرة حساب مصفوفات التغاير و الارتباط، C مصفوفة قابلة للتقطير، في قاعدة متعامدة P. باعتبار \Delta = \textrm{Diag}(\lambda_1, \ldots, \lambda_N) المصفوفة القطرية المشكلة من القيم الذاتية ل C تكتب العينة المسقطة:

\pi_u(M)^{T} \cdot 1/K \cdot \pi_u(M) = u^{T} P^{T} \Delta P u = (Pu)^{T} \Delta \underbrace{(Pu)}_v

القيم (\lambda_1, \ldots, \lambda_N) للمصفوفة القطرية \Delta تكون مرتبة تنازليا (من الأكبر إلى الأصغر). المتجهة v التي وفقها تكون قيمة v^{T} \Delta v قصوية هي المتجهة الذاتية ل C الموافقة للقيمة الذاتية \lambda_1. و بذلك تكون

 v^{T} \cdot \Delta \cdot v = \lambda_1

و يستمر البحث عن محاور الإسقاط الأخرى، بنفس الطريقة، مع إضافة شرط إضافي: أن يكون كل محور مستنتج متعامدا على ما سبقه. المحاور المستنتجة، هي ما يصطلح عليه بالعناصر الرئيسية، و كل محور k يفسر جزءا من التباين الأصلي للعينة مقداره القيمة الذاتية λk.

انظر أيضا[عدل]

وصلات خارجية[عدل]

مراجع[عدل]