Coeficientul de corelație multiplă, evaluarea calității modelului construit, importanța verificării

Coeficientul de corelație multiplă

Dacă mai multe modele de regresie au fost private de coeficienți de corelație semnificativi, t. E. Între efective variabile variabile și modelul factor există într-adevăr relație de corespondență, în acest caz, construcția coeficientului de corelație multiplă este considerată a fi adecvată.







Folosind coeficientul de corelare multiplu caracterizat efectul cumulativ al tuturor variabilelor asupra variabilei factor productiv în modelul de regresie multiplă. [36]

Formula pentru determinarea coeficientului de corelare a ecuației de regresie multiplă prin matricea coeficienților de corelație pereche:

unde - determinantul matricei coeficienților de corelație pereche;

- mezhfaktornoy determinant al matricei de corelare.

După cum se poate observa din formulele, valoarea coeficientului de corelație multiplă nu depinde numai de rezultatul de corelare cu fiecare dintre factorii, dar, de asemenea, pe corelarea mezhfaktornoy. formula Considerate permite determinarea coeficientului de corelație totală, fără a recurge la ecuația de regresie multiplă, și cu ajutorul unei perechi de coeficienți de corelație.

Tabelul 17 - Rezultatele calculului coeficientului de corelație multiplă

Evaluarea calității modelului construit

Coeficientul de determinare multiplu R2 este pătratul coeficientului de corelație multiplă.

Coeficientul de determinare multiplă caracterizează procentul construit modelul de regresie explică variația valorilor efective ale variabilei în raport cu nivelul mediu, adică. E. Indică proporția variabilei eficiente varianță totală explicată prin variația variabilelor factorului incluse în modelul de regresie. Cu cât valoarea coeficientului multiplu de determinare, modelul de regresie mai bine construit descrie relația dintre variabile.

Pentru coeficientul de determinare multiplă se realizează întotdeauna o inegalitate:

Prin urmare, includerea unui model de regresie valoare variabilă factor suplimentar liniar nu reduce coeficientul de determinare multiplă. [26]

Tabelul 18 - Coeficienții calculați de determinare

Valori ridicate ale coeficienților de determinare R2 indică faptul că modelul de regresie este bine aproximată datele originale și astfel de modele de regresie poate fi utilizată pentru a prognoza valorile indicelui eficiente.

Verificați semnificația (calitatea) a ecuației de regresie - aceasta înseamnă a determina dacă un model matematic care exprimă relația dintre variabilele, datele experimentale, este suficient dacă sunt incluse în ecuația variabilelor explicative pentru a descrie variabila dependentă. Pentru a avea o hotărâre de ansamblu asupra calității modelului, pentru fiecare observație a abaterilor relative determină eroarea medie de aproximare. Verificarea caracterului adecvat al ecuației de regresie (model) utilizând eroarea medie de aproximare, valoarea care nu trebuie să depășească 12-15% (valoarea maximă).







Formula pentru a calcula eroarea medie de aproximare:

unde n - numărul de variabile într-o regresie multiplă; f (xi1 Xi2 ..., xin ..) - valoarea i-lea a estimat variabila y; - i-lea variabila pilot y.

Tabelul 20 - eroare medie de aproximare

După cum se poate observa din rezultatul calculului, eroarea medie de aproximare nu depășește valorile admise de 12-15%, ceea ce indică caracterul adecvat al modelelor obținute.

Verificarea semnificației multiple coeficienților ecuației de regresie liniară.

Testarea importanței coeficienților individuali ai ecuației înseamnă că, în cazul în care coeficientul de o variabilă nesemnificativă, apoi încredere în influența acestei variabile asupra valorilor funcției rezultante nu poate fi y. Coeficienții Nesemnificativ trebuie setat egal cu zero, adică variabilă corespunzătoare ar trebui să fie excluse de la examinare suplimentară.

Pentru a testa semnificația fiecăruia dintre coeficienții a0. a1, ..., an se utilizează t-statistic Student, care este o valoare experimentală calculată din formula:

unde ai - coeficientul xi variabilei. - eroarea standard a coeficientului,

în care - deviația standard pentru valorile variabilei y; - medie abaterea pătratică a valorilor xi; - coeficient de determinare multiplă a ecuației de regresie în ansamblu; - coeficientul de determinare multiplă, factor care caracterizează relația dintre xi și alți factori (x1 x2, ..., xi-1, xi + 1, ..., xn ..) Din ecuația de regresie.

Fiecare dintre valorile experimentale ale statisticii este comparată cu valoarea critică (i = 1,2, ..., n), care este cautat pe masa de distribuție Student pentru un anumit nivel de semnificație utilizat și numărul de grade de libertate k, egal cu k = m-n-1. În acest caz, la un nivel de semnificație b = 0,05 și k = 13-3-1 = 9 = 2.26. [26]

Tabelul 21 - Valorile calculate Cele experimentale ale t - statistici Student

Dacă>. atunci ipoteza despre semnificația coeficientului .I nu este respins, iar xi variabila corespunzătoare rămâne în ecuație. În caz contrar, coeficientul este considerat nesemnificativ AI-ul și variabila corespunzătoare care urmează să fie excluse din ecuația de regresie. Astfel, prin compararea valorilor obținute experimentale ale critice. se poate concluziona că coeficienții nesemnificativi în toate cele patru ecuații nu.

Verificarea semnificației ecuației liniare de regresie multiplă ca un întreg

În cazul în care se dovedește că pentru un anumit nivel de semnificație ecuație b este nesemnificativă, este imposibil să-l folosească, și a constatat dependența ar trebui să fie ignorate.

Pentru a testa semnificația ecuației de regresie folosite experimentale Fischer F-statistici:

unde m - volumul probei; n - numărul de variabile în regresie multiplă; f (xi1 Xi2 ..., xin ..) - valoarea i-lea a estimat variabila y; - valorile medii experimentale ale variabilei aleatoare Y. [26]

Valorile experimentale ale criteriului Fisher, comparativ cu valorile critice = F (b; k1; k2) la nivelul de semnificație ales utilizat. Numărul de grade de libertate k1 = m - n - 1, k2 = n.

Atunci când nivelul de semnificație selectat b = 0,05 și numărul de grade de libertate k1 = 13 - 3 - 9 = 1, k2 = 3 = 8,81

Tabelul 22 - Cele calculate valorile experimentale ale testului exact al lui Fisher

Atunci când se compară criteriile experimentale Fisher valori critice (nivel de semnificație b = 0,05 FKR = 8,81), toate satisfac Fop> FKR și ajunge la concluzia că, cu probabilitatea p = 1, b = 0,95, toate ecuațiile sunt semnificative , și avem un motiv sau altul să ai încredere ecuații de regresie construite.

Evaluarea preciziei ecuației de regresie multiplă liniară

Procedura statistică finală - evaluarea preciziei ecuațiilor de regresie construite.

Calificarea proximitatea valorilor experimentale yi a variabilei aleatoare Y și valorile calculate f sale (xi), obținut prin ecuații de regresie liniară este realizată folosind eroarea pătratică medie în conformitate cu următoarea formulă:

Tabelul 23 - Rezultatele calculării medii ecuațiile de eroare pătrat