Zastosowanie pakietu Statistica do obliczeń statystycznych w medycynie

Materiały dla studium MEDUNI

Źródła :

1. Andrzej Stanisz: Przystępny kurs statystyki (w oparciu o program STATISTICA Pl )

2. Ryszard Tadeusiewicz, Andrzej Izworski i Janusz Majewski: Biometria. Wydawnictwo AGH 1993

3. Dokumentacja do programu Statistica

Program Statistica jest jednym z najczęściej używanych pakietów do statystycznej obróbki danych. Celem tych zajęć jest pokazanie niektórych możliwości pakietu w zastosowaniach medycznych. Omówimy tylko niektóre zagadnienia z olbrzymiej ilości możliwości jakie stwarza ten pakiet. Będą to Zarządzanie danymi i statystyki opisowe, testowanie hipotez oraz regresja i korelacja.

Zarządzanie danymi i statystyki opisowe

Pliki danych

Dane w Statistice są zorganizowane w przypadki (wiersze tabeli - rekordy bazy danych) i zmienne (kolumny tabeli - pola rekordów w bazie danych) . Domyślnym sposobem zapisu ( i odczytu ) danych jest format pliku *.sta. Jednak program może też importować dane z arkuszy kalkulacyjnych (Excel, Lotus) baz danych (Access, dBase, Paradox) i oczywiście zwykłych plików tekstowych. Pokażemy jak można operować danymi na przykładzie zewnętrznego pliku danych zapisanych w formacie tekstowym pima.txt. W polskiej wersji statystyki zmienne liczbowe dziesiętne wykorzystują znak przecinka. Jeśli więc w pliku, który w tym przypadku pochodzi z amerykańskiej bazy danych, używa się do tego celu kropki trzeba dokonać konwersji. Można tego dokonać przy pomocy dowolnego edytora tekstu (poza Notepadem). Tak przygotowany plik przy pomocy menu (Pliki/Importuj dane/Szybki) importujemy do programu Statistica. Program automatycznie spróbuje go przekonwertować do formatu *.sta i przedstawi dane w postaci tabeli tak jak na rysunku poniżej.

 

Dane w tabeli można edytować analogicznie jak w arkuszach kalkulacyjnych, tzn. można kopiować kolumny, wiersze lub zaznaczone bloki, można wykonywać określone funkcje matematyczne na danych itp. Zmiennym, które na rysunku są opisane przy pomocy nazw VAR1, VAR2,..., można nadać znaczące nazwy (nie dłuższe niż osiem znaków). Można również dopisać długie komentarze do nazwy zmiennych (to samo dotyczy przypadków), które mogą się pojawić w arkuszach wyników. Inną możliwością jest dopisywanie etykiety (komentarzy) bezpośrednio do danych. Aby zmienić opis zmiennej wystarczy kliknąć dwukrotnie na jej nazwę w arkuszu danych i wypełnić odpowiednie informacje w oknie edycji zmiennych, które się wówczas pojawi.

To samo można osiągnąć klikając przycisk Zmienne na pasku narzędzi. W oknie edycji zmiennych naciskając guzik Wszystkie spec. o otrzymamy możliwość edycji długich nazw zmiennych.

 

Klikając dwukrotnie na białe pole pod belką arkusza danych przechodzimy do okna edycji nagłówka pliku i skoroszytu w którym wpisujemy dane o pliku danych lub tworzymy skoroszyt (zbiór arkuszy danych). Arkusz danych posiada menu podręczne, które uruchamiamy klikając prawym przyciskiem myszki w jakiejś komórce danych. W menu tym zawarte są podstawowe operacje związane z operacjami na danej zmiennej (kolumnie), do której przypisana jest komórka.

Statystyki opisowe

Podstawowe operacje na danych dokonujemy przy pomocy okna (panelu) statystyki opisowe, który pozwala w prosty sposób policzyć wiele interesujących nas wielkości statystycznych. Po uruchomieniu programu Statistica pojawi się przełącznik modułów, w którym wybieramy opcję Podstawowe statystyki a następnie Statystyki opisowe. Pojawi się następujący panel (Rysunek.3):

 

Jednocześnie program otworzy ostatnio analizowane dane. Nas interesują dane zawarte w pliku pima.sta. W menu Plik wybieramy opcję Nowe dane i wczytujemy ten plik. W menu Analiza wybieramy opcję Statystyki opisowe i ponownie pojawia się powyższy panel. Możemy też nacisnąć przycisk przełącznika modułów na pasku narzędzi

i w ten sposób przejść z dowolnego innego modułu programu Statistica do modułu

statystyki podręczne a tam wybrać menu Statystyki opisowe (ten sposób jest wskazany jeśli znajdujemy się w module Zarządzanie danymi). Do analizy musimy wybrać jedną lub kilka zmiennych. Służy do tego przycisk Zmienne. Wybieramy pierwszą zmienną - kolumnę danych (wiersze w Statistice noszą nazwę przypadków). Po naciśnięciu przycisku Szczegółowe statystyki opisowe otrzymamy wyniki w postaci tabeli. Jeśli nie wybraliśmy żadnych dodatkowych statystyk to program obliczy tylko średnią, minimum, maksimum i odchylenie standardowe :

 

Jednak wielkości, które program może obliczyć jest znacznie więcej. Po naciśnięciu przycisku Więcej statystyk możemy wybrać dodatkowe wielkości, które program ma policzyć. Po wybraniu opcji Wszystkie dla danych w tym przykładzie otrzymamy następujące rezultaty:

 

Rysunek 5 To samo co powyżej ale z wyborem wszystkich statystyk

W danych naszego przykładu ostatnia kolumna zawiera wartości 0 lub 1. Możemy tym wartościom przypisać pewne znaczenie tekstowe, które będzie się pojawiać w arkuszu danych, ale do obliczeń program będzie zawsze używał wartości numerycznych. Jako przykład przypiszmy wartości 0 tekst 'Klasa 1' a wartości 1 tekst 'Klasa 2'. Załóżmy, że chcemy obliczyć statystyki dla obu klas osobno. Można to zrobić przy pomocy przycisku Select Cases. Wobec tego po wybraniu przycisku Select Case

w panelu Statystyki Opisowe w polu Edytuj warunki selekcji wpisujemy V9=1.Oznacza to, że teraz program będzie obliczał wszystkie statystyki tylko dla danych Klasy 2. Analogicznie postępujemy jeśli chcemy obliczyć statystyki dla Klasy 1 - wpisujemy w polu edycji V9=0. Panel Statystyki opisowe posiada wiele innych opcji:

Wykresy te mogą być znakomitą pomocą przy wnioskowaniu statystycznym. Jeśli chcemy w jakiś specjalny sposób pogrupować dane - stworzyć tabele liczebności - to w module Podstawowe statystyki wybieramy w menu Analiza opcję Tabele liczebności.

Okno, które pojawi się w rezultacie daje bardzo duże możliwości grupowania zmiennych i w związku z tym tworzenia nowych danych. Wystarczy przy zaznaczonym oknie arkusza wyników w menu Plik nacisnąć opcję Zapisz jako dane i tabele liczebności będą mogły służyć jako dane do dowolnej analizy statystycznej.

Testowanie hipotez

Hipotezy mogą dotyczyć

Np. średni wiek osób chorych na ... wynosi 45 lat

Lek A jest skuteczniejszy od leku B

Istnieje korelacja miedzy ilością zjadanego sera (żółtego) a poziomem cholesterolu

Istnieje zależność logarytmiczna między poziomem składnika X a poziomem składnika Y

Rozkład zmiennej X jest rozkładem normalnym

 

Rozróżniamy testy parametryczne i nieparametryczne

 

Metodologia postępowania

Jeśli odrzucimy w testach hipotezę zerową to automatycznie przyjmiemy hipotezę alternatywną

Przykład: Wprowadzamy nową metodę leczenia.

H0: Metoda nie jest skuteczna

H1: Metoda jest skuteczna

  1. Odrzucenie H0 chociaż jest ona prawdziwa: prawdopodobieństwo to nazywamy poziomem istotności (ozn. a ) W naukach przyrodniczych na ogół przyjmuje się 0.05 jako dobrą wartość, ale ....
  2. Przyjęcie H0 chociaż jest ona fałszywa (b )

Metoda postępowania jest taka, aby przy założonym poziomie istotności minimalizować (b )

Przy testach parametrycznych możemy mieć kilka rodzajów obszarów krytycznych:

  1. Dwustronne
  2. Jednostronne (lewe i prawe)

 

Testy t-Studenta

Najczęściej interesują nas różnice między średnimi.

Przykład 1

Rozważymy badanie skuteczności leku A względem leku B (dane w pliku aa001.sta)

W tabeli podano spadek ciśnienia po podaniu obu leków

Numer

Rodz. leku

Wartość

Numer

Rodz. leku

Wartość

1

Lek B

6

12

Lek B

5

2

Lek B

5

13

Lek A

5

3

Lek B

11

14

Lek A

6

4

Lek B

3

15

Lek A

12

5

Lek B

4

16

Lek A

9

6

Lek B

6

17

Lek A

8

7

Lek B

6

18

Lek A

5

8

Lek B

4

19

Lek A

7

9

Lek B

9

20

Lek A

8

10

Lek B

3

21

Lek A

15

11

Lek B

2

22

Lek A

7

Hipoteza zerowa: Lek A nie jest skuteczniejszy od leku B
Przykład 2.

Badanie ciśnienia tętniczego przed i po podaniu leku dla tej samej grupy osób (zbiór aa002.sta)

Numer

Przed

Po

Numer

Przed

Po

1

220

190

6

295

195

2

185

175

7

255

260

3

270

215

8

190

150

4

285

260

9

225

155

5

200

215

10

230

175

Hipoteza zerowa: Podanie leku nie ma wpływu na ciśnienie

Pierwszy z przykładów dotyczy testowania grup niepowiązanych (por. plik pomocy pr. Statistica) a drugi powiązanych (por. plik pomocy pr. Statistica.) Dla każdego z nich stosujemy inne schematy testowania.

Dla prób niezależnych:

 

Wzory określające statystyki (zmienne losowe) T, C, U, Z:

odpowiednio średnie, wariancje obliczone z próby, wariancje znane i-tej próby

  1. Test T
  2. Test C
  3. Test U
  4. Test z

 

Dla przykładu pierwszego mamy

Sprawdzamy czy zmienna ma rozkład normalny (test Shapiro-Wilka - panel statystyki opisowe) i ponieważ wariancje nie są istotnie różne to stosujemy statystykę T (możemy zbadać jednorodność wariancji i, jeśli wywnioskujemy, że są one istotnie różne, zastosować statystykę C (test Cochrana-Coxa)). Wartość T otrzymujemy równą 2.351. Z tablic (albo kalkulatora prawdopodobieństwa w pakiecie STATISTICA) przy zadanym poziomie istotności 0.05 i dwudziestu stopniach swobody znajdujemy wartość 1,72... a więc wartość T jest w przedziale krytycznym i możemy odrzucić hipotezę H0.

Dla prób zależnych

Badamy różnice obu próbek i zakładamy, że populacja różnic ma rozkład normalny. Wówczas zmienna losowa

ma rozkład t-Studenta o n-1 stopniach swobody.

Wykonując obliczenia otrzymamy t=3.118 a wartość krytyczna dla 9 stopni swobody wynosi tc=2.262 a więc hipotezę zerową o nieskuteczności należy odrzucić.

W Statistice mamy w panelu Podstawowe statystyki menu Testy t dla prób niezależnych i Testy t dla prób zależnych

.

Każde z nich otwiera własne okno pozwalające zdefiniować problem:

W przypadku próbek niezależnych musimy wybrać zmienne do analizy. Zmienną grupującą będzie rodzaj leku a zmienną zależną wartość ciśnienia. Po naciśnięciu przycisku Testy T otrzymamy rezultat w postaci tabeli w której wartość kolumny 'p' mówi z jakim poziomem istotności możemy uważać obie średnie za różne a więc kiedy możemy odrzucić hipotezę zerową: (p=.0291)

Dla prób zależnych mamy okno nieco uboższe (prostsze). Po wybraniu zmiennych przycisk Testy t

uruchomi obliczenia w wyniku których otrzymamy tabelę wyników

Wartość w kolumnie 'p' podaje znów odpowiedni poziom istotności odrzucenia hipotezy zerowej o równych średnich.

 

Statistica pozwala też badać inne testy istotności. W menu Analiza wybieramy opcję Inne testy istotności i pojawia się panel

Przykład. Załóżmy, że przeprowadzamy operację dwoma różnymi metodami. Metodą A na grupie 63 pacjentów a metodą B na grupie 41 pacjentów. W wyniku operacji metodą A u 31 pacjentów (49%) zaobserwowano pewien efekt a w wyniku operacji metodą B zaobserwowano go u 10 pacjentów (24%). Będziemy porównywać dwie częstości (dwa wskaźniki struktury) . Na dole panelu wpisujemy odpowiednie liczby (N1=63, %1=49, N2=41, %2=29) i po wybraniu opcji jednostronne lub dwustronne ( w naszym wypadku wybieramy dwustronne) i naciśnięciu przycisku oblicz otrzymamy wynik na poziom istotności p=0.0454. A więc hipoteza zerową o równości obu częstości możemy odrzucić jeśli przyjęliśmy poziom istotności 0.05.

 

Korelacja i regresja

Omówimy tu tylko przykład z jedną zmienną zależną i jedną niezależną. STATISTICA pozwala też na analizę regresji wielokrotnej.

Korelacja: mówimy, że dwie zmienne są skorelowane jeśli zmianie wartości jednej odpowiada zmiana wartości drugiej zmiennej. Siłę korelacji mierzy współczynnik korelacji Pearsona:

gdzie , są średnimi asą standardowymi odchyleniami zmiennych X i Y.

Funkcją regresji jest prosta określona wzorem

i jednym z celów analizy regresji jest obliczenie współczynników a, b oraz oszacowania błędu

obliczonych wartości albo raczej przedziału ufności otrzymanych wyników. Praktycznie przy obliczaniu tych współczynników posługujemy się metodą najmniejszych kwadratów.

Innym zagadnieniem jest stwierdzenie, czy zaobserwowana zależność ma charakter przypadkowy, czy jest typowa dla całej populacji. Do testowania tego służy test istotności współczynnika korelacji Pearsona:

Założenia: zmienne X, Y mają rozkład normalny z nieznanym współczynnikiem korelacji. Wylosowano n-elementową próbkę ze współczynnikiem korelacji r.

Hipoteza zerowa: r=0

Hipoteza alternatywna r<0 lub r>0.

Weryfikacja hipotezy:

Test jeśli n>121

Test jeśli n<122

Jeśli H0 jest prawdziwa jest prawdziwa, to statystyka z ma rozkład normalny ze średnią 0 i odchyleniem standardowym 1 a statystyka t ma rozkład t-Studenta o n-1 stopniach swobody.

Przykład. Rozważmy następujące dane0:

Numer

Płeć

Czas

Poz. enz.

Numer

Płeć

Czas

Poz. enz.

1

K

1

41

11

M

4

39

2

K

2

44

12

M

5

36

3

K

3

35

13

M

7

35

4

K

4

43

14

M

10

30

5

K

5

35

15

M

14

26

6

K

8

43

16

M

18

22

7

K

20

36

17

M

20

20

8

M

1

42

18

M

24

42

9

M

2

40

19

M

26

41

10

M

3

37

 

 

 

 

która przedstawia wyniki eksperymentu: zależności czasu leczenia i poziomu enzymu w organizmach chorych. 

Analizę korelacji wykonujemy z modułu Podstawowe statystyki i tabele z menu Analiza wybieramy opcję Macierze Korelacji:

 

Wybieramy do analizy zmienne PŁEĆ i ENZ. z menu Dwie listy zmiennych. W panelu Wyniki zaznaczamy np. punkt Dokładne tabele wyników i naciskamy przycisk OK lub Korelacje. Statistica wykona obliczenia i przedstawi wynik w postaci arkusza wyników:

Możemy też kazać narysować wykres linii regresji z zaznaczonymi granicami błędu p=0.05. Wystarczy nacisnąć przycisk przy 2W wykr. roz. co spowoduje pojawienie się następującego rysunku:

Wystarczy zauważyć, że dwa punkty w prawym górnym rogu odbiegają od pozostałych. Jeśli usuniemy je z analizy to sytuacja powinna się poprawić (czy dane medyczne pozwalają na to?). Usunąć dane można bezpośrednio z pliku, jednak to spowodowałoby przekłamanie innych analiz. Statistica posiada narzędzie pozwalające w prosty sposób wyeliminować dane z obliczeń bez ich usuwania. Służy do tego celu przycisk

pozwalający definiować wagi przypadków. Aby się przekonać, które dane należy pominąć w analizie

można wybrać przycisk z nazwami i program przedstawi rysunek podobny do powyższego ale z zaznaczonymi nazwami przypadków (tu numerami). Następnie do pliku danych dodamy jedną zmienną (kolumnę) o nazwie WAGA wypełnimy ją automatycznie jedynkami a w przypadkach pomijanych wpiszemy zera.. Po naciśnięciu przycisku Waga wybieramy zmienną WAGA jako zmienną ważącą i zanaczamy opcję Włącz . Po takim przygotowaniu danych otrzymujemy już dużo lepsze wyniki dla współczynnika regresji:

Wyniki te można jeszcze poprawić jeśli wprowadzić kategoryzację danych wedle płci.

 

 

Uwaga! Chyba najlepszym podręcznikiem do programu Statistica jest pozycja 1 na liście materiałów. Podobno ma

się ukazać część druga tej książki. W powyższym tekście wykorzystano dwa z omawianych przykładów zostały zaczerpnięte z tego podręcznika.