Zastosowanie pakietu Statistica do obliczeń statystycznych w medycynie
Materiały dla studium MEDUNI
Źródła :
1. Andrzej Stanisz: Przystępny kurs statystyki (w oparciu o program STATISTICA Pl )
2. Ryszard Tadeusiewicz, Andrzej Izworski i Janusz Majewski: Biometria. Wydawnictwo AGH 1993
3. Dokumentacja do programu Statistica
Program Statistica
jest jednym z najczęściej używanych pakietów do statystycznej obróbki danych. Celem tych zajęć jest pokazanie niektórych możliwości pakietu w zastosowaniach medycznych. Omówimy tylko niektóre zagadnienia z olbrzymiej ilości możliwości jakie stwarza ten pakiet. Będą to Zarządzanie danymi i statystyki opisowe, testowanie hipotez oraz regresja i korelacja. dzanie danymi i statystyki opisowePliki danych
Dane w Statistice są zorganizowane w przypadki (wiersze tabeli - rekordy bazy danych) i zmienne (kolumny tabeli - pola rekordów w bazie danych) . Domyślnym sposobem zapisu ( i odczytu ) danych jest format pliku *.sta. Jednak program może też importować dane z arkuszy kalkulacyjnych (Excel, Lotus) baz danych (Access, dBase, Paradox) i oczywiście zwykłych plików tekstowych. Pokażemy jak można operować danymi na przykładzie zewnętrznego pliku danych zapisanych w formacie tekstowym pima.txt. W polskiej wersji statystyki zmienne liczbowe dziesiętne wykorzystują znak przecinka. Jeśli więc w pliku, który w tym przypadku pochodzi z amerykańskiej bazy danych, używa się do tego celu kropki trzeba dokonać konwersji. Można tego dokonać przy pomocy dowolnego edytora tekstu (poza Notepadem). Tak przygotowany plik przy pomocy menu (Pliki/Importuj dane/Szybki) importujemy do programu Statistica. Program automatycznie spróbuje go przekonwertować do formatu *.sta i przedstawi dane w postaci tabeli tak jak na rysunku poniżej.

Dane w tabeli można edytować analogicznie jak w arkuszach kalkulacyjnych, tzn. można kopiować kolumny, wiersze lub zaznaczone bloki, można wykonywać określone funkcje matematyczne na danych itp. Zmiennym, które na rysunku są opisane przy pomocy nazw
VAR1, VAR2,..., można nadać znaczące nazwy (nie dłuższe niż osiem znaków). Można również dopisać długie komentarze do nazwy zmiennych (to samo dotyczy przypadków), które mogą się pojawić w arkuszach wyników. Inną możliwością jest dopisywanie etykiety (komentarzy) bezpośrednio do danych. Aby zmienić opis zmiennej wystarczy kliknąć dwukrotnie na jej nazwę w arkuszu danych i wypełnić odpowiednie informacje w oknie edycji zmiennych, które się wówczas pojawi.

To samo można osiągnąć klikając przycisk
Zmienne na pasku narzędzi. W oknie edycji zmiennych naciskając guzik Wszystkie spec. o otrzymamy możliwość edycji długich nazw zmiennych.
Klikając dwukrotnie na białe pole pod belką arkusza danych przechodzimy do okna edycji nagłówka pliku i skoroszytu w którym wpisujemy dane o pliku danych lub tworzymy skoroszyt (zbiór arkuszy danych). Arkusz danych posiada menu podręczne, które uruchamiamy klikając prawym przyciskiem myszki w jakiejś komórce danych. W menu tym zawarte są podstawowe operacje związane z operacjami na danej zmiennej (kolumnie), do której przypisana
jest komórka.Statystyki opisowe
Podstawowe operacje na danych dokonujemy przy pomocy okna (panelu) statystyki opisowe
, który pozwala w prosty sposób policzyć wiele interesujących nas wielkości statystycznych. Po uruchomieniu programu Statistica pojawi się przełącznik modułów, w którym wybieramy opcję Podstawowe statystyki a następnie Statystyki opisowe. Pojawi się następujący panel (Rysunek.3):
Jednocześnie program otworzy ostatnio analizowane dane. Nas interesują dane zawarte w pliku
pima.sta. W menu Plik wybieramy opcję Nowe dane i wczytujemy ten plik. W menu Analiza wybieramy opcję Statystyki opisowe i ponownie pojawia się powyższy panel. Możemy też nacisnąć przycisk przełącznika modułów na pasku narzędzii w ten sposób przejść z dowolnego innego modułu programu
Statistica do modułustatystyki podręczne a tam wybrać menu
Statystyki opisowe (ten sposób jest wskazany jeśli znajdujemy się w module Zarządzanie danymi). Do analizy musimy wybrać jedną lub kilka zmiennych. Służy do tego przycisk Zmienne. Wybieramy pierwszą zmienną - kolumnę danych (wiersze w Statistice noszą nazwę przypadków). Po naciśnięciu przycisku Szczegółowe statystyki opisowe otrzymamy wyniki w postaci tabeli. Jeśli nie wybraliśmy żadnych dodatkowych statystyk to program obliczy tylko średnią, minimum, maksimum i odchylenie standardowe :
Je
dnak wielkości, które program może obliczyć jest znacznie więcej. Po naciśnięciu przycisku Więcej statystyk możemy wybrać dodatkowe wielkości, które program ma policzyć. Po wybraniu opcji Wszystkie dla danych w tym przykładzie otrzymamy następujące rezultaty:

Rysunek 5 To samo co powyżej ale z wyborem wszystkich statystyk
W danych naszego przykładu ostatnia kolumna zawiera wartości 0 lub 1. Możemy tym wartościom przypisać pewne znaczenie tekstowe, które będzie się pojawiać w arkuszu danych, ale do obliczeń program będzie zawsze używał wartości numerycznych. Jako przykład przypiszmy wartości 0 tekst '
Klasa 1' a wartości 1 tekst 'Klasa 2'. Załóżmy, że chcemy obliczyć statystyki dla obu klas osobno. Można to zrobić przy pomocy przycisku Select Cases. Wobec tego po wybraniu przycisku Select Casew panelu Statystyki Opisowe w polu Edytuj warunki selekcji wpisujemy V9=1.Oznacza to, że teraz program będzie obliczał wszystkie statystyki tylko dla danych Klasy 2. Analogicznie postępujemy jeśli chcemy obliczyć statystyki dla Klasy 1 - wpisujemy w polu edycji V9=0. Panel Statystyki opisowe posiada wiele innych opcji:
Wykresy te mogą być znakomitą pomocą przy wnioskowaniu statystycznym. Jeśli chcemy w jakiś specjalny sposób pogrupować dane - stworzyć tabele liczebności - to w module
Podstawowe statystyki wybieramy w menu Analiza opcję Tabele liczebności.
Okno, które pojawi się w rezultacie daje bardzo duże możliwości grupowania zmiennych i w związku z tym tworzenia nowych danych. Wystarczy przy zaznaczonym oknie arkusza wyników w menu
Plik nacisnąć opcję Zapisz jako dane i tabele liczebności będą mogły służyć jako dane do dowolnej analizy statystycznej.Testowanie hipotez
Hipotezy mogą dotyczyć
Np. średni wiek osób chorych na ... wynosi 45 lat
Lek A jest skuteczniejszy od leku B
Istnieje korelacja miedzy ilością zjadanego sera (żółtego) a poziomem cholesterolu
Istnieje zależność logarytmiczna między poziomem składnika X a poziomem składnika Y
Rozkład zmiennej X jest rozkładem normalnym
Rozróżniamy testy parametryczne i nieparametryczne
Metodologia postępowania
Jeśli odrzucimy w testach hipotezę zerową to automatycznie przyjmiemy hipotezę alternatywną
Przykład: Wprowadzamy nową metodę leczenia.
H0: Metoda nie jest skuteczna
H1: Metoda jest skuteczna
Metoda postępowania jest taka, aby przy założonym poziomie istotności minimalizować (
b )Przy testach parametrycznych możemy mieć kilka rodzajów obszarów krytycznych:
Testy t-Studenta
Najczęściej interesują nas różnice między średnimi.
Rozważymy badanie skuteczności leku A względem leku B (dane w pliku aa001.sta)
W tabeli podano spadek ciśnienia po podaniu obu leków
|
Numer |
Rodz. leku |
Wartość |
Numer |
Rodz. leku |
Wartość |
|
1 |
Lek B |
6 |
12 |
Lek B |
5 |
|
2 |
Lek B |
5 |
13 |
Lek A |
5 |
|
3 |
Lek B |
11 |
14 |
Lek A |
6 |
|
4 |
Lek B |
3 |
15 |
Lek A |
12 |
|
5 |
Lek B |
4 |
16 |
Lek A |
9 |
|
6 |
Lek B |
6 |
17 |
Lek A |
8 |
|
7 |
Lek B |
6 |
18 |
Lek A |
5 |
|
8 |
Lek B |
4 |
19 |
Lek A |
7 |
|
9 |
Lek B |
9 |
20 |
Lek A |
8 |
|
10 |
Lek B |
3 |
21 |
Lek A |
15 |
|
11 |
Lek B |
2 |
22 |
Lek A |
7 |
Hipoteza zerowa: Lek A nie jest skuteczniejszy od leku B
Badanie ciśnienia tętniczego przed i po podaniu leku dla tej samej grupy osób (zbiór aa002.sta)
|
Numer |
Przed |
Po |
Numer |
Przed |
Po |
|
1 |
220 |
190 |
6 |
295 |
195 |
|
2 |
185 |
175 |
7 |
255 |
260 |
|
3 |
270 |
215 |
8 |
190 |
150 |
|
4 |
285 |
260 |
9 |
225 |
155 |
|
5 |
200 |
215 |
10 |
230 |
175 |
Hipoteza zerowa: Podanie leku nie ma wpływu na ciśnienie
Pierwszy z przykładów dotyczy testowania grup niepowiązanych
(por. plik pomocy pr. Statistica) a drugi powiązanych (por. plik pomocy pr. Statistica.) Dla każdego z nich stosujemy inne schematy testowania.Dla prób niezależnych
:
Wzory określające statystyki (zmienne losowe)
T, C, U, Z:
odpowiednio średnie, wariancje obliczone z próby, wariancje znane i-tej próby




Dla przykł
adu pierwszego mamySprawdzamy czy zmienna ma rozkład normalny (test Shapiro-Wilka - panel statystyki opisowe) i ponieważ wariancje nie są istotnie różne to stosujemy statystykę T (możemy zbadać jednorodność wariancji i, jeśli wywnioskujemy, że są one istotnie różne, zastosować statystykę C (test Cochrana-Coxa)). Wartość T otrzymujemy równą 2.351. Z tablic (albo kalkulatora prawdopodobieństwa w pakiecie STATISTICA) przy zadanym poziomie istotności 0.05 i dw
udziestu stopniach swobody znajdujemy wartość 1,72... a więc wartość T jest w przedziale krytycznym i możemy odrzucić hipotezę H0.Dla prób zależnych
Badamy różnice obu próbek i zakładamy, że populacja różnic ma rozkład normalny. Wówczas zmienna losowa
ma rozkład t-Studenta o n-1 stopniach swobody.
Wykonując obliczenia otrzymamy t=3.118 a wartość krytyczna dla 9 stopni swobody wynosi t
c=2.262 a więc hipotezę zerową o nieskuteczności należy odrzucić.W Statistice mamy w panelu Podstawowe statystyki menu
Testy t dla prób niezależnych i Testy t dla prób zależnych.

Każde z nich otwiera własne okno pozwalające zdefiniować problem:

W przypadku próbek niezależnych musimy wybrać zmienne do analizy. Zmienną grupującą będzie rodzaj leku a zmienną zależną wartość ciśnienia. Po naciśnięciu przycisku
Testy T otrzymamy rezultat w postaci tabeli w której wartość kolumny 'p' mówi z jakim poziomem istotności możemy uważać obie średnie za różne a więc kiedy możemy odrzucić hipotezę zerową: (p=.0291)
Dla prób zależnych mamy okno nieco uboższe (prostsze). Po wybraniu zmiennych pr
zycisk Testy t
uruchomi obliczenia w wyniku których otrzymamy tabelę wyników

Wartość w kolumnie 'p' podaje znów odpowiedni poziom istotności odrzucenia hipotezy zerowej o równych średnich.
Statistica
pozwala też badać inne testy istotności. W menu Analiza wybieramy opcję Inne testy istotności i pojawia się panel
Przykład
. Załóżmy, że przeprowadzamy operację dwoma różnymi metodami. Metodą A na grupie 63 pacjentów a metodą B na grupie 41 pacjentów. W wyniku operacji metodą A u 31 pacjentów (49%) zaobserwowano pewien efekt a w wyniku operacji metodą B zaobserwowano go u 10 pacjentów (24%). Będziemy porównywać dwie częstości (dwa wskaźniki struktury) . Na dole panelu wpisujemy odpowiednie liczby (N1=63, %1=49, N2=41, %2=29) i po wybraniu opcji jednostronne lub dwustronne ( w naszym wypadku wybieramy dwustronne) i naciśnięciu przycisku oblicz otrzymamy wynik na poziom istotności p=0.0454. A więc hipoteza zerową o równości obu częstości możemy odrzucić jeśli przyjęliśmy poziom istotności 0.05.
Omówimy tu tylko przykład z jedną zmienną zależną i jedną niezależną.
STATISTICA pozwala też na analizę regresji wielokrotnej.Korelacja: mówimy, że dwie zmienne są skorelowane jeśli zmianie wartości jednej odpowiada zmiana wartości drugiej zmiennej. Siłę korelacji mierzy współczynnik korelacji Pearsona:

gdzie
, ![]()
Funkcją regresji jest prosta określona wzorem
![]()
i jednym z celów analizy regresji jest obliczenie współczynników
a, b oraz oszacowania błęduobliczonych wartości albo raczej przedziału ufności otrzymanych wyników. Praktycznie przy obliczaniu tych współczynników posługujemy się metodą najmniejszych kwadratów.
Innym zagadnieniem jest stwierdzenie, czy zaobserwowana zależność ma charakter przypadkowy, czy jest typowa dla całej populacji. Do testowania tego służy test istotności współczynnika korelacji Pearsona:
Założenia
: zmienne X, Y mają rozkład normalny z nieznanym współczynnikiem korelacji. Wylosowano n-elementową próbkę ze współczynnikiem korelacji r.Hipoteza zerowa
: r=0Hipoteza alternatywna r<0 lub r>0.
Weryfikacja hipotezy:
Test
jeśli n>121
Test
jeśli n<122
Jeśli H0 jest prawdziwa jest prawdziwa, to statystyka
z ma rozkład normalny ze średnią 0 i odchyleniem standardowym 1 a statystyka t ma rozkład t-Studenta o n-1 stopniach swobody.Przykład. Rozważmy następujące dane
0:|
Numer |
Płeć |
Czas |
Poz. enz. |
Numer |
Płeć |
Czas |
Poz. enz. |
|
1 |
K |
1 |
41 |
11 |
M |
4 |
39 |
|
2 |
K |
2 |
44 |
12 |
M |
5 |
36 |
|
3 |
K |
3 |
35 |
13 |
M |
7 |
35 |
|
4 |
K |
4 |
43 |
14 |
M |
10 |
30 |
|
5 |
K |
5 |
35 |
15 |
M |
14 |
26 |
|
6 |
K |
8 |
43 |
16 |
M |
18 |
22 |
|
7 |
K |
20 |
36 |
17 |
M |
20 |
20 |
|
8 |
M |
1 |
42 |
18 |
M |
24 |
42 |
|
9 |
M |
2 |
40 |
19 |
M |
26 |
41 |
|
10 |
M |
3 |
37 |
|
|
|
|
która przedstawia wyniki eksperymentu: zależności czasu leczenia i poziomu enzymu w organizmach chorych.
Analizę korelacji wykonujemy z modułu
Podstawowe statystyki i tabele z menu Analiza wybieramy opcję Macierze Korelacji:
Wybieramy do analizy zmienne PŁEĆ i ENZ. z menu
Dwie listy zmiennych. W panelu Wyniki zaznaczamy np. punkt Dokładne tabele wyników i naciskamy przycisk OK lub Korelacje. Statistica wykona obliczenia i przedstawi wynik w postaci arkusza wyników:
Możemy też kazać narysować wykres linii regresji z zaznaczonymi granicami błędu
p=0.05. Wystarczy nacisnąć przycisk przy 2W wykr. roz. co spowoduje pojawienie się następującego rysunku:
Wystarczy zauważyć, że dwa punkty w prawym górnym rogu odbiegają od pozostałych. Jeśli usuniemy je z analizy to sytuacja powinna się poprawić (czy dane medyczne pozwalają na to?). Usunąć dane można bezpośrednio z pliku, jednak to spowodowałoby przekłamanie innych analiz.
Statistica posiada narzędzie pozwalające w prosty sposób wyeliminować dane z obliczeń bez ich usuwania. Służy do tego celu przycisk
pozwalający definiować wagi przypadków. Aby się przekonać, które dane należy pominąć w analizie
można wybrać przycisk z nazwami i program przedstawi rysunek podobny do powyższego ale z zaznaczonymi nazwami przypadków (tu numerami). Następnie do pliku danych dodamy jedną zmienną (kolumnę) o nazwie WAGA wypełnimy ją automatycznie jedynkami a w przypadkach pomijanych wpiszemy zera.. Po naciśnięciu przycisku Waga wybieramy zmienną WAGA jako zmienną ważącą i zanaczamy opcję Włącz . Po takim przygotowaniu danych otrzymujemy już dużo lepsze wyniki dla współczynnika regresji:

Wyniki te można jeszcze poprawić jeśli wprowadzić kategoryzację danych wedle płci.
![]()
Uwaga!
Chyba najlepszym podręcznikiem do programu Statistica jest pozycja 1 na liście materiałów. Podobno masię ukazać część druga tej książki. W powyższym tekście wykorzystano dwa z omawianych przykładów zostały zaczerpnięte z tego podręcznika.