Dan's Brain


þÿ+++ title = "Elementi di Probabilitá e Statistica" author = ["Daniel Biasiotto"] tags = ["university"] draft = false +++ - Teacher: Roberta Sirovich - r-project.org - Editor: r-studio - Esame: - Quiz Moodle - Esercizi Probabilita' - Esercizi Statistica (r) - Libri: - Bertsekasi - Tsitsiklis ~ Introduction to Probability - ottimo testo di teoria (MIT) - Ross ~ Introduction to Probability and Statistics for Engineers and Scientists - fonte di esercizi - Verzani ~ Using R for Introductory Statistics - esercizi di statistica - Esercizi aggiuntivi Pearson - secondo Moodle - Programma - Probabilità: - Spazio campionario e probabilità, insiemi, modelli probabilistici, probabilità condizionata, teorema delle probabilità totali, formula di Bayes, indipendenza. - Variabili aleatorie discrete, funzione di densità discreta, funzioni di variabili aleatorie, attesa, varianza. - Densità discreta congiunta di variabili multidimensionali, condizionamento e indipendenza, indipendenza condizionale. - Variabili aleatorie continue, funzione di densità, funzione di distribuzione cumulata. - Densità di probabilità variabili aleatorie multidimensionali. - Covarianza e correlazione. - Legge dei grandi numeri e teorema del limite centrale. - Statistica: - Introduzione a R. - Dati univariati, tipi di dati, indici riassuntivi di posizione, di variabilità e di forma. - Rappresentazioni grafiche, istogrammi,box plot e scatterplot. - Confronti qualitativi, dati appaiati. - Dati univariati categoriali e tabelle. - Inferenza statistica: stima puntuale, intervalli di confidenza (proporzioni, medie, varianze, differenze di medie). - Test di ipotesi (proporzioni, medie). ## Probabilitá {#probabilitá} ### descrive eventi soggetti a casualitá {#descrive-eventi-soggetti-a-casualitá} - nasce nell'ambito del gioco d'azzardo ~ seconda metá del 800 #### esperimenti il cui esito non e' prevedibile a priori {#esperimenti-il-cui-esito-non-e-prevedibile-a-priori} #### casualita' legata alla complessita' {#casualita-legata-alla-complessita} - sarebbe descrivibile con strumenti classici ma cio' solo con sistemi <span class="underline">troppo</span> complessi, che non sappiamo risolvere ### Insieme {#insieme} #### collezione di oggetti (elementi) {#collezione-di-oggetti--elementi} #### Naturali - contiene un numero n di elementi (finito o infinito) {#naturali-contiene-un-numero-n-di-elementi--finito-o-infinito} <!--list-separator--> - sono tutti elencabili <!--list-separator--> - infinito numerabile #### Reali {#reali} <!--list-separator--> - infinito non numerabile | piu' che numerabile <!--list-separator--> - descritti con una proprieta' #### Uso in Probabilita' {#uso-in-probabilita} gli insiemi sono usati per descrivere gli esiti possibili degli esperimenti probabilistici #### Se tutti gli elementi di A sono membri di B {#se-tutti-gli-elementi-di-a-sono-membri-di-b} <!--list-separator--> - A e' contenuto in B #### Omega {#omega} <!--list-separator--> - insieme di tutti i possibili esiti #### Partizioni Ai di S {#partizioni-ai-di-s} <!--list-separator--> - insiemi che coprono S <!--list-separator--> - insiemi disgiunti a due a due #### Leggi di de Morgan {#leggi-di-de-morgan} ### Probabilitá di Eventi {#probabilitá-di-eventi} #### Modello probabilistico {#modello-probabilistico} <!--list-separator--> - descrizione matematica del - esperimento probabilistico che stiamo analizzando - spazio campionario - legge di probabilita' - ad ogni esito (sottoinsieme di Omega) assegna un numero positivo detto probabilita' di tale evento <!--list-separator--> - def Legge di Probabilita' P Insieme d'arrivo [0,1] <!--list-separator--> - Assiomi <!--list-separator--> - Positivita' <!--list-separator--> - Misura Finita Probabilita' dello spazio campionario vale 1 <!--list-separator--> - Additivita' <!--list-separator--> - Proprieta' della P dedotte dagli assiomi <!--list-separator--> - Monotonia <!--list-separator--> - P di Unione di 2 ins <!--list-separator--> - P di unione &lt;= P degli insiemi <!--list-separator--> - P di Unione di 3 ins <!--list-separator--> - Modelli Continui - Probabilita' come Area <!--list-separator--> - Esempi di P - Legge Uniforme Discreta - Frequenza Relativa di occorrenza - P come area - moneta equa - non truccata: le due facce sono equipossibili - moneta equa lanciata 3 volte - escano due teste - due volte dado a 4 facce equo <!--list-separator--> - Probabilita' Condizionata Misura che permette di calcolare probabilita' in condizioni di informazione parziale - Prende in considerazione informazioni \\(P(A|B)=\frac{P(A\cap B)}{P(B)}\\) o equivalentemente \\(P(A\cap B) = P(A|B)\cdot P(B)\\) \\(P(A\_1\cup A\_2 | B) = P(A\_1|B)+P(A\_2|B)-P(A\_1\cap A\_2 |B)\\) <!--list-separator--> - regola della moltiplicazione Per eventi indipendenti \begin{equation\} \begin{split} P(A\_1\cap A\_2 \cap ... \cap A\_n) = & P(A\_n | A\_1 \cap A\_2 \cap ... \cap A\_{n-1}) \cdot \\\\ & P(A\_{n-1}|A\_1 \cap A\_2 \cap ... \cap A\_{n-2}) \cdot \\\\ & ... \\\\ & P(A\_2|A\_1) \cdot P(A\_1) \end{split} \end{equation\} <!--list-separator--> - Formula delle probabilita' totali In caso di \\(n\\) partizioni di \\(\Omega\\) dette \\(A\_i\\) \begin{equation\} \begin{align} P(B) = & P(B|A\_1)\cdot P(A\_1) + \\\\ & P(B|A\_2)\cdot P(A\_2) + \\\\ & ... \\\\ & P(B|A\_n)\cdot P(A\_n) \end{align} \end{equation\} <!--list-separator--> - Formula di Bayes In caso di \\(n\\) partizioni di \\(\Omega\\) dette \\(A\_i\\) \\(P(A\_i|B)=\frac{P(B|A\_i)P(A\_i)}{P(B)}\\) <!--list-separator--> - Eventi indipendenti NB l'indipendenza é una proprietá delle probabilitá, non degli eventi: dipende dalle misure Due eventi sono indipendenti se \\(P(A|B)=P(A)\\) Allora: \\(\frac{P(A\cap B)}{P(B)} = P(A)\\) \\(P(A\cap B) = P(A)P(B)\\) def equivalente Due eventi sono indipendenti se \\(P(A\cap B) = P(A)P(B)\\) \\(P(B|A)P(A) / P(B)= P(A)\\) per Bayes \\(P(B|A)=P(B)\\) def equivalente \\(P(B|A)=P(B)\\) - concetto intuitivo di indipendenza - due dadi lanciati sono indipendenti dal punto di vista meccanicistico Eventi senza intersezione non nulli non sono mai indipendenti - Quindi A e A complementare sono sempre dipendenti - quindi dati A e B indipendenti questi sono indipendenti dai complementari altrui <!--list-separator--> - Indipendenza a due a due \begin{equation\} \begin{align} P(\\{(i,j)\\}) & = P(A\_i \cap B\_j) \\\\ & = P(A\_i) \cdot P(B\_j) \\\\ & = P^1(\\{i\\}) \cdot P^2(\\{j\\}) \end{align} \end{equation\} <!--list-separator--> - Indipendenza Condizionata \\(A\\) e \\(B\\) sono indipendenti condizionatamente a \\(C\\) se: \begin{equation\} \begin{align} P(A \cap B | C) = P(A|C) \cdot P(B|C) \end{align} \end{equation\} <!--list-separator--> - Moltiplicazione Cartesiana La \\(P\\) di duple o n-uple é \\(P=P^1\P^2\...\P^n\\) ### Variabili Aleatorie {#variabili-aleatorie} In casi in cui l'esperimento é numerico servono altri strumenti rispetto a quelli usati fino ad ora Una Variabile Aleatoria é una funzione da \\(\Omega\\) in \\(\mathbb{R}\\) - \\(X,Y,Z\\) variabili aleatorie - \\(x,y,z\\) punti di \\(\mathbb{R}\\) Dipendentemente dall'immagine della variabile aleatoria questa sará discreta o continua #### Funzione della massa di Probabilitá PMF {#funzione-della-massa-di-probabilitá-pmf} aka Probability Mass Function Probabilitá che una variabili aleatoria \\(X\\) valga esattamente \\(x\\), valore arbitrario \\(p\_X(x\_i)=P(X = x\_i)\\) - il grafico della funzione mostra la natura discreta o continua della variabile \\(X\\) Dato che le variabili aleatorie sono funzioni: Le intersezioni delle controimmagini \\(X\_{-1}\\) sono a due a due disgiunte e coprono tutto \\(\Omega\\) \\(\Rightarrow \sum\_{x\in Im(X)} p\_X(x)=1\\) #### Funzioni di Variabili Aleatorie {#funzioni-di-variabili-aleatorie} dove \\(Y=g\comp X\\) \\(P\_Y(y)= \sum\_{x\in g^-1(\\{y\\})}P\_X(x)\\) #### Variabili Aleatorie Discrete {#variabili-aleatorie-discrete} <!--list-separator--> - Bernulliana Singola prova con risultato dicotomico <!--list-separator--> - Binomiale \\(p\_X(k)=\binom{n}{k}p^k(1-p)^{n-k}\\) con \\(k \in Im(X)=\\{1,2,...\\}\\) <!--list-separator--> - Geometrica \\(p\_X(k)=(1-p)^{1-p}p\\) con \\(k\in Im(X)=\\{1,2,...\\}\\) <!--list-separator--> - Poisson \\(X \sim \text{Poisson}(\lambda)\\) con \\(\lambda\\) intensitá \\(p\_X(k) = \frac{\lambda^k e^{-\lambda}}{k!}\\) <!--list-separator--> - Ipergeometrica \\(p\_X(k) = \frac{\binom{C}{k}\binom{N-C}{n-k}}{\binom{N}{n}}\\) <!--list-separator--> - Media Informazioni riassuntive, piú semplici anche se parziali \\(E(X) = \sum\_{x\in Im(X)}x p\_X(x)\\) - media pesata sulle \\(p\_X\\) delle singole \\(x\\) Questa ha il significato di \\(\lambda\\) nella Poisson <!--list-separator--> - Momento di ordine \\(k\\) \\(m\_k = E(X^k) = \sum\_{x \in Im(X)} x^2 p\_X(x)\\) <!--list-separator--> - Varianza Anche detto scarto quadratico medio \\(Var(X) = E([X-E(X)]^2)\\) \\(Var(aX+b) = a^2 Var(X)\\) - quadratica nelle costante moltiplicative - invariante per traslazioni <!--list-separator--> - Deviazione Standard Radice della Varianza #### Variabili Aleatorie Composte {#variabili-aleatorie-composte} Indipendenza \\( p\_{X,Y}(x,y) = p\_X(x)p\_Y(y) \\) per generici \\(x\\) e \\(y\\) #### Variabili Aleatorie Continue {#variabili-aleatorie-continue} [Appunti Prof](/home/dan/Documents/UNI/II/EPS/epsA-04dic20.pdf) \\(Im(X)\\) di natura continua - non possiamo usare la \\(PMF\\) - in quanto l'immagine non é numerabile, non possiamo associare ad ogni punto un valore Dato l'intervallo \\(A\\) abbiamo quindi una funzione \\(f\_x: \mathbb{R} \to \mathbb{R} \\) non negativa t.c \\(\forall A \subset \mathbb{R}\\): - \\(\mathbb{P}(X \in A) = \int\_A f\_{X}(t)dt\\) - includendo o meno gli estremi la \\(P\\) non cambia - \\(\mathbb{P}(X \in A) = \mathbb{P}(X = a) = \int\_a^a f\_X(t)dt = 0\\) Questa é detta \\(PDF\\) Probability Density Function <!--list-separator--> - Proprietá - \\(\int\_\mathbb{R} f\_X(t)dt = P(\Omega) = 1\\) - \\(\forall x \in \mathbb{R}, f\_X(x) \ge 0\\) - \\(f\_X(x)\\) non é una probabilitá - puó essere un valore qualunque, anche maggiore di 1 - \\(\int\_x^{x+\delta}f\_X(t)dt = f\_X(x)\cdot\delta\\) - se \\(\delta\\) sufficientemente piccolo <!--list-separator--> - Uniforme \\(X\\) ha densitá costante nell'intervallo \\(f\_X(x) = \frac{1}{b-a}\\) nell'intervallo \\(=0\\) altrove Casi noti \\(Unif[a,b]\\) - media \\(\frac{a+b}{2}\\) - varianza \\(\frac{(b-a)^{2}}{12}\\) <!--list-separator--> - Attesa \\( E(x) = \int^{+\inf}\_{-\inf}x\cdot f\_{x}dx \\) - corrisponde (é la stessa cosa) alla media nelle VA Discrete - teoria piú avanzata <!--list-separator--> - Esponenziale \\(\mathbb{P}(X\in A), A \subset (-\inf, 0)\\) é nulla La sua Densitá decade \\( f\_X(x) = \lambda\cdot e^{-\lambda x} \\) se \\(x \ge 0\\) \\( = 0\\) altrove - \\(X\\) prende solo valori positivi Vale Proprietá di Assenza della Memoria - \\( \mathbb{P}(X > m \mid X>n) = \mathbb{P}(X> m-n) \\) - cambia l'origine dei tempi nel calcolo della probabilitá di sopravvivenza - NB \\(PDF\\) simile alla \\(PMF\\) della Geometrica - anche in quella Variabile Aleatoria vale la Proprietá di Assenza della Memoria Casi noti \\(Espon[a,b]\\) - media \\(\frac{1}{\lambda}\\) - varianza \\(\frac{1}{\lambda^{2}}\\) <!--list-separator--> - Normale o Gaussiana \\(N(\mu , \sigma^2)\\) - media - varianza \\(f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \cdot e^{ - \frac{ (x - \mu)^2 }{ 2 \sigma^2 } \\) NB - \\(f(\mu)\\) massimo della curva e punto medio / asse di simmetria - \\(\sigma^2\\) grande \\(\to\\) \\(f(\mu)\\) piccolo - curva bassa - \\(\sigma^2\\) piccolo \\(\to\\) \\(f(\mu)\\) grande - curva alta - mantenendo sempre l'area costante = 1 - alta \\(\to\\) stretta - bassa \\(\to\\) larga La classe delle VA Normali é chiusa rispetto a traslazione e dilatazione \\(N(0 , 1)\\) é la normale standard \\( \ \\) ### Funzione di Distribuzione Cumulata {#funzione-di-distribuzione-cumulata} CDF* Non dipende dalla natura delle VA \\( F\_x : \mathbb{R} \to \mathbb{R} \\) \\( x \to F\_X (x) = P(X \le x) = P(X \in [-\infty , x])\\) #### Proprietá comuni {#proprietá-comuni} Non ha importanza la natura delle variabili in questione - la \\(P\\) é continua, si comporta bene con i limiti - \\(\lim\_{x \to \infty} F\_X(x) = \lim\_{x \to \infty} P(X \le x) = 1 = P(\Omega)\\) - \\(\lim\_{x \to -\infty} F\_X(x) = \lim\_{x \to -\infty} P(X \le x) = 0 = P(\emptyset)\\) - Monotona Crescente ### Funzione Quantile {#funzione-quantile} Inversa della Funzione di Distribuzione ## Statistica {#statistica} ### Dati {#dati} Dati univariati - Consideriamo una variabile alla volta - Generalmente si parla di campionamenti - Non posso raggiungere tutti gli individui della popolazione (Che sarebbe invece un censimento) - Misurare una parte della popolazione scelta casualmente - Estrarre in maniera casuale e rappresentativa della popolazione intera I dati univariati non si trattano in relazione ad altre variabili ### Tipologie di dati {#tipologie-di-dati} Tassonomie - Factors Variabili che codificano l'appartenenza ad un gruppo - Character Data Identificativi - Discrete Data Numerici / Quantitativi - Continuous Data Numerici/ Quantitativi di natura continua NB Le matrici sono definite con - Soggetti sulle Righe - Variabili sulle Colonne ### Analisi dei Dati {#analisi-dei-dati} #### Descrittiva {#descrittiva} Una pre-analisi dei dati per poter capire la qualita' dei dati - Per dati numerici - Indici - posizione - Media campionaria mean() - media aritmetica - la media e' sensibile ai dati estremi, viene spostata facilmente da valori molto alti o molto bassi - Mediana median() - lascia meta' delle osservazioni alla sua destra e meta' alla sua sinistra - la differenza tra media e mediana indica in che direzione si trovano i valori estremali che influenzano maggiormente la media - Percentili quantile() - dispersione - Varianza Campionaria - la cui radice e' la deviazione standard sd() - per un guess ci si puó basare sulla variabile gaussiana - \\((\mu + 3\sigma , \mu - 3\sigma)\\) in una campana comprenderá il 99% dell'area - z-scores - Valori standardizzati - coefficiente di variazione cv() - &gt;1 disperso - &lt;1 concentrati - =1 - skewness - Indice di distorsione - media degli z-scores al cubo - \\(\frac{1}{n}\sum z\_{i}^{3}\\) - ~0 - i dati sono simmetrici - &gt;0 - asimmetria verso destra(rispetto alla media) - piu' valori || piu' grandi - asimmetria verso sinistra - variabilita' - forma - Grafici - Istogrammi - hist() 1. Binning dell'asse delle \\(x\\) 2. Conto delle osservazioni che cadono in ogni bin 3. Raggruppo in rettangoli con altezza proporzionale al conteggio - questo perche' l'area e' un'indicazione della probabilita' - danno un'idea della PDF - Box Plot - boxplot() - Box tra primo quartile e terzo - contiene il 50% della massa centrale - indica nel Box il secondo quartile - whiskers - punti considerati troppo lontani dal box - si allontanano in maniera anomala, dispersi - outliers - Per dati qualitativi - riguarda categorie e fattori - Grafico a barre barchart() - qui solo l'altezza ha un significato, non l'area - Torta pie() <!--list-separator--> - Bivariata Considerare <span class="underline">due variabili</span> - qualitativa + quantitativa ToothGrowth - considerare se esistono differenze nella distribuzione della quantitativa nei diversi gruppi definiti dalla qualitativa - controllo se i box() si sovrappongono - quantitativa + quantitativa fat - esiste una relazione funzionale (lineare) tra le due variabili quantitative? - Scatterplot plot() - idea indicativa - indici di correlazione cor() - Correlazione di Pearson simile al coefficiente angolare della retta su cui posano - \\(\frac{1}{n-1} \sum (\frac{x\_i - x^\_}{s\_x})(\frac{y\_i - y}{s\_y})\\) - osservazioni della variabile sono standardizzate - MA varia molto in base ai valori outliers - stessi problemi della media campionaria - =0 nuvola <span class="underline">non distribuita</span> sulla retta - &gt;0 c'é correlazione <span class="underline">lineare</span> - &lt;0 correlazione <span class="underline">lineare inversa</span> - Correlazione di Spearman - valuta la monotonia - conta le coppie concordi e discordi - correlazione NON É causalitá - qualitativa + qualitativa grades - si tabulano in - tabelle a doppia entrata - indici - Tau di Kendall - indice di concordanza - i fattori devo quindi avere un ordinamento #### Inferenziale {#inferenziale} O Inferenza Parametrica Campione casuale di variabili \\((X\_1, X\_2, ... , X\_n)\\) Dati \\((x\_1,x\_2, ... , x\_n)\\) - Statistica Parametrica - ipotesi di conoscere la distribuzione ma non i parametri di questa - Stimatori - Media Campionaria - \\(\bar{X}=\frac{1}{n} \sum\_{i=1} X\_i\\) - Deve essere calcolabile - no incognite - Varianza Campionaria - \\(\delta^2 = \frac{1}{n-1}\sum\_{i=1}(X\_i - \bar{X})^2\\) - Leggi dei Grandi Numeri (taglia \\(n \ge 30\\)) (famiglia di teoremi) - Mostrano il legame tra gli stimatori e i parametri - Data una collezione di V.A.indipendenti e identicamente distribuite: - \\( \lim\_{n \to \infty} \bar{X} \simeq \mathbb{E}(X\_1) \\) - NB \\(E(X\_1)\\) é in funzione dei parametri - \\(\lim\_{n\to\infty} \delta^2=Var(X\_1)\\) - Un Teorema del Limite Centrale - Data una collezione di V.A.indipendenti e identicamente distribuite: - \\(\lim\_{n\to\infty}\mathbb{P}(\frac{\bar{X} - \mathbb{E}(X\_1)}{\frac{sd(X1)}{\sqrt{n}}}\le x) \simeq \mathbb{P}(Z \le x)\\) - dove \\(Z \sim N(0,1)\\) - \\[lim\_{n\to\infty}\bar{X} \simeq N(\mathbb{E}(X\_1), \frac{Var(X\_1)}{n})\\] - convergenza veloce, giá a valori bassi - NB - in una normale \\[N(\mu , \delta^2)\\] - \\[ \bar{X} = N(\mu , \frac{\delta^2}{n}) \\] - \\[\lim\_{n\to\infty}\mathbb{P}(\frac{\delta^2 - Var(X\_1)}{\frac{1}{\sqrt{n}}} \le x) \simeq \mathbb{P}(Z\le x)\\] - con \\[Z \sim N(0 , ?)\\] - in una normale - \\[\frac{\delta^2(n-1)}{Var(X\_1)} \sim \chi^2(n-1)\\] - una Chiquadro con n-1 gradi di libertá <!--list-separator--> - Intervalli di Confidenza Restituire due cose 1. Intervallo \\[[a,b]\\] 2. Confidenza \\[1-\alpha\\] - anche probabilitá > La confidenza/probabilitá che l'intervallo \\[[a,b]\\] contenga il valore vero > del parametro in seguito é \\[1-\alpha\\] <!--list-separator--> - Media - Processo di Deduzione Se voglio una maggiore Confidenza l'intervallo di confidenza sará maggiore vero metodo diminuire l'intervallo é aumentare la taglia campionaria 1. Avere una quantitá pivotale per la Media - V.A. funzione del campione casuale e del parametro incognito - deve avere una distribuzione nota e calcolabile - ovvero deve averne tutti i parametri - indichiamo \\[\mu = \mathbb{E}(X\_{1})\\] - \\[\frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}}\\] - dove \\[S = \sqrt{\delta^2}\\] - Teoremi dimostrano che: - \\(t\\) di Student - molto simile ad una normale, ma piú pesante sulle code - all'aumentare dei gradi di libertá diventa indistinguibile ad una normale - La Quantitá Pivotale é simile ad una \\(t\\) di Student con \\((n-1)\\) gradi di libertá - \\(t(n-1)\\) - se \\(n \ge 30\\) sempre, la taglia deve essere abbastanza grande 2. \\[\mathbb{P}(z\_1 \le \frac{\bar{X} - \mu}{\frac{S}{\sqrt{n}}} \le z\_2) = 1-\alpha = 0,95\\] - L'area compresa tra \\(z\_1\\) e \\(z\_2\\) di una PDF della \\(t(n-1)\\) varrá \\(0,95\\) (la confidenza) - sono infinite le coppie di \\(z\\) in quanto si spostano insieme - per convenzione viene scelta la coppia di percentili simmetrici - rispetto le aree - le aree a sinistra di \\(z\_1\\) e a destra di \\(z\_2\\) devono essere uguali 3. Invertire la catena di disugualianze per isolare \\(\mu\\) (unica incognita) - \\[\mathbb{P}(\bar{X} - t0,925 \cdot \frac{S}{\sqrt{n}} < \mu < \bar{X} - t0,025 \cdot \frac{S}{\sqrt{n}}) = 0,95 \\] - A questo punto ho l'intervallo di confidenza In caso che la taglia \\(n < 30\\) la \\(t(n-1)\\) non é una buona approssimazione Allora devo guardare i casi particolari delle distribuzioni (Normale) - Se le variabili sono \\[\sim N(\mu , \delta^2)\\] - \\[\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}} \sim t(n-1)\\] <!--list-separator--> - Proporzioni Parametro: Proporzione \\(p\\) Supponiamo di campionare da una V.A. di Bernoulli(\\(p\\)) - il caso per tutti le variabili categoriali (qualitative) con solo 2 etichette \\(\mathbb{E}(X) = 1\cdot p + 0 \cdot (1-p) = p\\) - NB: \\(\mathbb{E}(X) = \mathbb{E}(\bar{X})\\) La proporzione e' anche la media della bernulli 1. Quantitá Pivotale - \\[Q = \frac{\frac{1}{n}\sum\_{i=1}^{n} X\_i - p}{\sqrt{\frac{p(1-p)}{n}}}\\] - molto simile alla quantitá pivotale per la media di popolazione - \\(p(1-p) = Var(X)\\) - \\(Q\\) circa \\(N(0,1)\\) a \\(\infty\\) - se \\(n<30\\) non possimo fare nulla, abbiamo gia' ipotizzato di campionare da una Bernulli 2. \\[\mathbb{P}(z\_1 < Q < z\_2) = 1 - \alpha = 0,95\\] - due percentili (solitamente vengono prese simmetriche) - qnorm(0.025) e qnorm(0.975) 3. Estrarre l'incognita \\(p\\) - \\[\mathbb{P}(a < p < b) = 1-\alpha\\] \\([a,b]\\) e' l'intervallo di confidenza cercato \#R binom.test() -- esatta prop.test() -- approssimata <!--list-separator--> - Differenza di Medie - pazienti non trattati e trattati farmacologicamente - campioni indipendenti - 1 Variabile pressione + 1 variabile qualitativa (prende il farmaco o no) - differenza di medie - peso di pazienti prima e dopo dieta - campioni appaiati - 2 Variabili (peso prima e peso dopo) - Intervallo di confidenza della media delle differenze Abbiamo \\(Q \sim t(n-1), n\to \infty\\) \#R t.test() <!--list-separator--> - Test di Ipotesi Altro modo per leggere le stesse informmazioni rispetto agli intervalli di confidenza - Ipotesi - ovvero proposizione che riguarda i parametri - Ipotesi nulla \\(H\_0\\) - ipotesi in cui credo e baso il ragionamento - Ipotesi Alternativa \\(H\_1\\) - puó portare ad abbandonare/rifiutare l'ipotesi nulla - se i dati ti costringono - le Ipotesi possono essere - composte - \\(\mu > 10\\) - one-sided | unilaterali - \\(\mu \neq 10\\) - two-sided | bilaterali - semplici - \\(\mu = 10\\) Testo la Media campionaria rispetto all'ipotesi (\\(p\text{-value}\\)) - \\[\mathbb{P}(\frac{1}{n}\sum\_{i=1}^{n}X\_i > \bar{x}=\frac{1}{n}\sum\_{i=1}^{n}x\_i) = p\\] - a sinistra del &gt; ho la PDF sotto \\(H\_0\\) - se \\(p\\) piccolo (minore di \\(\alpha\\)) - abbandono \\(H\_0\\) - se \\(p\\) grande (maggiore di \\(\alpha\\)) - mantengo \\(H\_0\\) - confrontando \\(p\\) con \\(\alpha\\) - questa non la sappiamo calcolare (non sappiamo la distribuzione) Trasforma in quantitá pivotale - \\(\mathbb{P}(Q > \frac{\bar{x}-\mu}{\frac{S}{\sqrt{n}}})=p\\) - \\(Q \sim t(n-1)\\)