Projeto de Pesquisa e Ensino - UEL Portal - Universidade ... informaes sobre o sistema e alguns

  • Published on
    06-Jul-2018

  • View
    212

  • Download
    0

Transcript

  • Projeto de Pesquisa e Ensino

    Estatstica e Probabilidade utilizando o software R

    Docentes Participantes: Coordenadora: Profa. Dra. Ana Verginia Libos Messetti

    Colaboradora: Profa. Dra. Vanderli Marino Melem

    Discentes Participantes: Cinara Brenda Zerbini

    Roberto Malcher de Barros

    Arthur Dandrea Alemar

    Londrina - PR

    2013 2016

  • SUMRIO

    1. INTRODUO AO SOFTWARE R. .......................................... 1

    2. CONSTRUO DE TABELAS E GRFICOS ........................................... 4

    3. MEDIDAS DE POSIO ( MDIA, MEDIANA, MODA ........................................... 15

    4. MEDIDAS DE DISPERSO (AMPLITUDE TOTAL, VARINCIA, DESVIO PADRO, COEFICIENTE DE VARIAO .......................................

    17

    5. SEPARATRIZES ....................................... 19

    6. MODELOS PROBABILSTICOS DISCRETOS: (BINOMIAL, POISSON) .................................... 25

    7. MODELOS PROBABILSTICOS CONTNUOS: (UNIFORME, EXPONENCIAL E NORMAL) ....................................

    29

    8. INTRODUO A CADEIA DE MARKOV ................................... 36

    9. DISTRIBUIO AMOSTRAL DA MDIA E DA PROPORO. INTERVALO DE CONFIANA PARA A MDIA E PROPORO ...................................

    41

    10. TESTE T PARA UMA AMOSTRA (PARA PROPORO; MDIA E VARINCIA) .....................................

    46

    11. TESTE T PARA DUAS AMOSTRAS (INDEPENDENTES; PAREADAS E VARINCIAS) ...................................

    58

    12. ANLISE DE CORRELAO E REGRESSO. ....................................

    70

    REFERNCIAS BIBLIOGRFICAS .................................

    91

  • Lista de Tabelas

    Tabela 1- Principais consoles do mercado com seus respectivos preos .........

    5

    Tabela 2- Consoles do mercado com seus preos e quantidades vendidas ......... 6

    Tabela 3 - Identificao dos indivduos e seus respectivos provedores .........

    7

    Tabela 4 - Frequncia de indivduos por provedor .........

    7

    Tabela 5 - Consoles e seus respectivos preos de mercado .........

    8

    Tabela 6 - Principais consoles e a quantidade de aparelhos vendidos .........

    10

    Tabela 7- Nmero de defeitos em placas de circuito .........

    15

    Tabela 8 - Tempo (segundos) para carga de um aplicativo .........

    24

    Tabela 9 Probabilidade de transio dos hbitos de estudo ......... 37

    Tabela 10 - Tempo de resposta (segundos) de dois algoritmos de otimizao ..........

    59

    Tabela 11 - Tempo de resposta (segundos) de dois algoritmos de otimizao ..........

    64

    Tabela 12 - Tempo de transmisso de pacotes de dados adotado duas topologias ....

    64

    Tabela 13 - Notas de 15 alunos na prova do vestibular matemtica e

    Clculo .........

    72

    Tabela 14 - Tempo de transmisso de pacotes de dados adotado duas topologias ....

    79

    Tabela 15 - Notas de 15 alunos na prova do vestibular matemtica e clculo .... 86

    Tabela 16 - Resduos Ordinrios ........ 86

    Tabela 17 Resduos Padronizados ........ 86

  • 1

    1. INTRODUCAO ao SOFTWARE R

    A instalao do R pode ser realizada pelo download (http://r_project.org)

    Guia de instalao - https://cran.r-project.org/doc/contrib/Itano-installation.pdf .

    Iniciando o R

    Ao iniciar o programa R ser apresentado na tela uma janela que comea com

    algumas informaes sobre o sistema e alguns comandos bsicos. Abaixo dessas

    informaes se encontra o prompt que indicado por um smbolo > em vermelho.

    Smbolos e comandos importantes

    Nome Ao Comando/Smbolo

    Comentrio

    Indica que o quer que siga o smbolo

    considerado comentrio e no ser

    interpretado pelo programa R

    #

    Sair Sai do programa q()

    Salvar Salva o trabalho realizado save.image()

    Listar Lista todos os objetos da rea de

    trabalho atual ls()

    Remover Remove o objeto indicado

    rm(x)

    # remove o objeto x

    rm(x)

    # remove os objetos x e y

    Dado no

    existe Representa um dado ausente NA

    Testar se o

    dado existe

    Testa se o dado passado como

    parmetro existe

    is.na(x)

    # retorna verdadeiro se x no

    existe

    Mostrar os

    pacotes

    instalados

    Mostra os pacotes do R que esto

    instalados e no foram carregados library()

    Carregar

    pacote

    Carrega o pacote passado como

    parmetro

    library(nlme)

    # carrega o pacote nlme

    Criando objetos

    Um objeto no R poder ser criado usando a operao de atribuio, que se

    denota por uma flecha , dependendo da direo em que se atribui o

    objeto. Tambm possvel fazer a atribuio usando o sinal de igualdade =, que

    no muito utilizado no programa R mas semelhante a outras linguagens de

    programao. Exemplo

    > x 10 -> y # o objeto y receber o valor 10

    > 11 -> X # o objeto X receber o valor 11

    > Y = 13 # o objeto Y receber o valor 13

    http://r_project.org/https://cran.r-project.org/doc/contrib/Itano-installation.pdfhttps://cran.r-project.org/doc/contrib/Itano-installation.pdf

  • 2

    Para mostrar o valor de um objeto simples, digite apenas o nome do objeto no

    prompt.

    Exemplo > x

    [1] 1

    > X

    [1] 11

    > y

    [1] 10

    > Y

    [1] 13

    Observe que os nomes de objetos no R so diferentes se so maisculas ou

    minsculas.

    Operaes aritmticas

    Para realizar as operaes aritmticas bsicas necessrio apenas o uso do smbolo da

    operao. > 2 + 3

    [1] 5

    > sete sete

    [1] 7

    > sete * 10

    [1] 70

    > 5 + 2 * 10

    [1] 25

    > 10**2 # ** indica potencia

    [1] 100

    > 10^2 # ^ tambm indica potencia

    [1] 100

    > 100/2

    [1] 50

    Observe que quando so realizadas diversas operaes aritmticas na mesma linha

    usa-se a prioridade comum na matemtica. Primeiro potncias, depois multiplicaes

    e divises e por fim ento as somas e subtraes.

    Outras operaes aritmticas so denotadas como funes.

    > sqtr(9) # raiz quadrada

    3

    > sin(0) # seno

    0

    > factorial(4) # fatorial 4! = 4*3*2*1

    24

  • 3

    Algumas outras operaes so demonstradas na tabela a seguir

    Descrio Funco

    Valor absoluto abs(x) # retorna o valor absoluto de x

    Logaritmo

    log(x) # logaritmo de x na base e

    log10(x) # logaritmo de x na base 10

    log(x, n) # logaritmo de x na base n

    Exponencial exp(x)

    Raiz quadrada sqrt(x)

    Funes trigonomtricas

    (parmetro em radianos)

    sin(x) # seno de x

    cos(x) # cosseno de x

    tg(x) # tangente de x

    Funes trigonomtricas

    inversas

    (resultado em radianos)

    asin(x) # seno inverso de x

    acos(x) # cosseno inverso de x

    atg(x) # tangente inversa de x

    Combinao binomial choose(n, x) #n!(x!(n-x)!)

    Com o R iniciado, o usurio ver uma tela nomeada de R console que no qual

    possvel ler sobre algumas informaes sobre o software e tambm ver que h um

    simbolo >, que indica que o usurio j pode dar comandos ao software.

    Todas as funes do R esto concentradas nas biblioteca localizada no diretrio do

    seu computador em R_HOME/library.

    Smbolos bsicos

    # : tudo oque estiver na linha depois desse simbolo ser ignorado pelo

    programa (til para comentrios)

    ls(); lista todos os objetos da rea de trabalho atual.

    rm(x,y): remove o objeto x e y.

    library(): mostra todos os pacotes instalados (no somente os carregados).

    library(nlme): carrega o pacote (nesse caso o nlme).

    para saber mais informaes sobre uma certa funo usando o prprio R voc pode

    usar a funo help() ou digitar ? antes da funo Ex.: help(rm) ou ?rm.

    Manipular Objetos

    Um objeto pode ser criado atribuindo algo ao objeto usando . O objeto

    deve iniciar como uma letra (Ex.: X). importante dizer que letras maisculas e

    minsculas so diferentes nesse programa.(Ex.: x

  • 4

    Removendo objetos

    Basta usar a funo rm() ou remove() fornecendo o objeto a ser removido dentro dos

    parenteses. (ex.:rm(A))

    Atributos dos objetos

    O usurio pode usar a funo mode() para obter informaes sobre tipo de objeto.

    Ex.: x

  • 5

    Tabela simples:

    Usada para apresentar a relao entre uma informao e outra (como produto e

    preo). formada por duas colunas e deve ser lida horizontalmente.

    Aqui temos uma tabela 1 que relaciona os principais consoles do mercado com

    seus respectivos preos:

    Tabela 1- Principais consoles do mercado

    com seus respectivos preos

    Consoles Preos

    Playstation 2 R$ 350

    PSP R$ 450

    Nintendo Wii R$ 650

    Xbox 360 R$ 1.199

    Playstation 3 R$ 1.099

    Nintendo DS R$ 800

    Nintendo 3DS R$ 1.149

    PSVita R$ 750

    Nintendo WiiU R$ 1.899

    Playstation 4 R$ 2.999

    Xbox One R$ 2.199

    #------------------------------------------------------------------------------------------------------

    No R:

    preos=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

    t(preos)

    #Porm a tabela gerada apenas exibe os preos, para que os nomes dos consoles

    #sejam atribudos aos seus respectivos preos utilizamos a funo:

    consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation3",

    "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4",

    "XboxOne")

    names(preos)=consoles

    #A funo names atribui os nomes contidos na varivel consoles aos preos da

    #varivel preo. Tambm possvel criar uma tabela atravs da funo matrix que

    #gera uma matriz.

    preos=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

    M1=matrix(preos, nrow=11) #nrow o nmero de linhas da matriz

    #Ento nomeamos as linhas e colunas da matriz

    consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",

    "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation4", "Xbox

    One")

    rownames(M1)

  • 6

    Tabela de dupla entrada

    So teis para mostrar dois ou mais tipos de dados, como altura e peso, sobre

    um item ou pessoa.

    A seguir temos a tabela simples acima, porm com uma informao a mais, o

    nmero de aparelhos vendidos para cada console:

    Tabela 2- Consoles do mercado com seus preos e quantidades vendidas

    Consoles Preos Aparelhos vendidos (milhes)

    Playstation 2 R$ 350 157,68

    PSP R$ 450 80,14

    Nintendo Wii R$ 650 100,41

    Xbox 360 R$ 1.199 79,00

    Playstation 3 R$ 1.099 80,50

    Nintendo DS R$ 800 154,80

    Nintendo 3DS R$ 1.149 36,56

    PSVita R$ 750 6,15

    Nintendo WiiU R$ 1.899 3,90

    Playstation 4 R$ 2.999 7,00

    Xbox One R$ 2.199 5,00

    #------------------------------------------------------------------------------------------------------

    No R:

    consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",

    "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox

    One")

    preos =c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

    vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15,

    90, 7.00, 5.00)

    M2=matrix(c(preos,vendas), nrow=11, ncol=2)

    rownames(M2)

  • 7

    A tabela a seguir apresenta a relao indivduo/provedor de visitantes de um

    determinado site:

    Tabela 3 Identificao dos indivduos e seus respectivos provedores

    Indivduo Provedor Ind. Prov. Ind. Prov. Ind. Prov.

    1 C 11 C 21 B 31 A

    2 A 12 A 22 A 32 A

    3 B 13 B 23 A 33 B

    4 B 14 D 24 B 34 C

    5 C 15 A 25 A 35 B

    6 B 16 B 26 A 36 D

    7 D 17 B 27 B 37 B

    8 B 18 C 28 D 38 B

    9 B 19 D 29 D 39 B

    10 A 20 B 30 C 40 C

    Ento geramos uma tabela de frequncias para facilitar a anlise dos dados:

    Tabela 4 Frequncia de indivduos por provedor

    Provedores Frequncia

    simples

    Porcentagem

    A 10 25,0

    B 17 42,5

    C 7 17,5

    D 6 15,0

    Total 40 100,0

    #------------------------------------------------------------------------------------------------------

    No R:

    provedores=c("C","A","B","B","C","B","D","B","B","A","C","A","B","D","A","B","

    B","C","D","B","B","A","A","B","A","A","B","D","D","C","A","A","B","C","B","D"

    ,"B","B","B","C")

    table(provedores)

    #---------------------------------------------------------------------------------------------------

    Grficos

    Um grfico uma representao de dados obtidos nos experimentos na forma

    de figuras geomtricas (diagramas, desenhos, figuras ou imagens) de modo a fornecer

    ao leitor uma interpretao de forma mais rpida e objetiva. Existem grficos

    adequados para representao de variveis qualitativas, para variveis quantitativas

    discretas e para variveis quantitativas contnuas.

  • 8

    Variveis qualitativas

    So aquelas cujos possveis resultados so observados na forma de categorias.

    Para este tipo de dados podemos obter os seguintes grficos:

    Grficos de Colunas

    Grficos de Barras, e

    Grficos de Setores

    Grficos de Colunas

    O grfico de colunas composto por dois eixos, um vertical e outro

    horizontal. No eixo horizontal so construdas as colunas que representam a variao

    de um fenmeno ou de um processo de acordo com sua intensidade. Essa intensidade

    indicada pelo eixo vertical. As colunas devem sempre possuir a mesma largura e a

    distncia entre elas deve ser constante.

    Para gerao dos grficos desta seo podemos utilizar o grfico do exemplo

    acima

    Tabela 5 Consoles e seus respectivos

    preos de mercado

    Consoles Preos

    Playstation 2 R$ 350

    PSP R$ 450

    Nintendo Wii R$ 650

    Xbox 360 R$ 1.199

    Playstation 3 R$ 1.099

    Nintendo DS R$ 800

    Nintendo 3DS R$ 1.149

    PSVita R$ 750

    Nintendo WiiU R$ 1.899

    Playstation 4 R$ 2.999

    Xbox One R$ 2.199

    O grfico de colunas para estes dados ser:

  • 9

    #------------------------------------------------------------------------------------------------------ No R:

    consoles = c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360",

    "Playstation 3", "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU",

    Playstation 4", "Xbox One")

    preos=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

    barplot(preos, xlab="Consoles", ylab="Preos", main="Preos dos consoles mais

    vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",

    green4", "blue", "orange", "pink"), ylim=c(0,3000))

    Onde:

    Xlab define o rtulo do eixo x

    Ylab define o rtulo do eixo y

    Main define o ttulo do grfico

    Ylim define o valor inicial e final do eixo y

    Col define as cores que sero utilizadas nas colunas do grfico

    legend("topleft", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",

    "red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",

    "pink"))

    #Esta funo gera uma legenda para o grfico, porm tambm possvel utilizar a

    #funo legend.text dentro da funo barplot.

    #----------------------------------------------------------------------------------------------------

    Grficos de Barras

    O grfico de barras composto por dois eixos, um vertical e outro horizontal.

    No eixo vertical so construdas as barras que representam a variao de um

    fenmeno ou de um processo de acordo com sua intensidade.

    Utilizando o mesmo exemplo temos o seguinte grfico de barras:

  • 10

    #------------------------------------------------------------------------------------------------------

    No R:

    #mesma funo do grfico de colunas, porm acrescenta-se o argumento horiz=TRUE

    #e modifica-se os nomes e limites (se houverem) dos eixos.

    consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",

    "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox

    One")

    preos=c(350,450,650,1199,1099,800,1149,750,1899,2999,2299)

    barplot(preos, xlab="Preos", ylab="Consoles", main="Preos dos consoles mais

    vendidos", col=c("purple", "red", "black", "yellow", "brown", "green1", "gray",

    "green4", "blue", "orange", "pink"),xlim=c(0,3000), horiz=TRUE)

    legend("right", consoles, pch = 1, title = "Consoles", inset = 0.02, col=c("purple",

    "red", "black", "yellow", "brown", "green1", "gray", "green4", "blue", "orange",

    "pink"))

    #------------------------------------------------------------------------------------------------------

    Grficos de Setores

    Os grficos de setor (ou pizza) so representados por crculos divididos

    proporcionalmente de acordo com os dados do fenmeno ou do processo a ser

    representado. Os valores so expressos em nmeros ou em porcentagens

    Utilizando a tabela de consoles e vendas abaixo, podemos gerar

    um grfico de setores

    Tabela 6 Principais consoles e a quantidade de aparelhos vendidos

    Consoles Aparelhos vendidos (milhes)

    Playstation 2 157,68

    PSP 80,14

    Nintendo Wii 100,41

    Xbox 360 79,00

    Playstation 3 80,50

    Nintendo DS 154,80

    Nintendo 3DS 36,56

    PSVita 6,15

    Nintendo WiiU 3,90

    Playstation 4 7,00

    Xbox One 5,00

    O grfico gerado ser:

  • 11

    #----------------------------------------------------------------------------------------------------

    No R:

    consoles=c("Playstation 2", "PSP", "Nintendo Wii", "Xbox360", "Playstation 3",

    "Nintendo DS", "Nintendo 3DS", "PSVita", "Nintendo WiiU", "Playstation 4", "Xbox

    One")

    vendas=c(157.68, 80.14, 100.41, 79.00, 80.50, 154.80, 36.56, 6.15, 3.90,7.00, 5.00)

    names(vendas)=consoles

    porc

  • 12

    A distribuio de frequncias e grficos de variveis discretas podem ser feitos

    de maneira anloga s variveis qualitativas.

    Variveis Contnuas

    Descrevem caractersticas mensurveis que assumem valores em uma escala

    contnua (na reta real), para as quais valores fracionais fazem sentido. Podemos

    Histograma

    O histograma a forma mais usual de apresentao de distribuies de

    freqncias de variveis contnuas.

    Os dados a seguir representam o tempo (em segundos) para carga de um

    aplicativo, num sistema compartilhado:

    5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

    5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

    4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1

    5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

    O histograma ser:

    #-----------------------------------------------------------------------------------------------------

    No R:

    tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

    7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

    6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

    hist(tempo, ylim=c(0,20))

    #------------------------------------------------------------------------------------------------------

  • 13

    Diagrama de Pontos

    Uma forma simples de visualizar como poucas observaes se distribuem,

    onde cada valor representado como um ponto na reta de nmeros reais.

    Para os dados utilizados no histograma, temos o seguinte diagrama de pontos

    #------------------------------------------------------------------------------------------------------

    No R:

    tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

    7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

    6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

    plot(tempo, xlab="", main="Tempos para carga de um aplicativo, num sistema

    compartilhado")

    #------------------------------------------------------------------------------------------------------

    Diagrama ramo-e-folhas

    Consiste em apresentar os dados separando os primeiros dgitos, os quais

    formaro os ramos, e os demais dgitos, que formaro as folhas.

    Para os mesmos dados utilizados no exemplo acima temos o seguinte grfico

    ramos-e-folhas:

  • 14

    #------------------------------------------------------------------------------------------------------ No R:

    tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

    7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

    6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

    stem(tempo)

    #-----------------------------------------------------------------------------------------------------

    Diagrama em caixa (Boxplot)

    O diagrama de caixas, ou boxplot, uma representao grfica para os

    conceitos de separatrizes. Trata-se de um retngulo que representa o desvio

    interquartlico. Esse retngulo representa, portanto, a faixa dos 50% dos valores mais

    tpicos da distribuio. O retngulo dividido no valor correspondente a mediana;

    assim, ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os

    extremos, so traadas linhas. Caso existam valores discrepantes, a linha traada at

    o ultimo valor no discrepante, e os valores discrepantes so indicados por pontos.

    Para o exemplo dos tempos de carga de um aplicativo, temos o seguinte

    boxplot:

    #----------------------------------------------------------------------------------------------------

    No R:

    tempo=c(5.2, 6.4, 5.7, 8.3, 7.0, 5.4, 4.8, 9.1, 5.5, 6.2, 4.9, 5.7, 6.3, 5.1, 8.4, 6.2, 8.9,

    7.3, 5.4, 4.8, 5.6, 6.8, 5.0, 6.7, 8.2, 7.1, 4.9, 5.0, 8.2, 9.9, 5.4, 5.6, 5.7, 6.2, 4.9, 5.1,

    6.0, 4.7, 14.1, 5.3, 4.9, 5.0, 5.7, 6.3, 6.0, 6.8, 7.3, 6.9, 6.5, 5.9)

    boxplot(tempo,main="Tempos para carga de um aplicativo, num sistema

    compartilhado")

    #------------------------------------------------------------------------------------------------------

    68

    10

    12

    14

    Tempos para carga de um aplicativo,

    num sistema compartilhado

  • 15

    3. MEDIDAS DE POSIO

    Mdia Aritmtica

    Mdia Populacional - A mdia aritmtica populacional dada pela soma de

    todos os elementos da populao, dividida pelo numero de elementos da populao.

    Para elementos x1, x2, ..., xn, e nmero de elementos na populao igual N, temos:

    Mdia Amostral - A mdia aritmtica amostral dada pela soma de todos os

    elementos da amostragem, dividida pelo numero de elementos da amostra. Para

    elementos x1, x2, ... , xn, e nmero de elementos da amostra igual n, temos:

    As propriedades da mdia temos:

    1.A soma algbrica dos desvios em relao mdia nula;

    2.Se todos os valores de uma varivel forem subtrados ou adicionados uma

    constante k, a mdia do conjunto fica adicionada (ou subtrada) dessa constante;

    3.Se todos os valores de uma varivel forem multiplicados ou divididos por uma

    constante k, a mdia fica multiplicada ou dividida por essa constante.

    Foram coletadas o nmero de defeitos encontrados em placas de circuito

    integrado, como se verifica na tabela de frequncias abaixo:

    Tabela 7 Nmero de defeitos em placas de circuito Nmero de defeitos Frequncia simples

    0 30

    1 25

    2 10

    3 5

    4 2

    A mdia amostral de defeitos ser:

    ( ) ( ) ( ) ( ) ( )

    #-----------------------------------------------------------------------------------------------------

    No R:

    Defeitos=c(0,0,0,...,1,1,...,2,2,...,3,3,...,4,4)

    mean(Defeitos)

    #---------------------------------------------------------------------------------------------------

  • 16

    Mediana

    uma medida de tendncia central, que indica o elemento central de um

    conjunto de dados. Para se encontrar a mediana, primeiramente necessrio ordenar

    os elementos em ordem crescente. Depois de feito isto, a mediana ser calculada da

    seguinte forma:

    Utilizando os dados da tabela 7 temos: Nmero de defeitos encontrados

    em placas de circuito integrado,

    Ento, como n par (n=72) temos como mediana o seguinte:

    e

    O 36 e 37 elemento so iguais 1, logo:

    #-----------------------------------------------------------------------------------------------------

    No R:

    median (Defeitos)

    #-----------------------------------------------------------------------------------------------------

    MODA

    A moda de um conjunto o elemento que ocorre com maior frequncia.

    Para o exemplo 1 temos as seguintes frequncias:

    0 aparece 30 vezes

    1 aparece 25 vezes

    2 aparece 10 vezes

    3 aparece 5 vezes

    4 aparece 2 vez

    A moda ser o elemento 0, que ocorreu 30 vezes.

    Se n for par:

    A mediana ser a mdia

    aritmtica dos elementos nas

    posies:

    e

    Se n for mpar:

    A mediana ser o

    elemento na posio: (+ )

  • 17

    #------------------------------------------------------------------------------------------------

    No R:

    table(Defeitos)

    which(table(Defeitos)==max(table(Defeitos)))

    #-----------------------------------------------------------------------------------------------

    Esta funo imprime a frequncia com que ocorre cada elemento do conjunto. E com

    isso possvel verificar qual ocorreu mais vezes. Nesta impresso diretamente o

    elemento que ocorreu com maior frequncia

    4. MEDIDAS DE DISPERSO

    So medidas que tem como funo avaliar o grau de variabilidade de um

    conjunto de dados, o quanto estes distam do valor central. As principais medidas de

    disperso so: amplitude, varincia e desvio padro.

    Amplitude

    a diferena entre o maior e o menor valor de um conjunto de dados.

    Matematicamente:

    ( ) ( )

    Para os dados da tabela 7, que analisa o nmero de defeitos em placas de

    circuito integrado temos:

    A amplitude para este conjunto de dados ser:

    ( ) ( )

    #-----------------------------------------------------------------------------------------------

    No R:

    min(Defeitos) # encontra o valor mnimo do conjunto de dados Defeitos.

    max(Defeitos) # encontra o valor mximo do conjunto de dados Defeitos.

    ( ) ( ) #----------------------------------------------------------------------------------------------------

    A funo range (Defeitos) exibe os valores mximo e mnimo do conjunto

    de dados Defeitos, porm no calcula a amplitude.

    Varincia

    definida como a mdia aritmtica dos desvios quadrticos. Esta medida

    fornece informaes complementares informao contida na mdia aritmtica. Ela

    avalia a disperso do conjunto de valores em anlise.

  • 18

    Matematicamente:

    Varincia amostral: Varincia Populacional:

    ( )

    ( )

    A varincia dos defeitos encontrados nas peas de circuito integrado ser:

    ( )

    *, ( ) - , ( ) -

    , ( ) - , ( ) - , ( ) -+

    #------------------------------------------------------------------------------------------------------

    No R

    var(Defeitos)

    #-----------------------------------------------------------------------------------------------------

    Desvio padro

    Assim como a varincia, essa medida tambm serve de auxlio para anlise da

    mdia aritmtica. Como a varincia de um conjunto de dados calculada em funo

    dos desvios quadrticos, sua unidade de medida equivale unidade de medida dos

    dados ao quadrado. Nesse contexto, mais comum trabalhar com a raiz quadrada

    positiva da varincia, que nada mais que o desvio padro.

    Matematicamente:

    Desvio padro Amostral: Desvio padro Populacional:

    ( )

    ( )

    As propriedades abaixo cabem tanto para o desvio padro quanto para a varincia:

    1.Somando-se ou subtraindo-se uma constante k do conjunto de dados, o desvio

    padro no se altera;

    2.Dividindo-se ou multiplicando-se o conjunto de dados por uma constante k, o

    desvio padro fica dividido ou multiplicado por k;

    O desvio padro para o conjunto de dados nmero de defeitos ser:

    ( )

    {, ( ) - , ( ) - , ( ) -

    , ( ) - , ( ) -}

  • 19

    #------------------------------------------------------------------------------------------------------

    No R:

    sd(Defeitos)

    #------------------------------------------------------------------------------------------------------

    Coeficiente de Variao

    Esta medida empregada para estimar a preciso de experimentos e representa

    o desvio-padro expresso como porcentagem da mdia. Sua principal qualidade a

    capacidade de comparao de distribuies diferentes. obtida pela razo entre o

    desvio padro e a mdia, esta medida ainda pode ser multiplicada, e neste caso o

    coeficiente de variao est expresso em percentagem.

    O coeficiente de variao do nmero de defeitos ser:

    #------------------------------------------------------------------------------------------------------

    No R:

    Cv=[sd(Defeitos)/mean(Defeitos)]*100 #------------------------------------------------------------------------------------------------------

    5. SEPARATRIZES

    As separatrizes no so medidas de tendncia central, mas esto ligadas

    mediana relativamente sua caracterstica de separar a srie em duas partes que

    apresentam o mesmo nmero de valores. Essas medidas so: os quartis, os decis e os

    percentis.

    Quartis

    Denominamos quartis os valores de uma srie que a dividem em quatro partes

    iguais. Precisamos, portanto de 3 quartis (Q1, Q2 e Q3) para dividir a srie em quatro

    partes iguais, de forma que: o primeiro quartil, ou quartil inferior (Q1) ser o valor que

    delimita os 25% menores valores; o quartil superior, ou terceiro quartil (Q3) ser o

    valor que separa os 25% maiores valores; e o segundo quartil, ou quartil do meio (Q2)

    sempre ser a prpria mediana, isto , o valor que separa os 50% menores dos 50%

    maiores valores, como pode ser verificado na imagem abaixo:

  • 20

    Para calcularmos os 3 quartis utilizamos as seguintes frmulas:

    Dados no-agrupados:

    1Quartil 2Quartil (mediana) 3Quartil

    +

    +

    ( + )

    Dados agrupados:

    ( )

    Onde: Qi: Quartil i (1,2,3);

    Ii: limite inferior da classe que contm o quartil;

    n: nmero de elementos da srie (fi);

    F(ant): freqncia acumulada da classe anterior classe que

    contm o quartil;

    fi: freqncia simples da classe que contm o quartil;

    h: amplitude do intervalo da classe mediana.

    Decis

    Obedecem ao mesmo princpio dos quartis, com a diferena de que os decis

    dividem a srie em dez partes iguais de 10%. Lembrando que o quinto decil sempre

    igual a mediana.

    Para calcularmos os decis utilizamos as seguintes frmulas:

    Dados no agrupados: ( + )

    Onde:

    i: o decil que se deseja calcular ( * +); n: o nmero de elementos da amostra.

  • 21

    Dados-agrupados:

    ( )

    Onde: Di: Decil i (1,2,3,...,10); Ii: limite inferior da classe que contm o decil;

    n: nmero de elementos da srie (fi);

    F(ant): frequncia acumulada da classe anterior classe que

    contm o decil;

    fi: frequncia simples da classe que contm o decil;

    h: amplitude do intervalo da classe mediana.

    5.3 PERCENTIS

    Dividem um conjunto de dados em 100 partes iguais de 1%. O 50 percentil

    (P50) sempre igual mediana. Para calcularmos os percentis, utilizamos as

    seguintes frmulas:

    Dados no agrupados: ( + )

    Onde:

    i: o percentil que se deseja calcular ( * +); n: o nmero de elementos da amostra.

    Dados agrupados:

    ( )

    Onde: Pi: Percentil i (1,2,3,...,99);

    Ii: limite inferior da classe que contm o percentil;

    n: nmero de elementos da srie (fi);

    F(ant): frequncia acumulada da classe anterior classe que

    contm o percentil;

    fi: frequncia simples da classe que contm o percentil;

    h: amplitude do intervalo da classe mediana. OBS: Quando os resultados das operaes acima so fracionrios, fazemos

    uma interpolao linear com os valores de posies vizinhas ao resultado da frao.

    ( + )

    Onde:

    X: o valor que representa o quartil;

    Xi: o valor que est na posio i;

    i: a parte inteira do resultado da frao;

    f: a parte fracionria do resultado da frao, e;

    Xi+1: o valor que est na posio i+1.

    Os dados a seguir representam o tempo (em segundos) para carga de um aplicativo, num sistema compartilhado:

  • 22

    Dados no agrupados:

    5,2 6,4 5,7 8,3 7,0 5,4 4,8 9,1 5,5 6,2 4,9 5,7 6,3

    5,1 8,4 6,2 8,9 7,3 5,4 4,8 5,6 6,8 5,0 6,7 8,2 7,1

    4,9 5,0 8,2 9,9 5,4 5,6 5,7 6,2 4,9 5,1 6,0 4,7 14,1

    5,3 4,9 5,0 5,7 6,3 6,0 6,8 7,3 6,9 6,5 5,9

    soluo:

    Rol: Primeiramente ordenamos os dados:

    4.7 4.8 4.8 4.9 4.9 4.9 4.9 5.0 5.0 5.0 5.1 5.1 5.2

    5.3 5.4 5.4 5.4 5.5 5.6 5.6 5.7 5.7 5.7 5.7 5.9 6.0

    6.0 6.2 6.2 6.2 6.3 6.3 6.4 6.5 6.7 6.8 6.8 6.9 7.0

    7.1 7.3 7.3 8.2 8.2 8.3 8.4 8.9 9.1 9.9 14.1

    Ento calculamos os quartis:

    ( + ) ( ) ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    Decis:

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

  • 23

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    Percentis:

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    ( )

    ( )

    ( + ) ( ) ( )

    Dados Agrupados:

    A seguir a tabela 8 dos dados agrupados com intervalos de classes:

  • 24

    Tabela 8 - Tempo (segundos) para carga de um aplicativo Classes Frequncia Fac (Freq. Acumulada)

    4 |-- 5 7 7 5 |-- 6 18 25 6 |-- 7 13 38 7 |-- 8 4 42 8 |-- 9 5 47

    9 |-- 10 2 49 10 |-- 11 0 49 11 |-- 12 0 49 12 |-- 13 0 49 13 |-- 14 0 49 14 |-- 15 1 50

    Soluo:

    Quartis:

    Decis:

    Percentis:

  • 25

    Observe que alguns valores so iguais, como por exemplo, Q2, D5 e P50, isto

    porque os trs valores representam a mediana, a seguir temos algumas igualdades

    interessantes:

    #------------------------------------------------------------------------------------------------------

    No R:

    quantile (dados, x, type=6)

    #------------------------------------------------------------------------------------------------------

    Onde: x: o percentual que se deseja encontrar, por exemplo, para o primeiro quartil, x ser 0.25; segundo quartil, x ser 0.50; dados: um determinado conjunto

    de dados.

    6. MODELOS PROBABILSTICOS DISCRETOS

    Antes de introduzirmos as principais distribuies discretas, necessrio

    ressaltar um importante conceito da estatstica indutiva, as variveis aleatrias. Uma

    varivel aleatria pode ser uma varivel quantitativa cujo resultado depende de fatores

    aleatrios, como por exemplo, o lanamento de um dado, ou ento o nmero de

    coroas obtido no lanamento de duas moedas. Essas variveis aleatrias podem ser

    discretas ou contnuas, as que sero abordadas neste tpico sero as variveis

    aleatrias discretas, que so as variveis em que seus possveis resultados esto

    contidos em um conjunto finito ou enumervel.

  • 26

    Distribuio de probabilidade

    A distribuio de probabilidades de uma varivel aleatria a descrio do conjunto de probabilidades associadas aos possveis valores de , como por exemplo: a distribuio de probabilidades para o lanamento de um dado ser:

    Valores Possveis X Probabilidades

    P(X)

    1 1/6

    2 1/6

    3 1/6

    4 1/6

    5 1/6

    6 1/6

    Total 1

    Distribuio Binomial

    A distribuio binomial nada mais que a realizao de n ensaios de

    Bernoulli. Um ensaio de Bernoulli visa observar a presena ou no de uma

    determinada caracterstica em uma tentativa, ou seja, se houve sucesso ou fracasso.

    Ensaio de Bernoulli caracteriza-se por uma varivel aleatria , definida por , se sucesso, e , se fracasso. Com isso, temos a distribuio de probabilidades de :

    X P(X)

    0 1-p

    1 P

    Total 1

    Portanto a distribuio binomial trata de eventos independentes entre si, em

    que a cada evento (tentativa), nada mais que um ensaio de Bernoulli.

    Para se realizar o clculo da probabilidade do evento , onde um valor possvel da varivel aleatria , necessrio conhecer o nmero de maneiras em que podemos combinar os sucessos entre ensaios. Este valor o coeficiente binomial, e entra no clculo da probabilidade como um coeficiente das potncias de e . Este coeficiente dado pela seguinte frmula:

    .

    /

    ( )

    E a expresso geral para o clculo da probabilidade do evento dada pela

    frmula:

    ( ) .

    / ( )

    Valor Esperado e Varincia:

    ( ) ( ) ( )

  • 27

    Dados histricos mostram que 5% dos itens provindos de um fornecedor

    apresentam um tipo de defeito (p). Considerando um lote com 20 itens,

    calcular a probabilidade de:

    a) haver exatamente trs defeitos:

    ( )

    ( ) ( ) ( )

    ( ) ( )

    b) haver mais de dois itens defeituosos:

    ( )

    ( ) ( ) ( )

    ( ) ( ) ( ) ( ) ( ( ) ( ) ( ))

    [(

    ( ) ( ) )

    (

    ( ) ( ) )

    (

    ( ) ( ) )]

    , -

    c) Haver menos de 4 itens com defeito:

    ( )

    ( ) ( ) ( ) ( ) ( ) ( ) ( )

    [(

    ( ) ( ) )

    (

    ( ) ( ) )

    (

    ( ) ( ) )

    (

    ( ) ( ) )]

    , -

    #-----------------------------------------------------------------------------------------------------

    No R:

    ( ) # para calcular a probabilidade para um nico ( ) #calcula a probabilidade por exemplo,

    #se , ir calcular ( ) ( ) ( )

  • 28

    Onde:

    um valor possvel da varivel aleatria , o nmero de elementos a probabilidade de sucesso

    #Para o exemplo acima, a resoluo no R seria:

    ( ) ( ) ( ) #ou ( ) ( ) #-------------------------------------------------------------------------------------------------

    Distribuio de Poisson

    A distribuio de Poisson expressa a probabilidade de um tipo de evento por

    unidade de tempo, de comprimento, de rea, ou de volume, sendo que os eventos em

    questo devem ser independentes de quando ocorreu o ltimo evento

    O clculo da probabilidade se d pela seguinte frmula:

    ( )

    Onde a taxa mdia de consultas por unidade de tempo. E o valor esperado:

    ( ) ( )

    Tambm possvel utilizarmos a distribuio de Poisson nos casos em que os

    experimentos binomiais possuem um n muito grande e p for pequeno, possvel

    utilizar a distribuio de Poisson com:

    Supondo que as consultas num banco de dados ocorrem de forma

    independente e aleatria, com taxa mdia de 4 consultas por minuto.

    a) Calcule que no prximo minuto ocorram menos do que 3 consultas.

    ( )

    ( ) ( ) ( ) ( )

    b) Calcule que no prximo dois minutos ocorram mais de 5 consultas.

    ( )

    ( ) ( ) ( ) ( ) ( )

    , ( ) ( ) ( ) ( ) ( ) ( )- 0

    1 ,

    -

  • 29

    c) Calcule que no prximo dois minutos ocorram exatamente 3 consultas.

    ( )

    ( )

    #-----------------------------------------------------------------------------------------------------

    No R:

    ( ) # para calcular a probabilidade para um nico x ( ) #calcula a probabilidade de forma acumulativa, por exemplo,

    # se , ir calcular ( ) ( ) ( )

    #Logo, a resoluo no R para o exemplo acima ser:

    ( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

    7. MODELOS PROBABILSTICOS CONTNUOS

    Os modelos probabilsticos tm como funo descrever fenmenos fsicos, no

    caso dos modelos contnuos, descreverem fenmenos que so representados por

    variveis contnuas, ou em outros casos, tambm so utilizados para variveis

    discretas, quando a amostra muito grande. Antes de apresentarmos os modelos

    contnuos, trataremos um pouco das variveis aleatrias contnuas.

    Variveis Aleatrias Contnuas

    As variveis aleatrias contnuas so variveis definidas sobre um intervalo

    infinito e no enumervel, ou seja, so variveis que possuem valores definidos em

    intervalos reais. Alguns exemplos: tempo de resposta de um sistema operacional,

    rendimento de um processo qumico, tempo de vida de um componente eletrnico,

    entre outros.

    Distribuio Uniforme

    a distribuio contnua mais simples, e definida como: Uma varivel

    aleatria tem como distribuio uniforme de parmetros e , sendo , se sua densidade especificada por:

    ( ) {

    , -

    , -

    E sua distribuio acumulada dada por:

  • 30

    ( ) {

    O valor esperado e a varincia de uma distribuio uniforme so:

    ( )

    ( ) ( )

    A ocorrncia de panes em uma rede telefnica de 6 km modelada por uma

    distribuio Uniforme. Com Base nisto, calcule:

    Intervalo: [0, 6]

    a) E(x)=?

    ( )

    b) V(x)=?

    ( ) ( )

    ( )

    ( )

    c) Probabilidade de ocorrer panes no primeiro quilmetro:

    ( ) ( )

    ( ) ( )

    d)Probabilidade de ocorrer pane entre os quilmetros 3 e 5:

    ( ) ( )

    ( ) ( )

    e)Probabilidade de ocorrer pane acima do quilmetro 4:

    ( ) ( )

    ( ) ( )

    #-----------------------------------------------------------------------------------------------------

    No R:

    ( ) ( ) ( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

  • 31

    Distribuio Exponencial

    Esta distribuio possui relao com o modelo discreto de Poisson. A

    distribuio de Poisson modela o nmero de ocorrncias em um perodo contnuo de

    tempo ou de comprimento, j a distribuio exponencial modela a varivel aleatria

    que representa esses perodos contnuos.

    Uma varivel aleatria contnua tem distribuio exponencial com parmetro , se sua funo de densidade de probabilidade representada por:

    ( )

    Desta forma funo de distribuio :

    ( )

    Valor Esperado e a Varincia so:

    ( )

    ( )

    Para uma varivel T, que o tempo de resposta em um banco de dados, com

    funo densidade de probabilidade:

    ( ) ( )

    Calcule a probabilidade, em vista que , do tempo de resposta ser:

    a)Menor que 2 minutos:

    ( ) ( )

    b)Entre 1 e 2 minutos:

    ( ) ( ) ( ) , - , - , - , - , - , -

    c)Maior que 3 minutos:

    ( ) ( ) [ ] , - , -

    , -

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) #Onde:

    o valor da varivel aleatria # o parmetro da distribuio

  • 32

    #Para o exemplo acima, as funes utilizadas foram:

    ( ) ( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

    Distribuio Normal

    Tambm conhecida como distribuio de Gauss, a distribuio normal uma

    das mais importantes na estatstica, pois permite modelar uma finalidade de

    fenmenos naturais, e possui uma vasta aplicao, seja na realizao de aproximaes

    para calcular probabilidades de variveis aleatrias com outras distribuies e nmero

    de observaes grande ou ento na inferncia estatstica. A funo de probabilidade

    de uma distribuio normal caracterizada graficamente por uma curva com forma de

    sino, como pode ser verificado na figura abaixo:

    Fonte: Portal Action (www.portalaction.com.br)

    A funo densidade de probabilidade da distribuio normal, para uma

    varivel aleatria contnua de parmetros :

    ( )

    .

    /

    O valor esperado e a varincia sero:

    ( ) ( )

    Para uma varivel aleatria de distribuio normal denotamos ( ). Para simplificar clculos, esta varivel transformada em uma forma

    padronizada com distribuio ( ). Essa padronizao a distribuio normal padro, a qual tabelada, e definida por:

    Qualquer rea (probabilidade) sob a densidade de pode ser representada sob a densidade de , como visto no grfico abaixo:

    http://www.portalaction.com.br/

  • 33

    Fonte: BARBETTA, REIS e BORNIA Estatstica para Cursos de Engenharia e

    Informtica. Atlas, 2004.

    Tabela de distribuio normal padro

    As probabilidades de uma varivel com distribuio normal podem ser

    representadas por reas sob a curva da distribuio normal padro. Desta forma, ao

    utilizarmos a frmula #, obtm-se um valor , que ser encontrado na tabela abaixo, para obter-se a rea (probabilidade) sob a cauda superior curva.

    Na tabela, os valores so representados por duas decimais. A primeira decimal fica na coluna da esquerda e a segunda decimal na linha do topo da tabela.

    O tempo para um sistema computacional execute determinada tarefa uma

    varivel aleatria com distribuio normal, com mdia de 220 segundos e desvio

    padro de 10 segundos.

    a)Qual a probabilidade da tarefa ser executada entre 210 e 230 segundos?

    Encontramos os valores de Z para x=210 e x=230

    Ento, calculados os valores de Z, procuramos os mesmos na tabela, olhando

    na coluna esquerda, a na linha do topo, desta forma encontramos:

    Ento, por fim, calculamos a probabilidade da seguinte forma:

    ( ) ( ) , ( ) ( )- , -

  • 34

    b)Qual a probabilidade da tarefa ser executada em menos 240 segundos?

    ( ) ( ) , ( )-

    c) Qual a probabilidade da tarefa ser executada com mais de 200 segundos?

    ( ) ( ) , ( )-

  • 35

    Aproximao normal binomial e normal Poisson

    Com base no Teorema Do Limite Central, que diz que, "toda soma de

    variveis aleatrias independentes de mdia finita e varincia limitada

    aproximadamente Normal, desde que o nmero de termos da soma seja

    suficientemente grande", possvel utilizar a distribuio normal para calcular

    probabilidades das distribuies Binomial e Poisson.

    Distribuio Binomial

    Quando n for muito grande e p no to prximo de 0 e 1, podemos utilizar a

    distribuio normal, de forma que e so definidas por:

    ( )

    De um lote de produtos manufaturados, extrai-se 100 itens ao acaso. Se 10 %

    dos itens do lote so defeituosos, calcular a probabilidade de:

    a) menos de 12 itens serem defeituosos?

    ( ) ( )

    ( ) ( ) , ( )-

    b) mais que 6 itens serem defeituosos?

    ( ) ( )

    ( ) ( ) , ( )-

    Distribuio Poisson

    Quando for muito grande, a distribuio normal pode ser aplicada em variveis com distribuio de Poisson. Os parmetros e so definidos por:

  • 36

    Uma empresa de auxlio lista telefnica recebe, em mdia, sete solicitaes

    por minuto, segundo a distribuio de Poisson. Qual a probabilidade de ocorrer:

    a)no mnimo 10 e no mximo 13 solicitaes em 10 minutos?

    ( ) ? ( ) ( ) ( )

    b) menos de 5 solicitaes em 10 minutos?

    ( ) ( )

    #------------------------------------------------------------------------------------------------------

    No R:

    ( )

    # Se for unilateral esquerda ( ), lower.tail=TRUE # Se for unilateral direita ( ), lower.tail=FALSE #Para os casos bilaterais utiliza-se:

    ( ) ( ) #-----------------------------------------------------------------------------------------------------

    8. INTRODUO A CADEIA DE MARKOV

    Processos estocsticos so processos que apresentam resultados aleatrios,

    imprevisveis, e fazem parte da anlise de probabilidades. Um dos modelos que

    melhor explica estes processos so as cadeias de Markov.

    Cadeias de Markov

    Uma cadeia de Markov pode ser definida como uma seqncia de estados

    denotados por . O processo se inicia em um desses estados denominado , e move-se para outro estado , com probabilidade , sendo que esta

  • 37

    probabilidade no depende das situaes (estados) anteriores, e sim do estado atual. A

    probabilidade denominada probabilidade de transio. Essas probabilidades de transio so agrupadas em uma matriz, denominada

    matriz de transies.

    Para que o conceito se torne mais claro, a seguir temos um exemplo:

    Os hbitos de estudo de um estudante so os seguintes: se estuda uma noite,

    tem de certeza que no estudar na noite seguinte. Em contrapartida, se no estuda uma noite, tem de certeza de que no estudar tambm na noite seguinte.

    Tabela 9 - Probabilidades de transio dos hbitos de estudo de um estudante

    Probabilidades de transio

    Estudar (S) No estudar (T)

    Estudar (S)

    No estudar (T)

    Considerando as informaes dadas e considerando que a probabilidade total,

    ou seja, a soma da probabilidade de estudar ou no estudar , preenchemos a tabela com as seguintes probabilidades.

    A partir desta tabela obtemos a matriz de transies descrita abaixo:

    A partir desta matriz, possvel realizarmos anlises diversas, essas anlises

    de forma geral so baseadas em um perodo de tempo discreto, por exemplo:

    Qual a probabilidade de que o estudante estude nas prximas trs noites? Ou,

    qual a probabilidade de o aluno no estudar nos prximos cinco dias? Ou ainda: Com

    que frequncia o aluno estuda numa sequncia suficientemente grande de dias?

    Antes de resolvermos as questes acima introduziremos mais alguns conceitos

    e propriedades.

    Vetor fixo:

    Uma cadeia de Markov possui um vetor fixo se esta for uma cadeia de Markov

    regular. Isto quer dizer que, se uma cadeia de Markov regular, esta possui um vetor

    que ponto fixo o qual para qualquer escolha o vetor ( ) converge a conforme aumenta.

    Vetor de probabilidade inicial : um vetor que contm as probabilidades iniciais de uma determinada situao, seguindo o exemplo do estudante tratado acima

    podemos considerar como uma distribuio de probabilidade inicial o fato do

    estudante ter de chance de estudar no primeiro dia e de chance de no estudar no primeiro dia. Logo, a distribuio ser: ( ).

  • 38

    Vetor de probabilidades dos dias subsequentes: dada pela multiplicao do

    vetor de probabilidade inicial pela matriz de transio no dia , isto , .

    Matriz de Transio de passo n: representada por , em que se nada mais que a matriz de transies. E se obtm-se a matriz atravs da multiplicao das matrizes de transies, por exemplo, para encontrarmos a matriz de

    transies de passo 4, multiplicamos .

    Para entendermos melhor a aplicao de cadeias de Markov consideramos a

    seguinte situao: ao jogarmos um dado pela primeira vez, a probabilidade para cada

    face de , ao jogarmos este dado pela dcima vez, a probabilidade continua a

    mesma. Agora se considerarmos um jogador de futebol em uma partida, ao cobrar um

    pnalti ele tem determinada probabilidade de acerto e de erro na primeira cobrana,

    dependendo do resultado, acerto ou erro, a probabilidade para a segunda cobrana

    ser diferente, pois ao errar o jogador perde confiana e ao acertar, ganha.

    Verifique se o vetor (

    ) um vetor de probabilidade?

    Um vetor de probabilidade no pode conter elementos negativos, logo o vetor

    dado no um vetor de probabilidades.

    Considere a matriz 0

    1. Ento o vetor ( ) um ponto fixo de

    . O vetor ponto fixo de , pois , como verificado abaixo:

    ( ) 0

    1 ( )

    #------------------------------------------------------------------------------------------------------

    No R:

    mtrans=c(2, 2, 1, 3)

    P1=matrix(mtrans, ncol=2)

    P1

    dprob=c(2, -1)

    p0=matrix(dprob, nrow=1)

    p0

    # u*A = u

    M=p0%*%P1

    M

    #------------------------------------------------------------------------------------------------------

    Pelo teorema, qualquer escalar

    , temos ( ) ( ) . Demonstre numericamente que o vetor

  • 39

    2 , so pontos fixo de . Determine um vetor fixo de probabilidade, da matriz estocstica regular

    [

    ]

    Para determinarmos um vetor fixo de probabilidades , temos que ter em mente que por se tratar de um vetor de probabilidades, a soma de seus componentes

    deve ser . Desta forma, temos que ( ) e que ( ) .

    Ento realizamos a multiplicao dada pela frmula:

    ( ) [

    ] ( )

    Multiplicando:

    Vetor de probabilidades (

    )

    Para comprovarmos o teorema descrito no enunciado basta multiplicarmos

    pela matriz A.

    (

    ) [

    ] (

    ) [

    ] (

    )

    (

    ) [

    ] ( ) [

    ] ( )

    (

    ) [

    ] .

    / [

    ] .

    /

    #------------------------------------------------------------------------------------------------------

    No R:

    mtrans=c(0, 1/2, 1, 1/2)

    P1=matrix(mtrans, ncol=2)

    P1

    dprob=c(1/3, 2/3)

  • 40

    p0=matrix(dprob, nrow=1)

    p0

    # 2u*A = u

    M1=(2*p0)%*%P1

    M1

    # 3u*A = u

    M2=(3*p0)%*%P1

    M2

    # 5u*A = u

    M3=(5*p0)%*%P1

    M3

    #------------------------------------------------------------------------------------------------------

    Os hbitos de estudo de um estudante so os seguintes: se estuda uma noite, tem de certeza que no estudar na noite seguinte. Em contrapartida, se no estuda uma

    noite, tem de certeza de que no estudar tambm na noite seguinte. a) Encontre a matriz de transio:

    b) Com que frequncia o aluno estuda numa sequncia suficientemente

    grande de dias?

    Obtemos esta informao atravs do vetor fixo de probabilidades, para tenato

    encontramos este atravs da frmula

    ( ) [

    ] ( )

    Multiplicando:

    Vetor de probabilidades .

    /

    O aluno estuda vezes

    Dada a matriz de transio [

    ], e a distribuio de

    probabilidade inicial (

    ). Determine:

    ( ),

    ( ) ,

    ( ).

  • 41

    [

    ] [

    ]

    [

    ]

    ( )

    ( )

    [

    ]

    [

    ]

    [

    ]

    (

    )

    [

    ]

    (

    )

    ( )

    #------------------------------------------------------------------------------------------------------

    No R:

    mtrans=c(0, 0.5, 0, 0.5, 0.5, 1, 0.5, 0, 0)

    M1=matrix(mtrans, nrow=3, ncol=3)

    M1

    dprobp0=c((2/3), 0, (1/3))

    M2=matrix(dprobp0, nrow=1, ncol=3)

    M2

    # p(2) 3,2

    p2=M1%*%M1; p2;

    p232=p2[3,2]; p232

    # p(2) 1,3

    p2=M1%*%M1; p2;

    p213=p2[1,3]; p213

    #P4

    P4=p2%*%p2

    P4

    #p4 p0*P4

    p4=M2%*%P4

    p43=p4[1,3]; p43

    #----------------------------------------------------------------------------------------------------

  • 42

    9. INFERNCIA ESTATSTICA:

    Distribuio Amostral e Intervalo de Confiana

    A inferncia estatstica o ramo da estatstica que visa apresentar resultados

    sobre uma populao baseando-se em amostras. Dentre os vrios mecanismos para

    apresentar tais resultados, temos os Intervalos de Confiana.

    Distribuies Amostrais

    Quando falamos em variveis aleatrias, temos as chamadas distribuies de

    probabilidades que a descrio do conjunto de probabilidades associadas aos

    possveis valores de X, sendo X uma varivel aleatria. A distribuio amostral, nada

    mais que uma distribuio de probabilidades de uma medida estatstica baseada em

    uma amostra aleatria. Essas distribuies so de grande uso na inferncia estatstica.

    Quando a amostragem aleatria simples, existem distribuies amostrais que

    se aproximam de distribuies contnuas conhecidas. o caso da mdia e da

    proporo.

    Distribuio Amostral da mdia

    Para inferirmos a mdia de uma populao a partir de uma amostra,

    necessrio analisarmos a distribuio amostral dessa mdia, ou seja, necessrio

    conhecer como as mdias amostrais esto distribudas.

    O valor esperado da mdia amostral igual mdia populacional:

    ( ) A varincia da mdia amostral inferior varincia populacional:

    ( )

    Distribuio Amostral da Proporo

    Da mesma forma que a mdia, para inferirmos a proporo populacional,

    devemos conhecer a distribuio amostral da proporo.

    O valor esperado da proporo amostral igual proporo populacional:

    ( ) A varincia da proporo amostral menor que a varincia populacional:

    ( ) ( )

    ou ( )

    ( )

    Intervalos de Confiana

    So utilizados para indicar a confiabilidade de uma estimativa, isto , mostram

    se os resultados de uma estimativa so ou no confiveis.

    Intervalo de Confiana Para Proporo

    Muitas vezes, necessrio estimar uma determinada proporo. Para testar a

    confiabilidade desta estimativa utilizamos o desvio padro da distribuio amostral , ou erro padro, e consideramos o fato de que quando n grande, a distribuio

    amostral de aproximadamente normal. Logo o intervalo de confiana para a proporo definido por:

  • 43

    ( )

    ( )

    Onde: p a proporo populacional

    o nvel de confiana o nvel de significncia a proporo amostral o tamanho da amostra

    o valor da tabela normal, com base no nvel de significncia

    Uma empresa fabricante de pastilhas para freios efetua um teste para controle

    de qualidade de seus produtos. Selecionou-se 400 pastilhas, das quais 15

    apresentaram nveis de desgaste acima do tolerado. Construir o Intervalo de

    Confiana para proporo de pastilhas com desgaste acima do tolerado, do atual

    processo industrial. Use nvel de significncia de 5%.

    ( )

    ( )

    ( )

    ( ) , - , -

    foi obtido a partir da tabela normal padro

    #---------------------------------------------------------------------------------------------------

    No R:

    p= 15/400; p

    n=400; n

    z=qnorm(c(0.025,0.975), mean=0, sd=1, lower.tail=TRUE);z #bilateral

    erroamostral = (z*sqrt((p*(1-p))/n)); erroamostral

    IC = (p + erroamostral); IC

    #qnorm: frmula para calcular o valor de z

    #p: proporo amostral

    #n: tamanho da amostra

    #funo direta no R:

    prop.test (15,400, conf.level=0.95)

    #------------------------------------------------------------------------------------------------------

    Intervalo de Confiana para mdia com desvio padro conhecido

    Considerando uma amostra aleatria simples, com distribuio

    aproximadamente normal, e considerando que a mdia amostral tem distribuio

    aproximadamente normal, com mdia e varincia

    , o desvio padro, tambm

    chamado de erro amostral, ser:

  • 44

    E o intervalo de confiana pode ser encontrado por:

    ( )

    Uma fundio produz blocos para motor de caminhes. Os blocos tm furos

    para as camisas e deseja-se verificar qual o dimetro mdio no processo do furo. A

    empresa retirou uma amostra de 40 blocos e mediu os dimetros de 1 furo de cada

    bloco (40 furos). O desvio padro populacional de 4,0mm. A amostra recolhida foi,

    em milmetros:

    105 100 96 98 104 99 92 96 97 97

    100 98 102 95 95 94 103 102 100 98

    96 96 100 101 101 94 98 97 97 96

    100 102 94 95 94 101 103 103 101 95

    A partir dos valores das amostras, calcule a mdia amostral e encontre o

    intervalo de confiana para a mdia com nvel de significncia de 10%.

    ( )

    ( )

    , -

    #------------------------------------------------------------------------------------------------------

    No R:

    furos=c(105, 100, 96, 98, 104, 99, 92, 96, 97, 97, 100, 98, 102, 95, 95, 94,

    103, 102, 100, 98, 96, 96, 100, 101, 101, 94, 98, 97, 97, 96, 100, 102, 94, 95,

    94, 101, 103, 103, 101, 95)

    n = 40; n

    M = mean(furos); M

    dp = 4.0; dp

    z=qnorm(c(0.05,0.95), mean=0, sd=1, lower.tail=TRUE); z #bilateral

    erroamostral = (z*(dp/sqrt(n))); erroamostral

    IC = (M + erroamostral) ; IC

    #ou funo direta no R:

    require (asbio)

    ci.mu.z( furos, con=0.95, sigma=0.2)

    #---------------------------------------------------------------------------------------------------

  • 45

    Intervalo de Confiana para mdia com desvio padro desconhecido

    Na prtica, geralmente o desvio padro populacional no conhecido, neste

    caso, o erro amostral ser dado, no mais em funo do desvio populacional, mas sim

    pelo desvio amostral:

    E o intervalo de confiana ser dado por:

    ( )

    Deseja-se avaliar a dureza esperada do ao produzido sob um novo processo

    de tmpera. Uma amostra de dez corpos de prova de ao produziu os seguintes

    resultados, em HRc: [36.4 35.7 37.2 36.5 34.9 35.2 36.3 35.8 36.6 36.9]

    Construir o Intervalo de confiana para a verdadeira mdia com nvel de significncia

    de 5%.

    Neste caso, calcula-se a mdia amostral, e o desvio padro amostral, pois no

    possumos o desvio populacional.

    ( )

    ( )

    ,( ) ( ) ( ) ( ) -

    ( )

    , -

  • 46

    #------------------------------------------------------------------------------------------------------

    No R:

    #1) Utilizando a funo t.test

    d_ao=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)

    t.test(d_ao, conf.level=0.95)

    #2) programando

    d_ao=c(36.4, 35.7, 37.2, 36.5, 34.9, 35.2, 36.3, 35.8, 36.6, 36.9)

    n = 10 ;n

    M = mean(d_ao); M

    dp = sd(d_ao); dp

    t = qt (c(0.025, 0.975), df = n-1, lower.tail=TRUE);

    erroamostral = (t*dp/sqrt(n)); erroamostral

    IC = (M + erroamostral) ; IC

    #df= grau de liberdade

    #qt = frmula utilizada para calcular t qt(vetor com as probabilidades, grau de

    liberdade, lower.tail=TRUE (bilateral))

    #------------------------------------------------------------------------------------------------------

    10. TESTES DE HIPTESE PARA UMA AMOSTRA

    Um teste de hiptese consiste em um teste estatstico para rejeitar ou no uma

    hiptese pautada em uma amostra.

    Um teste estatstico composto pela hiptese nula e pela hiptese alternativa.

    Hiptese nula ( ): a hiptese que ser testada, sendo definida como a igualdade sobre o parmetro em estudo.

    Hiptese alternativa ( ): a hiptese alternativa, como o nome sugere, a hiptese contrria a hiptese nula, ou seja, trata da desigualdade no parmetro de interesse, que

    pode ser unilateral a esquerda (menor), unilateral a direita (maior) ou bilateral

    (diferente)

    Tipos de erro

    Quando realizado um teste de hiptese, a deciso pode resultar em um erro,

    como pode ser visualizado na tabela abaixo:

    Aceitar Rejeitar verdadeira Deciso correta

    ( ) Erro tipo I

    ( ) H0 falsa Erro tipo II

    ( ) Deciso correta

    (( )

    O erro do tipo I consiste em rejeitar , quando na verdade deveria ser aceita, j no erro do tipo II, aceita-se quando esta na verdade falsa.

  • 47

    Etapas do teste

    Um teste de hiptese composto por quatro etapas:

    i) Construo das hipteses

    ii) Valor tabelado (regio crtica) - (baseado na tabela teste

    para a proporo e teste para mdia com varincia conhecida, baseado na

    tabela de Student teste para mdia com varincia desconhecida,

    baseado na tabela qui-quadrado teste para varincia)

    iii) Estatstica teste: valor calculado obtido atravs de uma frmula

    iv) Concluso: no rejeita ou rejeita-se

    Teste de hiptese para proporo

    Este teste tem objetivo de verificar se a proporo de um atributo da populao

    ou no igual a um valor .

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    Regio Crtica

    A regio crtica dada a partir da tabela normal padro ( ), onde, atravs de um nvel de significncia fixado e considerando se o teste ou no bilateral, conseguimos encontrar na tabela o valor que define a regio crtica.

    Por exemplo:

    Se tivermos , teste unilateral esquerda, = ( ), teste bilateral z = ( ) teste unilateral direita z = ( ). Como pode ser entendido melhor nos grficos abaixo.

  • 48

    Estatstica teste

    ( )

    Onde:

    tamanho da amostra proporo segundo nmero de elementos com o atributo de interesse

    Concluso

    Se o valor da estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita-se .

    H tambm a abordagem p-valor, que funciona da seguinte forma:

    Para concluso do teste utilizando-se a abordagem p-valor utilizamos a tabela

    normal padro para encontrar o valor de com base na estatstica teste. Por exemplo, se o valor de ( calculado) for igual a , p ser . Seguindo o exemplo a concluso ser a seguinte:

    O controle estatstico de certo processo estabeleceu que dos produtos tem que estar sem defeitos. Para verificar a validade desta afirmao, foi coletada uma

  • 49

    amostra de produtos, obtendo uma proporo sem defeitos de . Com 5% de significncia, h evidncia de que o processo est diferente do esperado?

    Abordagem clssica

    i) Hipteses

    (teste bilateral)

    ii) Regio Crtica - Tabela Normal Padro temos que para um teste

    bilateral com o valor de e as regies crticas sero:

    iii) Estatstica teste

    ( )

    ( )

    iv) Concluso:

    Considerando que o valor da estatstica teste igual , est fora da regio crtica, no rejeita para nvel de significncia de . No h evidncia de que o processo est diferente do esperado.

    Abordagem p-valor

    Na abordagem p-valor, os valores de tabelado (regio crtica) e calculado (estatstica)

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) #------------------------------------------------------------------------------------------------------

  • 50

    Teste de hiptese para mdia com varincia conhecida

    Este teste tem objetivo de verificar se a mdia de uma populao igual a

    certo valor.

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    Regio Crtica

    A regio crtica definida da mesma forma que no teste para proporo,

    atravs da tabela normal padro.

    Estatstica teste ( )

    Onde tamanho da amostra mdia segundo H0 mdia amostral desvio padro populacional

    Concluso

    Tanto na abordagem clssica quanto p-valor, a concluso se d da mesma

    forma.

    Certo tipo de pneu, dura em mdia, e tem desvio padro igual . O fabricante investiu em uma nova composio de borracha para pneus. Numa amostra de vinte pneus com a nova composio, duraram em mdia

    . Supondo que a durabilidade segue a distribuio normal, verificar se os dados provam que os pneus novos so mais durveis. Use nvel de confiana de .

    i) Hipteses

    (teste unilateral direita)

    ii) Regio Crtica

    Pela Tabela Normal Padro sabemos que para um teste unilateral a

    direita com = o valor de z e as regies crticas sero:

  • 51

    iii) Estatstica teste

    ( )

    ( )

    iv) Concluso:

    Considerando o valor da estatstica teste igual a , e est na regio crtica, rejeita-se para nvel de significncia de 0.01. No possvel afirmar que os pneus da amostra so mais durveis.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e o valor da estatstica teste so os

    mesmos da abordagem clssica, a concluso se dar da seguinte forma: buscamos

    na tabela normal padro pela primeira linha e coluna, o valor encontrado .Como , e rejeita-se pelo mtodo p-valor.

    #------------------------------------------------------------------------------------------------------

    No R:

    # valor crtico: tabelado ( ( ) ) #estatstica teste

    #desvio padro (( ) ( )) #-----------------------------------------------------------------------------------------------------

  • 52

    Teste de hiptese para mdia com varincia desconhecida

    Na prtica, mais comum no termos informao sobre a varincia

    populacional, neste caso, utilizamos uma estatstica teste diferente, e construmos a

    regio crtica com base na tabela t de Student.

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    Regio Crtica

    A regio crtica dada pela tabela t de Student onde consideramos para teste

    unilateral e

    para bilateral e com grau de liberdade (gl) igual a . Por exemplo,

    suponhamos que o tamanho da amostra analisada seja 15, ento o grau de liberdade

    ser . Considerando um teste com temos que t ser:

  • 53

    iii) Estatstica teste

    ( )

    Onde:

    tamanho da amostra mdia segundo mdia amostral desvio padro amostral

    Concluso

    Tanto na abordagem clssica quanto p-valor, a concluso se d de forma

    anloga ao teste para mdia com varincia conhecida, se o valor da estatstica teste

    estiver fora da regio crtica, no rejeita , caso contrrio rejeita-se .

    Padres tcnicos exigem que o nvel de rudo em CPDs seja de, no mximo,

    . Foram analisados CPDs de vrias organizaes, obtendo-se os seguintes valores mximos de rudo:

    a) calcule a intensidade de rudo mdio e desvio padro para os CPDs.

    b) A intensidade de rudo mdio dos CPDs nos horrios crticos

    superior ao especificado? Use o nvel de confiana de .

    a) Mdia:

    ( )

    Desvio Padro:

  • 54

    ( )

    =

    ,( ) ( ) ( )

    b)

    i) Hipteses

    (teste unilateral direita)

    ii) Regio Crtica

    Pela Tabela t de Student temos que para um teste unilateral direita

    com = o valor de t e as regies crticas sero:

    iii) Estatstica teste

    ( )

    ( )

    iv) Concluso: Considerando que a estatstica teste, , est na regio

    crtica, rejeita-se para nvel de significncia de . H evidncia de que a

    intensidade de rudo mdio dos CPDs nos horrios crticos superior ao especificado.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e a estatstica teste so os mesmos

    da abordagem clssica, a concluso se dar da seguinte forma:

    A estatstica teste (t) igual a , ento buscamos na tabela t de Student com , o valor encontrado de p valor . Como o , rejeita-se pelo mtodo p-valor.

  • 55

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) ( ) ( ) #greater: unilateral superior #less: unilateral inferior #two.sided: bilateral

    #----------------------------------------------------------------------------------------------------

    Teste de hiptese para varincia

    Este teste utilizado quando se deseja verificar alteraes na variabilidade.

    Hipteses

    Hiptese Nula :

    Hiptese alternativa :

    (teste bilateral)

    (teste unilateral esquerda)

    (teste unilateral direita)

    Regio Crtica

    A regio crtica dada pela tabela qui-quadrado considerando

    ( ) para teste unilateral esquerda,

    (

    ) em cauda superior e (

    ) em cauda inferior para bilateral

    (n-1, ) para teste unilateral direita.

    Como pode ser verificado abaixo, tendo como exemplo hipottico e em um teste unilateral esquerda, bilateral e unilateral direita.

  • 56

    Estatstica teste

    ( )

    Onde:

    tamanho da amostra

    varincia segundo varincia amostral

    Concluso

    Tanto na abordagem clssica quanto p-valor, a concluso se d de forma

    anloga ao teste para mdia com varincia conhecida, se calculado estiver fora da regio crtica no rejeita , caso contrrio rejeita-se .

    Usurios de uma rede de transmisso de energia eltrica tm reclamado da alta

    variao na tenso (desvio padro de ). A empresa encarregada da transmisso de energia eltrica na regio instalou novos transformadores. O desvio padro calculado

    sob observaes independentes foi de e a distribuio de frequncias dos valores da amostra sugere uma distribuio normal. H evidncia da reduo na

    variao da tenso? Use alfa .

  • 57

    i) Hipteses

    (teste unilateral esquerda) (h evidncia da reduo)

    ii) Regio Crtica

    Pela Tabela Qui-Quadrado temos que para um teste bilateral com

    = os valores de tabelado e as regies crticas sero:

    iii) Estatstica teste

    ( )

    ( )

    iv) Concluso:

    Considerando que a estatstica teste igual , est na regio crtica, rejeita-se para nvel de significncia de . possvel afirmar que houve reduo na variao da tenso.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e a estatstica teste so os mesmos

    da abordagem clssica, a concluso se dar da seguinte forma:

    calculado igual a , ento buscamos na tabela qui-quadrado com , o valor q encontrado , ou seja, . Como , e com rejeita-se pelo mtodo p-valor.

    #-----------------------------------------------------------------------------------------------------

    No R:

    ( ( ) ) (( ) ) #------------------------------------------------------------------------------------------------------

  • 58

    11. TESTE DE HIPTESES PARA DUAS AMOSTRAS

    s vezes h interesse em comparar duas amostras como, por exemplo, dois

    sistemas computacionais para a informatizao de um processo.

    Para tanto, so utilizados testes paramtricos para anlise estatstica sobre os

    dois conjuntos de dados.

    As amostras analisadas podem ser independentes ou no entre si. Para cada

    caso, um teste de hiptese diferente adotado.

    Amostras Pareadas (Dependentes)

    Dizem-se amostras pareadas de dois conjuntos de dados onde cada elemento

    de uma amostra corresponde a apenas um elemento da outra amostra, pela existncia

    de algum tipo de associao de dependncia entre eles. Devido a dependncia entre

    esses dados, faz sentido o clculo da diferena entre os pares de dados que podem, por

    exemplo, ser a respeito de um grupo de indivduos antes e depois da aplicao de

    algum medicamento.

    O teste de hiptese utilizado, teste t, adequado nesta anlise, de forma que as

    hipteses so:

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    A diferena entre os pares de dados das amostras ser:

    Onde:

    : dados antes do tratamento : dados depois do tratamento

    Com base na diferena entre os tratamentos (amostras), geramos as hipteses:

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    Onde o valor esperado das . De forma anloga ao teste para mdia de uma amostra com varincia desconhecida, as regies crticas e

    estatstica teste sero:

    Regio Crtica:

    D-se pela tabela t de Student, de forma que

    ( ) para teste unilateral e (n-1,

    ) para bilateral.

    Estatstica teste:

  • 59

    Onde:

    tamanho da amostra mdia das diferenas desvio padro das diferenas

    O desvio padro das diferenas dado por:

    (

    )

    Concluso:

    Abordagem Clssica:

    Se o valor da estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita .

    Abordagem p-valor:

    Na abordagem p-valor, p encontrado considerando na tabela de Student e .

    Para comparar dois algoritmos de otimizao foi realizado um

    experimento com seis ensaios. Em cada ensaio, foram usados separadamente os

    dois algoritmos em estudo, mas sob as mesmas condies (dados pareados). Os

    tempos de resposta ao usurio foram:

    Tabela 10 Tempo de resposta (segundos) dois algoritmos de otimizao

    Ensaio Algoritmo I Algoritmo II Diferena= X1-X2

    1 8,1 9,2 -1,1

    2 8,9 9,8 -0,9

    3 9,3 9,9 -0,6

    4 9,6 10,3 -0,7

    5 8,1 8,9 -0,8

    6 11,2 13,1 -1,9

    H evidncias de que os tempos de resposta do Algoritmo I so menores que

    os do Algoritmo II, para .

    i) Hipteses:

    (teste unilateral esquerda)

  • 60

    ii) Pela Tabela t de Student temos que para um teste unilateral esquerda

    com = 0.0 o valor de t e a regio crtica ser: Para:

    iii) Estatstica teste

    (

    )

    (

    )

    (( ) ( ))

    ( )

    iv) Concluso:

    Considerando que o valor da estatstica teste , e se encontra na regio crtica, rejeita-se para nvel de significncia de . H evidncia estatstica que o algoritmo I mais rpido que o Algoritmo II.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e o valor da estatstica teste so os

    mesmos da abordagem clssica, a concluso se dar da seguinte forma:

    A estatstica teste (t= ), ento buscamos na t de Student com , o valor encontrado de p . Como , rejeita-se pelo mtodo p-valor.

  • 61

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) ( ) ( )

    ( ) ( ) ( )

    #Onde: paired: TRUE para teste pareado

    #FALSE para teste independente

    #------------------------------------------------------------------------------------------------

    Amostras Independentes

    Para amostras independentes tambm utilizado o teste t, mas para tanto,

    necessrio que trs requisitos sejam atendidos:

    1.As observaes devem ser independentes;

    2.As varincias populacionais devem ser iguais nos dois grupos (teste F de Snedecor

    para duas varincias);

    3.Os dois conjuntos de dados devem provir de distribuies normais

    (teste de Shapiro-Wilk)

    Para os requisitos 2 e 3 so realizados testes para verific-los, estes testes

    sero abordados ao final.

    Hipteses:

    Hiptese Nula : Hiptese alternativa : (teste bilateral)

    (teste unilateral esquerda) (teste unilateral direita)

    Regio Crtica:

    D-se pela tabela t de Student, de forma que para ( , ) para teste

    unilateral e (

    ) para teste bilateral.

    Estatstica teste:

    Se as amostras tiverem tamanhos iguais o clculo da estatstica teste ser:

    Onde:

    varincia agregada das duas amostras

    varincia da amostra 1

    varincia da amostra 2

  • 62

    ( )

    Onde:

    tamanho da amostra em cada grupo

    varincia agregada das duas amostras : mdia da amostra 1 : mdia da amostra 2

    Se as amostras tiverem tamanhos diferentes o clculo da estatstica teste ser:

    ( ) ( )

    Onde:

    varincia agregada das duas amostras

    varincia da amostra 1

    varincia da amostra 2

    tamanho da amostra 1 tamanho da amostra 2

    Onde:

    tamanho da amostra 1 tamanho da amostra 2

    varincia agregada das duas amostras : mdia da amostra 1 : mdia da amostra 2

    Concluso:

    Abordagem Clssica:

    Se o valor da estatstica teste se encontra na regio crtica, rejeita-se , caso contrrio no rejeita .

    Abordagem p-valor:

    Na abordagem p-valor, p encontrado considerando na tabela de Student e .

    Para

    Testar a hiptese se nos dez ensaios com cada catalisador verificou que os

    catalisadores A e B tm efeitos diferentes no rendimento de certa reao qumica.

    Confirme com alfa 5%, faa a abordagem do p-valor.

  • 63

    Tabela 11- Rendimento (%) de uma reao qumica em funo do catalisador utilizado

    Cat A 45 51 50 62 43 42 53 50 48 55

    Cat B 45 35 43 59 48 45 41 43 49 39

    i) Hipteses

    (teste bilateral)

    ii) Regio Crtica

    Pela Tabela t de Student temos que para um teste unilateral esquerda com

    = o valor de t e a regio crtica ser:

    iii) Estatstica teste

    ( )

    ( )

    ( )

  • 64

    iv) Concluso: Considerando a estatstica teste ( ), e no est na

    regio crtica, no rejeita para nvel de significncia de . No h evidncia

    estatstica da diferena entre os Catalisadores A e B.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e a estatstica teste so os mesmos

    da abordagem clssica, a concluso se dar da seguinte forma:

    calculado igual a , ento buscamos na tabela t de Student com

    , o valor encontrado de

    ento p . Como

    , e portanto no rejeita-se pelo mtodo p-valor.

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

    Para

    Na comparao de duas topologias de rede de computadores, C1 e C2,

    avaliou-se o tempo de transmisso de pacotes de dados entre duas mquinas. Foram

    realizados 32 ensaios em C1 e 24 ensaios em C2, como mostra os dados abaixo:

    Tabela 12 - Tempo de transmisso de pacotes de dados adotado duas topologias

    Topologia Tempo (em dcimos de segundo) Mdia Varincia

    C1 9, 12, 10, 12, 11, 9, 8, 12, 13, 9, 13, 8, 17, 9, 9, 8, 9, 8,

    14, 8, 8, 8, 8, 13, 10, 10, 15, 13, 13, 12, 14, 8

    10,625 6,371

    C2 14, 15, 8, 13, 16, 12, 14, 17, 14, 10, 13, 12, 13, 14, 10,

    15, 12, 17, 16, 12, 15, 13, 14, 14

    13,458 4,781

    Existe diferena significativa entre o tempo mdio de transmisso nas 2 topologias?

    i) Hipteses:

    (teste bilateral)

    ii) Regio Crtica

  • 65

    Pela Tabela t de Student temos que para um teste unilateral esquerda com

    = o valor crtico de t ser:

    iii) Estatstica teste

    ( )

    ( ) ( )

    ( ) ( )

    iv) Concluso:

    Considerando que a estatstica teste igual est na regio crtica, rejeita-se para nvel de significncia de . H evidncia estatstica da diferena entre as topologias C1 e C2.

    Abordagem p-valor

    Na abordagem p-valor, os valores crticos e o valor da estatstica teste so os

    mesmos da abordagem clssica, a concluso se dar da seguinte forma:

    calculado igual a , ento buscamos na t de Student com

    , o valor encontrado de

    ento . Como

    , e portanto p rejeita-se pelo mtodo p-valor.

  • 66

    #----------------------------------------------------------------------------------------------------

    NoR:

    ( ) ( )

    ( ) ( ) ( ) ( ) ( ) #------------------------------------------------------------------------------------------------------

    Antes de aplicar o teste t para duas amostras independentes devemos verificar

    dois pressupostos:

    Teste de Shapiro-Wilk

    O teste de Shapiro-Wilk testa a normalidade de um conjunto de dados, ou seja,

    se os dados provm de distribuies normais. Foi proposto em 1965 por Samuel

    Sanford Shapiro e Martin Wilk.

    #-----------------------------------------------------------------------------------------------------

    No R:

    ( ) #o nome amostra que se deseja verificar a normalidade

    #------------------------------------------------------------------------------------------------------

    Teste F de Snedecor para duas varincias

    Este teste visa comparar duas varincias a fim de investigar se duas amostras

    com distribuies normais possuem a mesma varincia. As hipteses sero:

    Hipteses Nula :

    Hiptese alternativa :

    (teste bilateral)

    (teste unilateral esquerda)

    (teste unilateral direita)

    Onde:

    : varincia da populao 1, e

    : varincia da populao 2.

    Regio Crtica:

    A regio crtica para este teste provida pela tabela F de Snedecor, com

    no numerador e no denominador. Para teste unilateral esquerda temos que f ser:

    ( )

  • 67

    Supondo um e , e , temos que e , ser:

    ( )

    ( )

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) #Onde:

    ( )

    #------------------------------------------------------------------------------------------------------

    Para o teste unilateral direita seria ( ) Para os valores acima, seria: ( ) ( )

  • 68

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) #Onde:

    ( ) #------------------------------------------------------------------------------------------------------

    Para o teste bilateral, tm-se dois valores de o superior e o inferior, que so:

    (

    )

    e (

    )

    Para os valores dados acima, o teste bilateral ser:

    ( )

    ( )

    ( )

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ( ) ) #Onde:

    ( (

    ) )

    #----------------------------------------------------------------------------------------------

    Importante lembrar que para cada nvel de significncia diferente h uma

    tabela F de Snedecor.

  • 69

    Estatstica teste:

    Onde:

    : varincia da amostra 1, e

    : varincia da amostra 2.

    Concluso:

    Na abordagem clssica:

    teste bilateral se ou rejeita-se teste unilateral esquerda se rejeita . teste unilateral direita se rejeita

    Considerando o exemplo sobre os catalisadores, vamos verificar se eles

    produzem efeitos diferentes nas varincias, para nvel de significncia igual

    0.10.

    i) Hipteses :

    (teste bilateral)

    ii) Regio Crtica

    Pela Tabela F de Snedecor temos que para um teste bilateral com

    = os valores de e sero:

    iii) Estatstica teste

  • 70

    iv) Concluso:

    Considerando que a estatstica teste igual a , no est na regio crtica, no rejeita para nvel de significncia de . No h evidncia estatstica da diferena entre as varincias dos catalisadores A e B, logo h homogeneidade de

    varincias.

    #------------------------------------------------------------------------------------------------------

    No R:

    A funo do R usada para o teste F para duas varincias

    ( ) ( ) ( )

    #Teste bilateral, o parmetro deve ser (

    ), se for unilateral ( ).

    #------------------------------------------------------------------------------------------------------

    12. ANLISE DE CORRELAO E REGRESSO

    Em muitos conjuntos de dados, de fundamental importncia que saibamos os

    efeitos das mudanas dos dados em outro dado, que possamos estimar e controlar uma

    varivel pela manipulao de outra. Posto isso, utilizamos a correlao e a regresso

    linear para analisar essa relao entre variveis.

    Correlao Linear Simples

    A correlao linear simples nada mais que um estimador simples que

    representa a intensidade de relao entre duas variveis. A ausncia de correlao no

    quer dizer que as variveis em questo no se relacionam, apenas caracteriza a

    ausncia de relao linear. Um exemplo interessante o percentual de aproveitamento

    de um time e o nmero de vitrias deste time, esto correlacionados positivamente,

    pois quanto mais o nmero de vitrias, maior ser o percentual de aproveitamento, ou

    em um sistema computacional em que quanto maior a capacidade de processamento

    de um CPU, menor ser o tempo de processamento, que caracteriza duas variveis

    correlacionadas negativamente.

    A imagem abaixo ilustra a disperso dos dados de duas variveis em diferentes

    casos:

  • 71

    Disponvel em: http://pt.slideshare.net/vermaumeshverma/linear-regression-38653351

    Coeficiente de Correlao Linear simples de Pearson

    O coeficiente de correlao linear de Pearson trata de descrever a correlao

    entre duas variveis aleatrias. Este coeficiente tem esse nome devido ao estatstico

    Karl Pearson, que em 1894 apresentou a expresso para o coeficiente de correlao.

    Para se encontrar o coeficiente de correlao, deve-se padronizar os dados, ou seja,

    dados que possuem diferentes unidades de medida, como peso e altura, ou velocidade

    e tempo de processamento devem ser analisadas de maneira que a diferena na

    unidade de medida no interfira. Para tanto, os dados so interpretados em termos da

    quantidade de desvio padro que se afastam da mdia. A frmula que descreve esta

    padronizao a seguinte:

    Onde:

    : valor da varivel padronizado

    : valor da varivel padronizado

    : valor da varivel onde : valor da varivel onde

    : mdia de : desvio padro de

    : mdia : desvio padro de

    Porm, devido a dificuldade de se calcular o coeficiente de correlao atravs

    dos valores padronizados, sem contar a incorporao de erros de arredondamento

    provinda da padronizao, o clculo do coeficiente realizado pela frmula

    matemtica que ser descrita mais a frente.

    O coeficiente de correlao linear de Pearson, representado pela letra , um valor entre , em que quanto mais prximo de ou , mais correlacionada as variveis esto, e ser positivo se houver correlao linear positiva e

    negativa se houver correlao linear negativa. Para o clculo desse coeficiente

    utilizamos a seguinte frmula matemtica:

  • 72

    ( ) ( ) ( )

    ( )

    ( )

    Para se obter uma melhor resposta quanto a correlao entre grupos de dados,

    interessante realizar o teste t para verdadeira correlao ( ), em que possvel verificar se os dados esto correlacionados ou no. As hipteses para o teste so:

    Hiptese Nula : (as variveis X e Y so no correlacionadas) Hiptese alternativa :

    (as variveis X e Y so correlacionadas) (as variveis X e Y so correlacionadas negativamente) (as variveis X e Y so correlacionadas positivamente)

    Regio Crtica:

    D-se pela tabela t de Student, de forma que ( , ) para teste

    unilateral e (

    ) para bilateral.

    Estatstica teste:

    Onde:

    tamanho da amostra coeficiente de correlao de Pearson

    Concluso:

    Se a estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita .

    Sejam nota na prova do vestibular de matemtica e nota final na disciplina de clculo. Foram observados 15 alunos, ao final do primeiro perodo letivo

    de um curso de Cincia da Computao. Os dados esto a seguir:

    Tabela 13 Notas de 15 alunos na prova do vestibular matemtica e clculo

    Aluno 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    X 39 54 65 43 52 47 64 65 28 70 70 80 58 50 44

    Y 67 87 94 78 89 75 82 86 51 49 95 98 82 92 78

    a) Calcule o coeficiente de correlao. Interprete.

    ( ) ( ) ( )

    ( )

    ( )

  • 73

    ,( ) ( ) ( )- ( ) ( )

    ( ) ( ) ( ) ( )

    ( )

    ( ) ( )

    ( ) ( )

    Este nvel de correlao indica que h uma correlao de 0.49 entre as notas

    no vestibular e as notas na disciplina de clculo

    b) Construa o diagrama de disperso. Verifique se h algum aluno outlier.

    Figura 1- Diagrama de disperso

    Sim, o aluno 10 possui padro diferenciado dos demais e, portanto um

    outlier.

    c) Retire este aluno e refaa a correlao. Interprete.

    ( ) ( ) ( )

    ( )

    ( )

    ,( ) ( ) ( )- ( ) ( )

    ( ) ( ) ( ) ( )

    ( )

    ( ) ( )

  • 74

    ( ) ( )

    O nvel de correlao aumentou, pois agora todos os dados possuem o mesmo

    padro, a mesma linha de comportamento, tendem a crescer do vestibular para a

    disciplina de clculo de maneira proporcional a notas do vestibular.

    d) Faa o teste para a verdadeira correlao ( )

    i) Hipteses

    (nota de matemtica do vestibular e a nota de clculo so no correlacionadas)

    ( nota de matemtica do vestibular e a nota de clculo so correlacionadas)

    ii) Regio Crtica:

    e Pela Tabela t de Student temos que para um teste bilateral e =0.05 o valor

    crtico esta indicado abaixo e a regio crtica ser:

    iii) Estatstica teste

    ( )

  • 75

    iv) Concluso:

    Considerando que o valor da estatstica teste, que , est na regio crtica, rejeita-se para nvel de significncia de . As variveis X (nota de matemtica) e Y (nota de clculo) esto correlacionadas.

    #------------------------------------------------------------------------------------------------------

    No R:

    ( ) ( )- - ( ) ( ) #----------------------------------------------------------------------------------------------------

    Anlise de Regresso

    A regresso tem origem com estudos do matemtico e estatstico ingls

    Francis Galton, que buscava explicar a relao entre a altura dos pais e a altura dos

    filhos, a correlao entre esses dados. A regresso utilizada em diversas reas e trata

    de, atravs de uma equao matemtica, descrever o comportamento de um grupo de

    dados, que pode ser linear, quadrtico, entre outros. Aqui trataremos da Anlise de

    regresso linear.

    A regresso linear refere-se a uma equao de primeiro grau que tem objetivo

    de modelar o comportamento de um grupo de dados, dados pela equao:

    ( )

    Onde e so parmetros do modelo. Para encontrar a equao que descreve com maior preciso os dados,

    necessrio estimar os valores de e a partir dos conjuntos de dados em questo. Para tanto, o mtodo mais utilizado o mtodo dos mnimos quadrados, que consiste

    em fazer com que a soma dos erros quadrticos seja a menor possvel.

    As estimativas para e , representados por e , respectivamente, ser:

    ( ) ( ) ( )

    ( )

    Outro mtodo que tambm pode ser utilizado para encontrar o modelo de

    regresso o mtodo matricial, que consiste na equao: ( )

    Onde:

  • 76

    : uma matriz de dimenso x da seguinte forma:

    [

    ]

    matriz transposta de : matriz coluna com os valores de ( )

    : matriz 0 1

    Com este mtodo chegamos a um sistema linear com duas equaes onde

    devemos encontrar o valor de e . Basta isolarmos um dos termos em uma das equaes e substituirmos na outra equao e teremos o valor de um dos dois

    parmetros, depois s substituir este valor na equao em que o parmetro a ser

    encontrado foi isolado.

    A equao de regresso dada por:

    A diferena entre os valores observados e os preditos chamada resduo:

    Coeficiente de determinao

    O coeficiente de determinao descreve a proporo da variao de que pode ser explicada pelas variaes em . Essa proporo nada mais que o percentual de influncia que possui sobre , por exemplo: se tivermos um coeficiente de determinao de 95%, quer dizer que a varivel explicada atravs (com influncia) do valor de com taxa de 95%, e os outros 5%, se devem a fatores externos que influenciam no processo.

    No caso da regresso linear, este valor o mesmo encontrado pelo coeficiente

    linear de Pearson.

    Teste de significncia do modelo

    O teste de significncia do modelo trata de verificar a adequabilidade do

    modelo, ou seja, o quanto a equao de regresso encontrada adequada, ideal aos

    conjuntos de dados em questo. Para tanto, utilizamos ANOVA, que a anlise de

    varincia.

    O teste concebido da seguinte forma:

    Hiptese Nula : (o modelo de regresso no adequado) Hiptese alternativa : (o modelo de regresso adequado)

    Regio Crtica:

    D-se pela tabela F de Snedecor, de forma que , - e consideramos para escolha da tabela F adequada.

    Estatstica teste:

    F calculado encontrado atravs das seguintes equaes:

  • 77

    Fonte de

    Variao

    Regresso ( )

    Erro ( )

    Total ( )

    Onde: tamanho da amostra grau de liberdade soma dos quadrados da regresso : soma dos quadrados do erro : soma dos quadrados do total valor de um determinado da amostra valor de uma determinado da regresso mdia aritmtica dos valores de : quadrado mdio da regresso : quadrado mdio do erro quadrado mdio do total

    Concluso:

    Se obtido na estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita-se .

    Varincia residual - A varincia residual nada mais que o Quadrado Mdio

    do Erro ( ).

    Teste e Intervalo de Confiana dos Parmetros

    Os testes dos parmetros so realizados para verificar se a reta passa pela

    origem (teste t para o parmetro ) e se existe ou no regresso linear (teste t para o parmetro ).

    Teste e Intervalo de Confiana para o parmetro

    O teste t para o parmetro possui a seguinte configurao: Hiptese Nula : (a reta passa pela origem)

    Hiptese alternativa : (a reta no passa pela origem)

    Regio Crtica:

    D-se pela tabela t de Student, de forma que ( ;

    ).

    Estatstica teste:

    Erro residual:

  • 78

    ( )

    ( )

    Onde:

    tamanho da amostra estimativa do parmetro : erro residual : estimativa do erro padro do parmetro

    Concluso:

    Se a estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita-se .

    Intervalo de Confiana para

    O intervalo de confiana para o parmetro pode ser dado por:

    ( )

    Onde: : o valor obtido na tabela t de Student com e nvel de confiana

    : estimativa do erro padro do parmetro

    Teste e Intervalo de Confiana para o parmetro

    O teste t para o parmetro tem o mesmo intuito que o teste realizado para verificar a significncia do modelo de regresso. O teste t o seguinte:

    Hiptese Nula : (no h regresso linear) Hiptese alternativa : (h regresso linear)

    Regio Crtica:

    D-se pela tabela t de Student, de forma que ( ;

    ).

    Estatstica teste:

    Erro residual:

    ( )

  • 79

    Onde:

    tamanho da amostra estimativa do parmetro : erro residual : estimativa do erro padro do parmetro

    Concluso:

    Se a estatstica teste se encontrar na regio crtica, rejeita-se , caso contrrio no rejeita-se .

    Intervalo de Confiana para

    ( ) Onde:

    : o valor obtido na tabela t de Student com e nvel de confiana

    : estimativa do erro padro do parmetro

    Anlise de Resduos

    A anlise de resduos trata de verificar se os erros possuem distribuio

    normal, com mdia nula e varincia constante, e se as observaes de Y so

    independentes. Esses requisitos so fundamentais para que os testes estatsticos e os

    intervalos de confiana tenham validade. Para tanto uma anlise grfica realizada,

    anlise esta que ser mais bem compreendida atravs da resoluo do exerccio deste

    tpico.

    Um estudo foi desenvolvido para verificar o quanto o comprimento de um

    cabo serial de microcomputadores influencia na qualidade de transmisso de dados,

    medida atravs do nmero de falhas em 10.000 lotes de dados transmitidos (taxa

    falha). Os resultados foram:

    Tabela 14- Comprimento do cabo serial de microcomputadores e a taxa de falhas

    na transmisso de dados Comp. Cabo

    (m)

    8 8 9 9 10 10 11 11 12 12 13 13 14 14 15

    Taxa de falha 2,2 2,1 3,0 2,9 4,1 4,5 6,2 5,9 9,8 8,7 12,5 13,1 19,3 17,4 28,2

    a) Determine o coeficiente de correlao linear de Pearson.

    ( ) ( ) ( )

    ( )

    ( )

  • 80

    ,( ) ( )- ( ) ( )

    ( ) ( ) ( ) ( )

    b) Testar a correlao com nvel de significncia de 0.05

    i) Hipteses

    (o comprimento do cabo e a taxa de falha so no correlacionadas) (o comprimento do cabo e a taxa de falha so correlacionadas) ii) Regio Crtica n

    Pela Tabela t de Student temos que para um teste bilateral com

    = 0.05 o valor crtico ser:

    iii) Estatstica teste

    ( )

    iv) Concluso:

    Considerando o valor da estatstica teste igual a , est na regio crtica, rejeita-se para nvel de significncia de 0.05. As variveis X (comprimento do cabo) e Y (taxa de falha) esto correlacionadas.

    c) Estabelea o modelo de regresso.

    Mtodo dos mnimos quadrados

  • 81

    ( ) ( ) ( )

    ( )

    o Modelo de regresso linear

    Mtodo matricial ( )

    [

    ]

    0

    1 0 1

    [

    ]

    0

    1

    [

    ]

    0

    1

    0

    1

    [

    ]

    0

    1

    0

    1 0 1 0

    1

    {

    (

    )

    Modelo de regresso linear

    d) Determine o coeficiente de determinao.

    o valor da correlao linear de Pearson, pois se trata de uma regresso

    linear. Logo, o valor do coeficiente de determinao ser:

  • 82

    e) Diagrama de disperso

    f) Ajustar a reta no diagrama de disperso

    g) Testar a significncia do modelo de regresso

    Hiptese Nula :

    Hiptese alternativa :

    ii) Regio Crtica:

  • 83

    iii) Estatstica teste:

    Tabela 15 Anlise de varincia

    Fonte de

    Variao

    Regresso ( )

    Erro ( )

    Total ( )

    iv) Concluso:

    Como obtido como estatstica teste foi e se encontra na regio crtica, logo rejeita-se , existe a regresso linear.

    h) Testar a hiptese e construir os intervalos de confiana dos parmetros

    Teste t para o parmetro

    Hiptese Nula : (a reta passa pela origem)

    Hiptese alternativa : (a reta no passa pela origem)

    ii) Regio Crtica:

  • 84

    iii) Estatstica teste:

    ( )

    ( )

    ( )

    ( ) ( )

    iv) Concluso:

    Como a estatstica teste e se encontra na regio crtica, rejeita-se para nvel de significncia de logo a reta no passa pela origem.

    Teste t para o parmetro

    i) Hiptese Nula : (no h regresso linear)

    Hiptese alternativa : (h regresso linear)

    ii) Regio Crtica:

  • 85

    iii) Estatstica teste:

    ( )

    ( ) ( )

    iv) Concluso:

    Como a estatstica teste e se encontra na regio crtica, rejeita-se para nvel de significncia de , logo no podemos afirmar que no h regresso linear entre as variveis.

    Intervalos de Confiana para os parmetros:

    ( )

    ( ) ( ) ( ) ( )

    ( )

    ( ) ( ) ( ) ( )

  • 86

    i) Estimar a taxa de falha quando o comprimento do cabo for 20.

    j) Estimar o comprimento do cabo, quando a taxa de falha for de 10,0.

    k) Varincia residual do modelo

    l) Anlise de resduos

    Tabela 16 : Resduos Ordinrios

    Resduos Resduos 1 8 2 9 3 10 4 11 5 12 6 13 7 14 15

    Atravs dos valores dos resduos brutos, obtemos os resduos padronizados,

    calculados atravs da equao:

    Tabela 17- Resduos Padronizados

    Resduos Padronizados (ResPad)

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

  • 87

    Com base nesses valores, podemos obter um grfico de Resduos

    Padronizados versus Valores Estimados, que trata de verificar se existe algum outlier

    dentre as observaes.

    Figura 1 Grfico do Valores estimados versus

    Resduos padronizados

    Figura 2 - Boxplot dos Resduos Padronizados:

  • 88

    Figura 3: Grfico dos Resduos Esperados com os Resduos Ordenados

    Resumo de todos os grficos:

  • 89

    #-----------------------------------------------------------------------------------------------------

    No R:

    -

    ( ) ( ) cor.test(x,y)

    #Mtodo dos mnimos quadrados

    ( )

    # Mtodo matricial

    - ( ) - ( ( )) - ( ( )) - ( ) ( ) - ( ) - ( ) ( ) ( ) -( )

    - ( ) # Testes t

    ( ) # Intervalos de confiana

    # Anlise de Resduos

    # Residuos padronizados

    ( )

    # Grfico de anlise dos resduos padronizados X valores observados

    - ( ( )) ( ) ( )

    # Box plot dos resduos padronizados

    ( ( )) ( )

    # Grficos dos Resduos Esperados com os Resduos Ordenados

    ( ) ( ) ( )

  • 90

    # Resumo de todos os grficos

    ( ( )) p ( ( ) )

    #------------------------------------------------------------------------------------------------------

  • 91

    REFERNCIAS BIBLIOGRFICAS

    BARBETTA, P. A.; REIS, M. M. Estatstica para cursos de Engenharia e Informtica. So Paulo: Atlas, 2008.

    BUSSAB, W. O., MORETTIN, P.A. Estatstica bsica. So Paulo: Saraiva, 2003.

    526p.

    DEVORE, J. L. Probabilidade e Estatstica para Engenharia e Cincias. Traduo de Joaquim Pinheiro Nunes da Silva. So Paulo: Thomson, 2006. GONALVES, C. F. F. Estatstica. Londrina: Eduel, 2002 MONTGOMERY, D. C.; RUNGER, G. C. Estatstica Aplicada e Probabilidade para Engenheiros. Rio de Janeiro: LTC, 2003. MORETTIN, L. G. Estatstica Bsica: probabilidade e inferncia. Volume nico. So Paulo: Pearson Prentice Hall, 2010.

Recommended

View more >