dmylogi.com

Hoe om uitskieters te bereken

In statistiek, a Atipiese waarde is `n data wat aansienlik verskil van die ander data in die steekproef. Dikwels uitskieters in `n datastel kan statistieke oor eksperimentele afwykings of foute in metings geneem waarsku, en as gevolg van hierdie kan die weggooi datastel. As die uitskieters van die stel

word geïgnoreer, daar kan belangrike veranderinge in die gevolgtrekkings van die studie wees. Daarom is dit belangrik om te weet hoe om uitskieters te bereken en te evalueer, om die korrekte begrip van statistiese data te verseker.

stappe

Prent getiteld Bereken Outliers Stap 1
1
Leer hoe om moontlike uitskieters te herken. Voordat u besluit of u die uitskieters van `n sekere datastel moet ignoreer, moet ons eers die moontlike uitskakelaars van die datastel identifiseer. Breedweg is uitskieters data wat baie verskil van die neiging wat uitgedruk word deur die ander waardes in die datastel. Met ander woorde, dit hulle vind ver weg na die ander waardes. Dit is gewoonlik maklik om dit op te spoor in die data tabelle of (veral) in die grafieke. As die datastel visueel in `n grafiek uitgedruk word, is die uitskieters "ver" van die ander waardes. As byvoorbeeld die meeste data in `n datastel `n reguitlyn gevorm het, kon dit nie redelikerwys verklaar word dat die uitskieters deel van daardie lyn was nie.
  • Ons gaan `n datastel neem wat die temperature van 12 verskillende voorwerpe in `n kamer voorstel. As 11 voorwerpe het temperature naby aan 70 grade Celsius (21 grade Celsius), maar die twaalfde voorwerp, `n oond met `n temperatuur van 300 grade Celsius (150 grade Celsius), sal `n vinnige punt aan te dui dat die oond is waarskynlik `n atipiese waarde.
  • Prent getiteld Bereken Outliers Stap 2
    2
    Sorteer die data van die minste na die grootste. Die eerste stap in die berekening van die uitskieters in `n datastel is om die mediaan (middel) waarde van die datastel te vind. Hierdie taak word baie vereenvoudig as die datastelwaardes in orde is van die minste na die grootste. Dus, voordat u voortgaan, bestel die waardes van die datastel op hierdie manier.
  • Kom ons gaan voort met die voorbeeld hierbo. Die volgende is die datastel wat die temperature van verskeie voorwerpe in `n kamer voorstel: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. As ons die waardes van die datastel van die minste tot die grootste stel, is ons stel waardes: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  • Prent getiteld Bereken Outliers Stap 3
    3
    Bereken die mediaan van die datastel. Die mediaan van die datastel is die data hierbo, wat die helfte van die data is en onder watter is die ander helfte van die data-basies is die waarde "in die middel" datastel. As die datastel `n vreemde getal data bevat, is dit maklik om dit te vind (die mediaan sal die data wees met dieselfde aantal waardes bo en onder dit). As daar egter `n ewe aantal data is, dan is daar geen enkel middelpunt nie, die middelpunte moet gemiddeld wees om die mediaan te vind. Let daarop dat by die berekening van uitskieters, gewoonlik aan die veranderlike Q2 mediaan omdat leuens tussen Q1 en Q3, die eerste en derde kwartiele, wat later definieer.
  • Moenie verwar word as die datastel `n ewe aantal waardes het nie. Die gemiddelde van die twee waardes is dikwels `n getal wat nie in die datastel voorkom nie. Dit is normaal. As die twee waardes van die medium egter dieselfde getal is, sal die gemiddelde natuurlik dieselfde nommer wees, en dit is ook Normaal.
  • In ons voorbeeld het ons 12 waardes of data. Die 2 waardes van die medium stem ooreen met die data 6 en 7, 70 en 71 onderskeidelik. Daarom is die mediaan van ons datastel die gemiddeld van hierdie twee waardes: ((70 + 71) / 2), = 70.5.
  • Prent getiteld Bereken Outliers Stap 4
    4
    Bereken die eerste kwartiel. Hierdie waarde, waarmee ons die veranderlike Q1 toeken, is die onderstaande data, wat 25 persent (of kwart) van die waardes is. Met ander woorde, dit is die data wat in die middel van die data in die datastel is onder die mediaan. As daar `n ewe aantal waardes onder die mediaan is, moet jy die twee waardes in die middel weer gemiddeld bereken om Q1 te vind, aangesien jy dalk moet doen om die mediaan self te vind.
  • In ons voorbeeld is 6 data op die mediaan en 6 data onder dit. Dit beteken dat ons die eerste kwartiel moet vind, ons moet die twee data in die middel van die ses geringe data gemiddeld. Data 3 en 4 van die ses minderjariges is albei 70. Daarom is hul gemiddelde ((70 + 70) / 2), = 70. 70 sal ons waarde vir Q1 wees.
  • Prent getiteld Bereken Outliers Stap 5
    5
    Bereken die derde kwartiel. Hierdie waarde, waarmee ons die veranderlike Q3 toeken, is die data waarop 25 persent van die waardes geleë is. Die metode om Q3 te vind, is byna identies aan die een wat gebruik is om Q1 te vind, met die verskil dat die data in hierdie geval oorweeg word oor die mediaan, in plaas van die wat daaronder is.
  • Na aanleiding van ons voorbeeld is die twee waardes in die middel van die ses data op die mediaan 71 en 72. By die gemiddelde van hierdie twee waardes verkry ons ((71 + 72) / 2), = 71.5. 71.5 sal ons waarde vir die derde kwartaal wees.
  • Prent getiteld Bereken Outliers Stap 6
    6


    Vind die interkwartielreeks. Noudat ons Q1 en Q3 gedefinieer het, moet ons die afstand tussen hierdie twee veranderlikes bereken. Die afstand vanaf Q1 tot Q3 word bereken deur Q1 van Q3 af te trek. Die waarde wat verkry word vir die interkwartielreeks is die sleutel om die grense vir die nie-atipiese waardes van die datastel te bepaal.
  • In ons voorbeeld is die waardes vir Q1 en Q3 onderskeidelik 70 en 71,5. Om die interkwartielreeks te vind, trek ons ​​Q3 - Q1: 71.5 - 70 = af 1.5.
  • Let daarop dat dit werk selfs as Q1, Q3, of albei negatiewe getalle is. Byvoorbeeld, as ons waarde vir Q1 -70 was, sou ons interkwartielreeks 71.5 - (-70) = 141.5 wees, wat korrek sou wees.
  • Prent getiteld Bereken Outliers Stap 7
    7
    Vind die "interne grense" van die datastel. Uitskieters word geïdentifiseer wanneer hulle evalueer of hulle binne `n numeriese limiet is, wat `interne grense` en `eksterne grense` genoem word. `N waarde wat buite die interne grense van die datastel lê, word genoem ligte uitskieter, en een wat buite die uiterste grense is, word genoem uiterste atipiese waarde. Om die interne perke van die datastel te vind, vermenigvuldig die interkwartielafstand eers met 1.5. Voeg dan die resultate by Q3 en gee dit aan Q1. Die twee waardes wat u sal verkry uit die resultaat is die interne grense van die datastel.
  • In ons voorbeeld is die interkwartielreeks (71.5 -70) of 1.5. As ons dit met 1,5 vermenigvuldig, kry ons 2.25. Ons voeg hierdie nommer by Q3 en trek dit van Q1 af om die interne perke soos hieronder te sien, te vind:
  • 71,5 + 2,25 = 73,75
  • 70 - 2.25 = 67.75
  • Daarom is die interne grense 67,75 en 73,75.
  • In ons datastel is slegs die oondtemperatuur (300 grade) buite hierdie reeks en kan dit dus `n ligte atipiese waarde word. Ons moet egter vasstel of hierdie temperatuur `n uiterste uitskieter is, dus moenie gevolgtrekkings maak voordat ons dit gedoen het nie.
    Prent getiteld Bereken Outliers Stap 7Bullet2
  • Prent getiteld Bereken Outliers Stap 8
    8
    Vind die "buitenste grense" van die datastel. Dit word op dieselfde manier as die interne perke bereken, behalwe dat die interkwartielreeks vermenigvuldig word met 3 in plaas van 1.5. Dan word die resultaat bygevoeg tot Q3 en afgetrek vanaf Q1 om die boonste en onderste eksterne grense te vind.
  • In ons voorbeeld, vermenigvuldig die interkwartielreeks wat deur drie genoem word, (1.5 * 3) of 4.5. Ons vind die boonste en onderste eksterne grense soos voorheen:
  • 71,5 + 4,5 = 76
  • 70 - 4.5 = 65.5
  • Die buitenste grense is 65.5 en 76.
  • Enige data wat buite die perke is, word beskou as `n uiterste uitskieter. In hierdie voorbeeld is die temperatuur van die oond, 300 grade, baie buite die buitenste grense, daarom is dit beslis `n baie ongewone waarde.
    Prent getiteld Bereken Outliers Stap 8Bullet2
  • Prent getiteld Bereken Outliers Stap 9
    9
    Gebruik `n kwalitatiewe evaluering om te bepaal of u die uitskieters moet "wegdoen" al dan nie. Met behulp van die beskryf metodologie is dit moontlik om vas te stel of sekere data ligte atipiese waardes, ekstreme uitskieters of enige tipe atipiese waarde is. Maak egter geen fout, identifiseer `n data as `n uitskieter, maar kategoriseer dit as `n kandidaat wat geïgnoreer kan word uit die datastel, maar nie as `n data wat nie dit moet geïgnoreer word. die rede waardeur `n uitskieter van die res van die waardes in die datastel onderskei word, is noodsaaklik om te bepaal of die uitskieter nie geïgnoreer moet word nie. Oor die algemeen kan uitskieters wie se oorsprong toegeskryf word aan `n fout van een of ander aard, soos `n fout in die meting, in die rekord of in die eksperimentele ontwerp, geïgnoreer word. Aan die ander kant, uitskieters wat nie aan `n fout toegeskryf kan word nie en wat nuwe inligting of tendense openbaar wat nie in die algemeen voorspel is nie. hulle word nie geïgnoreer nie
  • Nog `n kriterium om te oorweeg is of die uitskieter die gemiddelde (gemiddelde) van die datastel aansienlik beïnvloed deur dit af te wyk of dit misleidend te maak. Om dit in gedagte te hou is veral belangrik as u van plan is om gevolgtrekkings te maak uit die gemiddelde van die datastel.
  • Kom ons evalueer ons voorbeeld. In ons voorbeeld, gegee dat dit is baie onwaarskynlik dat die oond het `n temperatuur 300 grade te danke aan `n onverwagte natuurlike krag, kan ons aflei dat byna seker die oond is aangeskakel ongeluk, wat lei tot `n hoë temperatuur onreëlmatige lees. Verder, as ons die uitskieter ignoreer, die gemiddelde van ons datastel is (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 grade, terwyl die gemiddelde as Ons ignoreer die outlier is (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55.
  • Aangesien die uitskieter toegeskryf kan word aan `n menslike fout en omdat dit nie korrek is om te sê dat die gemiddelde temperatuur van hierdie kamer byna 90 grade was nie, moet ons kies verontagsaming ons atipiese waarde.
  • Prent getiteld Bereken Outliers Stap 10
    10
    Verstaan ​​die belangrikheid van (soms) atypiese waardes. Terwyl sommige uitskieters moet geïgnoreer word vir data-stelle, want hulle is die gevolg van `n fout en / of af te lei onakkurate of misleidende resultate wat hulle `n paar uitskieters moet getel word. As, byvoorbeeld, blyk dit dat `n uitskieter geldig is verkry (dit wil sê, nie as gevolg van `n fout) en / of gee jou `n nuwe begrip van die verskynsel wat jy meet, moet nie uitgesluit word nie. Wetenskaplike eksperimente is veral vatbare situasies by die hantering van uitskieters. As u `n buitestaander per ongeluk ignoreer, kan dit beteken dat inligting wat `n tendens of nuwe ontdekkings aandui, weggooi.
  • Byvoorbeeld, laat ons sê ons gaan `n nuwe dwelm ontwerp om die grootte van vis in `n visbroedery te verhoog. Ons sal dieselfde datastel gebruik voor ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), behalwe hierdie keer, elke data verteenwoordig die massa van `n vis ( in gram) nadat dit sedert die geboorte met `n ander eksperimentele geneesmiddel behandel is. Met ander woorde, die eerste dwelm het veroorsaak dat `n vis 71 gram weeg, die tweede dwelm het `n ander vis `n massa van 70 gram, ensovoorts. In hierdie situasie, 300 Dit bly `n baie uitskieter, maar ons moet dit nie ignoreer dat die veronderstelling dat dit is nie as gevolg van `n fout, `n belangrike sukses in ons eksperiment. Die dwelm wat `n vis van 300 gram geproduseer het, het meer gedien as al die ander - daarom is hierdie feit eintlik die belangrikste van ons datastel, in plaas van die minder belangrik
  • wenke

    • As jy uitvinders soek, probeer om hul teenwoordigheid te verduidelik voordat hulle van die datastel verwyder word. Hulle kan foute aandui in die afmetings of abnormaliteite van die verspreiding.

    Dinge wat jy nodig het

    • sakrekenaar
    Deel op sosiale netwerke:

    Verwante
    Hoe om `n grafiek te maakHoe om `n grafiek te maak
    Hoe om te lieg met statistiekeHoe om te lieg met statistieke
    Hoe om die vertrouensinterval te berekenHoe om die vertrouensinterval te bereken
    Hoe om die p-waarde te berekenHoe om die p-waarde te bereken
    Hoe om die statistiese omvang te berekenHoe om die statistiese omvang te bereken
    Hoe om die interkwartielreeks te berekenHoe om die interkwartielreeks te bereken
    Hoe om die gemiddelde, die standaardafwyking en die standaardfout te berekenHoe om die gemiddelde, die standaardafwyking en die standaardfout te bereken
    Hoe om die opgehoopte frekwensie te berekenHoe om die opgehoopte frekwensie te bereken
    Hoe om statistiese betekenisvolheid te evalueerHoe om statistiese betekenisvolheid te evalueer
    Hoe om `n boksdiagram te maakHoe om `n boksdiagram te maak
    » » Hoe om uitskieters te bereken
    © 2024 dmylogi.com