Rajoitukset yhteisiä ratkaisuja Puuttuu Data

edellinen artikkelissa käsitellään joitakin syitä puuttuvien tietojen ja joitakin seurauksia analysoimalla ainoa täydellinen tapauksissa. Tämä tiedote käsittelee joitakin muita yhteisiä tapoja käsitellä puuttuvat tiedot, joiden keskustelua niiden eduista ja haitoista.

Käytettävissä tapauksessa analyysi (pareittain poistetaan) laskee kunkin vaiheen analyysin erikseen käyttäen tapauksiin, joilla tietoja että vaihe. Siksi tapauksessa tietoja puuttuu yksi muuttuja käytetään vain vaiheet, jotka eivät liity että muuttuja. Etuna on, että otoskoko kunkin analyysi on yleensä korkeampi kuin täysin tapauskohtaisen analyysin, mutta tulokset ovat puolueeton vain, jos tiedot ovat MCAR. Se voi myös johtaa matemaattisia ongelmia laskettaessa arviot joitakin parametrejä, ja ei suositella.

Useimmat muut menetelmät käsittävät syyksi-korvaamalla puuttuvat arvot arvion, sitten analysoidaan kaikkia tietoja kuin jos laskennallisia arvoja oli varsinaista havaittujen arvojen. On olemassa monia tapoja valita arvio. Seuraavat ovat yleisiä menetelmiä:

* Mean: keskiarvo havaitut arvot kyseisen muuttujan
* Vaihto: arvo uusi henkilö, joka ei valittu olemaan otokseen
* Hot kannella: satunnaisesti valittu arvo henkilö, joka on samanlainen arvoja eri muuttujien
* Kylmä kannella: systemaattisesti valittu arvo henkilö, joka on samanlainen arvoja eri muuttujien
* regressio: ennustettu arvo saadaan taantumassa puuttuu muuttujan muihin muuttujiin
* Stokastinen regressio: ennustettu arvo regressio plus satunnainen jäännösarvo.
* Interpolointi ja ekstrapolointi: arvioitu arvo muista huomautuksista samasta yksilöstä.

Imputointi on suosittu, koska se on käsitteellisesti yksinkertainen ja koska tuloksena näyte on sama määrä huomautuksia kaikkia tietoja. Se voi olla hyvin houkuttelevaa, kun täydellinen tapauskohtaisen analyysin poistaa suuri osa tietokokonaisuutta. Mutta se on rajoituksia. Jotkut imputointimenetelmiä johtaa yksipuolisiin parametriestimaatit, kuten keinoja ja korrelaatiot, ellei tietoja MCAR. Puolueellisuus on usein huonompi kuin täysin tapauskohtaisen analyysin, erityisesti keskimääräisen imputointia. Laajuus harhaa riippuu monista tekijöistä, kuten puuttuvat tiedot mekanismi, osuus tietojen puuttuu, ja saatavilla olevien tietojen keräämiseen.

Lisäksi kaikki nämä imputointimenetelmiä aliarvioida keskivirheet . Koska laskennallinen havainnot ovat itse arvioita, niiden arvot ovat vastaavat satunnaisvirhe. Tästä huolimatta laskennallisia arvoja käsitellään todellisia havaintoja analyyseissä. Ylimääräinen virhelähde ohitetaan, jolloin liian pieni keskivirheiden ja liian pieni p-arvot. Lisäksi vaikka laskelmaa käsitteellisesti yksinkertainen, se on yleensä vaikea tehdä hyvin käytännössä. Siksi nämä imputointimenetelmiä eivät ole tyydyttäviä useimmissa tapauksissa.

Kaksi vaihtoehtoisia menetelmiä säilyttää koko otoskoko ja voi johtaa puolueeton arviot parametrien ja keskivirhe ignorable puuttuvia tietoja: useita imputointia ja suurimman uskottavuuden estimointi. Nämä tekniikat ovat nyt saatavilla yhteisiä tilastollisia ohjelmistoja. Myöhemmät uutiskirjeet kuvataan näitä menetelmiä ja keskustella niiden saatavuus ohjelmistopaketteja.
.

business Consulting

  1. Tuo myynnin ja palvelun yhdessä sitoutumaan asiakkailleen Salesforce CRM
  2. Vähentää riskiä Business Environment
  3. Suojakankaat Maatalous ja Industries
  4. Kokousratkaisut kotiin perustuu puhelinmyyjät vuonna DC
  5. Merkitys "Instant mielihyvä" Kun markkinointi Kuluttaja Products
  6. Cincinnati Native Kuka Luotu Pet Food Industry Mid-19th Century
  7. Top 7 tarjoamat etuudet IT ulkoistaminen Services
  8. Conroe Lyhennys Windows-päivitys ja päivitä Home
  9. Onnettomuuksien ja vammojen vähentämiseksi vuonna Workplace
  10. 12 Steps Vähittäiskauppa Success