Så här bestämmer du sannolikhetsfördelningstypen för data

Innehållsförteckning:

Anonim

När du har samlat in data på ditt system eller process är nästa steg att avgöra vilken typ av sannolikhetsfördelning man har. Typerna av sannolikhetsfördelningar är: diskret enhetlig, Bernoulli, binomial, negativ binomial, Poisson, geometrisk, kontinuerlig enhetlig, normal (bellkurva), exponentiell, gamma och beta-fördelning. Att begränsa även några från listan över möjligheter gör att bestämma vilket är det närmaste R-kvadrerade värdet mycket snabbare.

Föremål du behöver

  • Graphing-programvara

  • Metoder för att beräkna R-kvadrerat värde (bästa passningsanalys)

Skriv data för en visuell representation av datatypen.

Ett av de första stegen för att bestämma vilken datafördelning man har - och därmed ekvationstypen som ska användas för att modellera data - är att utesluta vad det inte kan vara. • Om det finns några toppar i datasatsen kan det inte vara en diskret enhetlig fördelning. • Om data har mer än en topp är det inte Poisson eller binomial. • Om det har en enda kurva, inga sekundära toppar och har en långsam sluttning på varje sida, kan det vara Poisson eller en gammaldistribution. Men det kan inte vara en diskret enhetlig fördelning. • Om data är jämnt fördelade och det är utan skrå mot en sida, är det säkert att utesluta en gamma- eller Weibull-distribution. • Om funktionen har en jämn fördelning eller en topp i mitten av de grafiska resultaten, är det inte en geometrisk fördelning eller en exponentiell fördelning. • Om förekomsten av en faktor varierar med en miljövariabel, är det förmodligen inte en Poisson-fördelning.

När sannolikhetsfördelningstypen har minskats, gör en R-kvadrerad analys av varje möjlig typ av sannolikhetsfördelning. Den som har det högsta R-kvadrerade värdet är sannolikt rätt.

Eliminera en outlier datapunkt. Räkna sedan om R-kvadrering. Om samma sannolikhetsfördelningstyp kommer upp som närmaste match, är det högtförtroende att detta är den korrekta sannolikhetsfördelningen som ska användas för datasatsen.

tips

  • Om data visar flera toppar en bred scatter, är det möjligt att två separata processer pågår eller den produkt som samplas blandas. Hämta data och analysera sedan.

Varning

Bekräfta ekvationerna genererade mot senare dataset för att bekräfta att det fortfarande är korrekt för datasatsen. Det är möjligt att miljöfaktorer och processdrift har gjort nuvarande ekvationer och modeller felaktiga.