내 데이터는 어떤 분포를 따르나요?


31

1000 개의 구성 요소가 있고 이러한 로그에 몇 번의 로그 기록이 실패했는지 기록하고 실패를 기록 할 때마다 팀에서 문제를 해결하는 데 걸린 시간도 추적합니다. 요컨대,이 1000 개의 구성 요소 각각에 대한 복구 시간 (초)을 기록했습니다. 이 질문의 끝에 데이터가 제공됩니다.

나는이 모든 값을 가져다가 사용 R에 컬린과 프레이 그래프를 그린 descdist으로부터 fitdistrplus패키지로 제공된다. 수리 시간이 특정 분포를 따르는 지 이해하고 싶었습니다. boot=500부트 스트랩 된 값을 얻는 플롯은 다음과 같습니다 .

여기에 이미지 설명을 입력하십시오

이 그림이 관측치가 베타 분포 (또는 어떤 경우에 어떤 것이 밝혀지지 않았는지)에 속한다고 말하고 있음을 알 수 있습니다. 이제 통계학자가 아닌 시스템 설계 자라는 점을 고려할 때이 그림은 무엇입니까? ? (이러한 결과의 실질적인 직관을 찾고 있습니다).

편집하다:

QQplot는 사용하여 qqPlot패키지의 기능을 car. 먼저 fitdistr함수를 사용하여 모양 및 배율 매개 변수를 추정했습니다 .

> fitdistr(Data$Duration, "weibull")
      shape          scale    
  3.783365e-01   5.273310e+03 
 (6.657644e-03) (3.396456e+02)

그런 다음이 작업을 수행했습니다.

qqPlot(LB$Duration, distribution="weibull", shape=3.783365e-01, scale=5.273310e+03)

여기에 이미지 설명을 입력하십시오

편집 2 :

로그 정규 QQplot으로 업데이트 중입니다.

여기에 이미지 설명을 입력하십시오

내 데이터는 다음과 같습니다.

c(1528L, 285L, 87138L, 302L, 115L, 416L, 8940L, 19438L, 165820L, 
540L, 1653L, 1527L, 974L, 12999L, 226L, 190L, 306L, 189L, 138542L, 
3049L, 129067L, 21806L, 456L, 22745L, 198L, 44568L, 29355L, 17163L, 
294L, 4218L, 3672L, 10100L, 290L, 8341L, 128L, 11263L, 1495243L, 
1699L, 247L, 249L, 300L, 351L, 608L, 186684L, 524026L, 1392L, 
396L, 298L, 1063L, 11102L, 6684L, 6546L, 289L, 465L, 261L, 175L, 
356L, 61652L, 236L, 74795L, 64982L, 294L, 95221L, 322L, 38892L, 
2146L, 59347L, 2118L, 310801L, 277964L, 205679L, 5980L, 66102L, 
36495L, 580277L, 27600L, 509L, 21795L, 21795L, 301L, 617L, 331L, 
250L, 123501L, 144L, 347L, 121443L, 211L, 232L, 445783L, 9715L, 
10308L, 1921L, 178L, 168L, 291L, 6915L, 6735L, 1008478L, 274L, 
20L, 3287L, 591208L, 797L, 586L, 170613L, 938L, 3121L, 249L, 
1497L, 24L, 1407L, 1217L, 1323L, 272L, 443L, 49466L, 323L, 323L, 
784L, 900L, 26814L, 2452L, 214713L, 3668L, 325L, 20439L, 12304L, 
261L, 137L, 379L, 2273L, 274L, 17760L, 920699L, 13L, 485644L, 
1243L, 226L, 20388L, 584L, 17695L, 1477L, 242L, 280L, 253L, 17964L, 
7073L, 308L, 260692L, 155L, 58136L, 16644L, 29353L, 543L, 276L, 
2328L, 254L, 1392L, 272L, 480L, 219L, 60L, 2285L, 2676L, 256L, 
234L, 1240L, 219714L, 102174L, 258L, 266L, 33043L, 530L, 6334L, 
94047L, 293L, 536L, 48557L, 4141L, 39079L, 23259L, 2235L, 17673L, 
28268L, 112L, 64824L, 127992L, 5291L, 51693L, 762L, 1070735L, 
179L, 189L, 157L, 157L, 122L, 1045L, 1317L, 186L, 57901L, 456126L, 
674L, 2375L, 1782L, 257L, 23L, 248L, 216L, 114L, 11662L, 107890L, 
203022L, 513L, 2549L, 146L, 53331L, 1690L, 10752L, 1648611L, 
148L, 611L, 198L, 443L, 10061L, 720L, 10L, 24L, 220L, 38L, 453L, 
10066L, 115774L, 97713L, 7234L, 773L, 90154L, 151L, 1560L, 222L, 
51558L, 214L, 948L, 208L, 1127L, 221L, 169L, 1528L, 78959L, 61566L, 
88049L, 780L, 6196L, 633L, 214L, 2547L, 19088L, 119L, 561L, 112L, 
17557L, 101086L, 244L, 257L, 94483L, 6189L, 236L, 248L, 966L, 
117L, 333L, 278L, 553L, 568L, 356L, 731L, 25258L, 127931L, 7735L, 
112717L, 395L, 12960L, 11383L, 16L, 229067L, 259076L, 311L, 366L, 
2696L, 7265L, 259076L, 3551L, 7782L, 4256L, 87121L, 4971L, 4706L, 
245L, 34457L, 4971L, 4706L, 245L, 34457L, 258L, 36071L, 301L, 
2214L, 2231L, 247L, 537L, 301L, 2214L, 230L, 1076L, 1881L, 266L, 
4371L, 88304L, 50056L, 50056L, 232L, 186336L, 48200L, 112L, 48200L, 
48200L, 6236L, 82158L, 6236L, 82158L, 1331L, 713L, 89106L, 46315L, 
220L, 5634L, 170601L, 588L, 1063L, 2282L, 247L, 804L, 125L, 5507L, 
1271L, 2567L, 441L, 6623L, 64781L, 1545L, 240L, 2921L, 777L, 
697L, 2018L, 24064L, 199L, 183L, 297L, 9010L, 16304L, 930L, 6522L, 
5717L, 17L, 20L, 364418L, 58246L, 7976L, 304L, 4814L, 307L, 487L, 
292016L, 6972L, 15L, 40922L, 471L, 2342L, 2248L, 23L, 2434L, 
23342L, 807L, 21L, 345568L, 324L, 188L, 184L, 191L, 188L, 198L, 
195L, 187L, 185L, 33968L, 1375L, 121L, 56872L, 35970L, 929L, 
151L, 5526L, 156L, 2687L, 4870L, 26939L, 180L, 14623L, 265L, 
261L, 30501L, 5435L, 9849L, 5496L, 1753L, 847L, 265L, 280L, 1840L, 
1107L, 2174L, 18907L, 14762L, 3450L, 9648L, 1080L, 45L, 6453L, 
136351L, 521L, 715L, 668L, 14550L, 1381L, 13294L, 13100L, 6354L, 
6319L, 84837L, 84726L, 84702L, 2126L, 36L, 572L, 1448L, 215L, 
12L, 7105L, 758L, 4694L, 29369L, 7579L, 709L, 121L, 781L, 1391L, 
2166L, 160403L, 674L, 1933L, 320L, 1628L, 2346L, 2955L, 204852L, 
206277L, 2408L, 2162L, 312L, 280L, 243L, 84050L, 830L, 290L, 
10490L, 119392L, 182960L, 261791L, 92L, 415L, 144L, 2006L, 1172L, 
1886L, 233L, 36123L, 7855L, 554L, 234L, 2292L, 21L, 132L, 142L, 
3848L, 3847L, 3965L, 3431L, 2465L, 1717L, 3952L, 854L, 854L, 
834L, 14608L, 172L, 7885L, 75303L, 535L, 443347L, 5478L, 782L, 
9066L, 6733L, 568L, 611L, 533L, 1022L, 334L, 21628L, 295362L, 
34L, 486L, 279L, 2530L, 504L, 525L, 367L, 293L, 258L, 1854L, 
209L, 152L, 1139L, 398L, 3275L, 284178L, 284127L, 826L, 751L, 
1814L, 398L, 1517L, 255L, 13745L, 43L, 1463L, 385L, 64L, 5279L, 
885L, 1193L, 190L, 451L, 1093L, 322L, 453L, 680L, 452L, 677L, 
295L, 120L, 12184L, 250L, 1165L, 476L, 211L, 4437L, 7310L, 778L, 
260L, 855L, 353L, 97L, 34L, 87L, 137L, 101L, 416L, 130L, 148L, 
832L, 187L, 291L, 4050L, 14569L, 271L, 1968L, 6553L, 2535L, 227L, 
202L, 647L, 266L, 2681L, 106L, 158L, 257L, 234L, 1726L, 34L, 
465L, 436L, 245L, 245L, 2790L, 104L, 1283L, 44416L, 142L, 13617L, 
232L, 171L, 221L, 719L, 176L, 5838L, 37488L, 12214L, 3780L, 5556L, 
5368L, 106L, 246L, 101L, 158L, 10743L, 5L, 46478L, 5286L, 9866L, 
32593L, 174L, 298L, 19617L, 19350L, 230L, 78449L, 78414L, 78413L, 
78413L, 6260L, 6260L, 209L, 2552L, 522L, 178L, 140L, 173046L, 
299L, 265L, 132360L, 132252L, 4821L, 4755L, 197L, 567L, 113L, 
30314L, 7006L, 10L, 30L, 55281L, 8263L, 8244L, 8142L, 568L, 1592L, 
1750L, 628L, 60304L, 212553L, 51393L, 222L, 13471L, 3423L, 306L, 
325L, 2650L, 74796L, 37807L, 103751L, 6924L, 6727L, 667L, 657L, 
752L, 546L, 1860L, 230L, 217L, 1422L, 347L, 341055L, 4510L, 4398L, 
179670L, 796L, 1210L, 2579L, 250L, 273L, 407L, 192049L, 236L, 
96084L, 5808L, 7546L, 10646L, 197L, 188L, 19L, 167877L, 200509L, 
429L, 632L, 495L, 471L, 2578L, 251L, 198L, 175L, 19161L, 289L, 
20718L, 201L, 937L, 283L, 4829L, 4776L, 5949L, 856907L, 2747L, 
2761L, 3150L, 3142L, 68031L, 187666L, 255211L, 255231L, 6581L, 
392991L, 858L, 115L, 141L, 85629L, 125433L, 6850L, 6684L, 23L, 
529L, 562L, 216L, 1450L, 838L, 3335L, 1446L, 178L, 130101L, 239L, 
1838L, 286L, 289L, 68974L, 757L, 764L, 218L, 207L, 3485L, 16597L, 
236L, 1387L, 2121L, 2122L, 957L, 199899L, 409803L, 367877L, 1650L, 
116710L, 5662L, 12497L, 613889L, 10182L, 260L, 9654L, 422947L, 
294L, 284L, 996L, 1444L, 2373L, 308L, 1522L, 288L, 937L, 291L, 
93L, 17629L, 5151L, 184L, 161L, 3273L, 1090L, 179840L, 1294L, 
922L, 826L, 725L, 252L, 715L, 6116L, 259L, 6171L, 198L, 5610L, 
5679L, 862L, 332L, 1324L, 536L, 98737L, 316L, 5608L, 5526L, 404L, 
255L, 251L, 14067L, 3360L, 3623L, 8920L, 288L, 447L, 453L, 1604687L, 
115L, 127L, 127L, 2398L, 2396L, 2396L, 2398L, 2396L, 2397L, 154L, 
154L, 154L, 154L, 887L, 636L, 227L, 227L, 354L, 7150L, 30227L, 
546013L, 545979L, 251L, 171647L, 252L, 583L, 593L, 10222L, 2660L, 
1864L, 2884L, 1577L, 1304L, 337L, 2642L, 2462L, 280L, 284L, 3463L, 
288L, 288L, 540L, 287L, 526L, 721L, 1015L, 74071L, 6338L, 1590L, 
582L, 765L, 291L, 983L, 158L, 625L, 581L, 350L, 6896L, 13567L, 
20261L, 4781L, 1025L, 722L, 721L, 1618L, 1799L, 987L, 6373L, 
733L, 5648L, 987L, 1010L, 985L, 920L, 920L, 4696L, 1154L, 1132L, 
927L, 4546L, 692L, 702L, 301L, 305L, 316L, 313L, 801L, 788L, 
14624L, 14624L, 9778L, 9778L, 9778L, 9778L, 757L, 275L, 1480L, 
610L, 68495L, 1152L, 1155L, 323L, 312L, 303L, 298L, 1641L, 1607L, 
1645L, 616L, 1002L, 1034L, 1022L, 1030L, 1030L, 1027L, 1027L, 
934L, 960L, 47L, 44L, 1935L, 1925L, 43L, 47L, 1933L, 1898L, 938L, 
830L, 286L, 287L, 807L, 807L, 741L, 628L, 482L, 500L, 480L, 431L, 
287L, 298L, 227L, 968L, 961L, 943L, 932L, 704L, 420L, 548L, 3612L, 
1723L, 780L, 337L, 780L, 527L, 528L, 499L, 679L, 308L, 1104L, 
314L, 1607L, 990L, 1156L, 562L, 299L, 16L, 20L, 287L, 581L, 1710L, 
1859L, 988L, 962L, 834L, 1138L, 363L, 294L, 2678L, 362L, 539L, 
295L, 996L, 977L, 988L, 39L, 762L, 579L, 595L, 405L, 1001L, 1002L, 
555L, 1102L, 54L, 1283L, 347L, 1384L, 603L, 307L, 306L, 302L, 
302L, 288L, 288L, 286L, 292L, 529L, 56844L, 1986L, 503L, 751L, 
3977L, 367L, 4817L, 4631L, 4609L, 4579L, 937L, 402L, 257L, 570L, 
1156L, 3297L, 3948L, 4527L, 3119L, 15227L, 3893L, 538L, 802L, 
5128L, 595L, 522L, 1346L, 449L, 443L, 323L, 372L, 369L, 307L, 
246L, 260L, 342L, 283L, 963L, 751L, 108L, 280L, 320L, 287L, 285L, 
283L, 529L, 536L, 298L, 29427L, 29413L, 761L, 249L, 255L, 304L, 
297L, 256L, 119L, 288L, 564L, 234L, 226L, 530L, 766L, 223L, 5858L, 
5568L, 481L, 462L, 8692L, 498L, 330L, 7604L, 15L, 121738L, 121833L, 
826L, 760L, 208937L, 1598L, 1166L, 446L, 85598L, 513L, 84897L, 
50239L, 308L, 1351L, 283L, 7100L, 7101L, 321L, 1019L, 287L, 253L, 
634L, 629L, 628L, 678L, 1391L, 1147L, 853L, 287L, 1174L, 287L, 
197145L, 197116L, 147L, 147L, 712L, 274L, 283L, 907L, 434L, 1164L, 
30L, 599L, 577L, 315L, 1423L, 1250L, 30L, 1502L, 296L, 348L, 
617L, 339L, 328L, 123L, 338L, 332L, 47133L, 288L, 340L, 1524L, 
1049L, 1072L, 1031L, 1059L, 1038L, 989L, 52L, 54L, 986L, 46L, 
1202L, 1272L, 43L, 785L, 761L, 16924L, 289L, 264L, 453L, 365L, 
356L, 280L, 16520L, 281L, 255L, 244L, 642L, 1003L, 951L, 921L, 
1011L, 45L, 932L, 973L, 39L, 40L, 159L, 566L, 49L, 1161L, 50L, 
200L, 215L, 361L, 377L, 980L, 935L, 882L, 281L, 280L, 1025L, 
319L, 690L, 284L, 271L, 276L, 286L, 371L, 324L, 304L, 311L, 341L, 
603L, 11566L, 270L, 286L, 342L, 326L, 11018L, 282L, 271L, 286L, 
586L, 604L, 750L, 608L, 523L, 506L, 3303L, 1079797L, 1079811L, 
530L, 2631L, 882L, 628L, 30L, 11905L, 12966L, 390995L, 322353L, 
1763L, 1755L, 709L, 713L, 365L, 351L, 205L, 393L, 284L, 39417L, 
320L, 322L, 8039L, 995L, 625L, 785L, 298L, 518L, 467L, 1050L, 
329L, 141345L, 55566L, 40318L, 287L, 220L, 309346L, 220L, 215314L, 
304L, 296L, 4301L, 4311L, 1543L, 1549L, 2876L, 2894L, 287L, 290L, 
215L, 605L, 577L, 254L, 1330L, 1863L, 140L, 328L, 284L, 291L, 
283L, 1701L, 1696L, 519L, 499L, 2440007L, 289L, 294L, 311L, 324L, 
4793L, 4808L, 249L, 205L, 219L, 638L, 2653L, 2648L, 351L, 323L, 
1056L, 327L, 794L, 1491L, 284L, 289L, 220L, 765L, 565L, 808L, 
832L, 772L, 41668L, 42307L, 6843L, 6612L, 6598L, 241164L, 531L, 
554L, 1246L, 459L, 971504L, 805L, 2615L, 2290L, 2086L, 2063L, 
2685L, 2704L, 275L, 461L, 458L, 317L, 889L, 335L, 974L, 959L, 
253142L, 257L, 250L, 282L, 293L, 666L, 4991L, 287L, 588L, 555L, 
3585L, 3195L, 481L, 2405L, 135266L, 571L, 1805L, 365L, 340L, 
232L, 224L, 298L, 3682L, 3677L, 577L, 571L, 288L, 297L, 293L, 
291L, 256L, 214L, 1257L, 1271L, 65471L, 65471L, 65476L, 65476L, 
4680L, 4675L, 339L, 329L, 284L, 288L, 4859L, 4851L, 2534L, 24222L, 
330684L, 330684L, 2116L, 282L, 412L, 429L, 2324L, 1978L, 502L, 
286L, 943149L, 256L, 288L, 286L, 1098L, 1125L, 442L, 240L, 182L, 
2617L, 1068L, 25204L, 170L, 418L, 1867L, 8989L, 1804L, 1240L, 
6610L, 1237L, 1750L, 1565L, 1565L, 3662L, 1803L, 218L, 172L, 
780L, 1418L, 2390L, 7514L, 23214L, 1464L, 1060L, 1503L, 308802L, 
308357L, 21691L, 298817L, 289875L, 4442L, 289284L, 235L, 456L, 
676L, 897L, 289109L, 1865L, 288030L, 287899L, 287767L, 287635L, 
286639L, 286509L, 286157L, 1427L, 2958L, 4340L, 5646L, 282469L, 
7016L, 279353L, 278568L, 316L, 558L, 3501L, 1630L, 278443L, 1360L, 
828L, 1089L, 278430L, 278299L, 278169L, 278035L, 277671L, 277541L, 
277400L, 277277L, 276567L, 285L, 555L, 834L, 1084L, 1355L, 5249L, 
14776L, 1441L, 755L, 755L, 70418L, 3135L, 1026L, 1497L, 949663L, 
68L, 526058L, 1692L, 150L, 48370L, 4207L, 4088L, 197551L, 197109L, 
196891L, 196634L, 2960L, 194319L, 194037L, 3008L, 3927L, 178762L, 
178567L, 403L, 178124L, 2590L, 177405L, 177179L, 301L, 328L, 
390685L, 390683L, 575L, 1049L, 819L, 367L, 289L, 277L, 390L, 
301L, 318L, 3806L, 3778L, 3699L, 3691L)

7
이 다이어그램은 배포판이 베타임을 나타내지 않습니다 . 그것은 왜도 및 첨도는 말한다 일관 쉽게 예를 들어 로그 정규 될 수 있지만, 아마 실제로 아니다 - 베타와 어떤 그 다이어그램에라는 이름의 분포.
Glen_b-복지 모니카

@Glen_b : 감사합니다. 나는 로그 노멀에 대한 qqplot도 포함했지만 이것조차도 적합하지 않은 것 같습니다. 시도해 볼 것을 권장하는 다른 것이 있습니까? 질문에 내 데이터를 포함 시켰습니다.
Legend

4
Cullen과 Frey가 함께 무엇인가를 썼던 90 년 전인 1909 년 Rhind에 의해 소개 된 (그리고 그 이후 세대로 잘 알려짐) 왜 이것을 "Cullen Frey"플롯이라고 부르는지 궁금합니다. Pearson 배포 시스템에 관한 Wikipedia 기사를 참조하십시오 .
whuber

3
우리는 Stigler 's Eponymy의 법칙이 행동 하는 것을보고 있습니다. :-)
whuber

3
@whuber Rull의 Pearson 공간 시각화가 아닌 Cullen and Frey 플롯입니다. 그것은 부스트 ​​값의 묘사, 균일 분포의 오버레이 등과 같이 분명히 다른 특징을 가지고 있습니다. Rhind의 그래프를 기반으로하지만 과학의 모든 것은 그 이전의 무언가를 기반으로합니다 (우리는 할 필요가 없습니다. 불의 원래 발명자 및 바퀴에 모든 것을 귀속하십시오 ...).
Hack-R

답변:


34

문제는 실제 데이터가 이름을 지정할 수있는 특정 배포를 반드시 따르는 것은 아니며 실제로 그렇게된다면 놀라 울 것입니다.

따라서 12 가지 가능성을 언급 할 수 있지만, 이러한 관측을 생성하는 실제 프로세스는 아마도 제가 제안 할 수있는 것이 아닐 것입니다. 표본 크기가 증가하면 잘 알려진 분포를 거부 할 수 있습니다.

모수 분포는 종종 완벽한 설명이 아닌 유용한 소설입니다.

먼저 로그 데이터를 먼저 일반 qqplot에서보고 커널 밀도 추정값으로보고 어떻게 나타나는지 살펴 보겠습니다.

qqnorm 로그 (x)

이런 식으로 수행 된 QQ 플롯에서 가장 평평한 경사 섹션은 피크를 보는 경향이 있습니다. 이것은 6에 가까운 피크와 약 12.3에 대한 명확한 제안을 가지고 있습니다. 로그의 커널 밀도 추정치는 같은 것을 보여줍니다.

커널 밀도 추정

두 경우 모두, 로그 시간 의 분포 가 왜곡되어 있음을 나타내지 만 명백하게 단조로운 것은 아닙니다. 분명히 주요 피크는 약 5 분 정도입니다. 아마도 로그 시간 밀도에 두 번째 작은 피크가있을 수 있으며 아마도 60 시간 정도의 어딘가에있는 것으로 보입니다. 아마도 두 가지 질적으로 다른 수리 유형이있을 수 있으며 분포는 두 가지 유형의 혼합을 반영합니다. 또는 하루 종일 수리가 하루 종일 일어 났을 때 시간이 더 걸리는 경향이 있습니다 (즉, 일주일 이상 피크를 반영하는 것이 아니라 하루 만에 안티 피크를 반영 할 수 있음) 수리하는 데 하루 미만보다 길어지면 작업이 '느려지는'경향이 있습니다.

시간 로그의 로그조차도 약간 오른쪽으로 치우칩니다. 두 번째 피크가 분명한 곳에서 네 번째 루트의 역수를 뺀 강력한 변환을 살펴 보겠습니다.

히스토리 -1 / (x ^ 0.25)

표시된 줄은 5 분 (파란색)과 60 시간 (녹색 파선)입니다. 보시다시피, 5 분 미만의 피크와 60 시간 이상의 다른 피크가 있습니다. 상단 "피크"는 약 95 번째 백분위 수에 있으며 변환되지 않은 분포의 피크에 반드시 가까울 필요는 없습니다.

또한 10 분에서 20 분 사이의 넓은 피크로 7.5 분쯤에 또 다른 딥이 제안됩니다. 거기에 내재 된 작업 시간이 있다면, 몇 분 이상 끊어지지 않은 기간에 집중할 수있는 인간 능력의 기능만큼이나 단순한 것일 수도 있습니다.)

그것은 2 성분 (2 피크) 또는 오른쪽으로 치우친 분포의 3 성분 혼합으로 프로세스를 합리적으로 설명하지만 완벽한 설명은 아닙니다.

패키지 logspline는 log (time)에서 4 개의 피크를 선택하는 것으로 보입니다.

로그 신 플롯

30, 270, 900 및 270K 초에 가까운 피크 (30s, 4.5m, 15m 및 75h).

다른 변환과 함께 로그 스플라인을 사용하면 일반적으로 4 개의 피크가 있지만 중심이 약간 다릅니다 (원래 단위로 변환 된 경우). 이것은 변형과 함께 예상됩니다.


2
+1 이것은 내 정보의 금광입니다. 나는 당신이 작성한 모든 것을 소화하려고 노력하고 있으며, 지금 까지이 유형의 문제에 실제로 접근하는 방법을 가르쳐주었습니다. 더 강력한 변화의 요점은 무엇입니까? 어떻게 생각해 냈습니까? 경험이 있거나 그러한 비 전통적인 변형을 선택하는보다 공식적인 방법이 있습니까? 통계 커뮤니티에서 이것이 일반적인 지혜라면 내 무지를 용서해주십시오. 그러나 당신이 저에게 굉장히 느끼는 이런 종류의 "탐정"작업을 배우기위한 좋은 참고 자료를 알려 주시면 감사하겠습니다.
Legend

3
EDA : Tukey, JW (1977)에 대한 적절한 참조. 탐색 적 데이터 분석 . 애디슨-웨슬리, 리딩, MA.
Glen_b-복귀 모니카

3
위의 답변에서 언급했듯이 혼합 분포를 피팅 할 수 있습니다. 풍속에 이러한 하이브리드를 사용하는 논문이 있습니다. 분포 중 일부는 3 가지 다른 분포의 조합이라고 생각합니다. journal-ijeee.com/content/3/1/27
rbatt

2
혼합물의 경우 원하는 구성 요소 수, 혼합 할 배포 또는 배포 (원래 게시 한 내용) 및 구성 요소의 매개 변수를 식별하는 방법을 파악해야합니다. 성분 비율. 이러한 작업에 도움이되는 여러 패키지가 있습니다. 다음 은 그중 하나에 대한 논문 (pdf)입니다. 혼합물 모델링 패키지 중 일부는 군집 분석 및 유한 혼합물 모델링 작업 뷰에 언급되어 있습니다 ... (ctd)
Glen_b -Reinstate Monica

1
(ctd) ... 다른 예제 패키지는 rebmix 입니다. 위의 나 자신의 분석은 더 간단한 탐색 적 접근에 기초했지만 현재로서는 완전히 식별 된 혼합 모델이 아닙니다. 4 성분 혼합물이 필요할 수 있음을 나타냅니다. 내 대답의 마지막 부분-로그 스플라인이있는 부분은 복잡한 밀도를 모델링하는 다른 (비 파라 메트릭) 접근법입니다.
Glen_b-복지 주 모니카

12

descdist 함수에는 분포를 부트 스트랩하여 플롯 된 추정치와 관련된 정밀도를 얻을 수있는 옵션이 있습니다. 시도해 볼 수 있습니다.

descdist(time_to_repair, boot=1000)

내 생각에 귀하의 데이터는 단순한 베타 배포 이상과 일치합니다.

일반적으로 베타 분포 는 연속 비율 또는 확률의 분포입니다. 예를 들어, t- 검정에서 p- 값의 분포는 귀무 가설이 참인지 여부와 분석의 검정력에 따라 베타 분포의 특정 사례입니다.

수리 할 시간의 분포가 실제로 베타 일 가능성은 거의 없습니다. 그래프는 데이터의 기울기와 첨도를 지정된 분포와 비교하는 것만 유의하십시오. 베타는 0과 1에 묶여 있습니다. 귀하의 데이터는 그렇지 않지만 그 그래프는 그 사실을 확인하지 않을 것입니다.

반면 Weibull 분포 는 지연 시간에 일반적입니다. 불확실성을 측정하기 위해 부트 샘플을 플롯하지 않은 상태에서 수치를 보았을 때 데이터가 Weibull과 일치한다고 생각합니다.

또한 데이터가 Weibull인지 확인할 수 있습니다 . 차 패키지에서 qqPlot 을 사용하여 qq-plot 을 만드는 것이 좋습니다.


2
+1 감사합니다. 귀하의 답변을 이해하고 bootstrap있는 동안 descdist함수 에서 매개 변수가 500으로 설정된 질문을 방금 업데이트했습니다 . 그리고 네, 내 가치가 [0,1]에 있지 않다는 것이 맞습니다. 이 그래프를 사용하여 그 사실을 보여줄 수있는 방법이 있습니까? 곧 QQPlot으로 질문을 업데이트하려고 시도합니다.
Legend

방금 패키지 qqPlot에서 내 질문을 업데이트했습니다 car.
Legend

흠. qq-lot은 Weibull 분포가 잘 맞는 것처럼 보이지 않습니다.
gung-모니 티 복원

1
그리고 로그 정규 분포에 대해 하나 더. 데이터로 처리해야하는 전처리를 권장합니까? 아니면 가장 적합한 것을 추정하는 더 좋은 방법이 있습니까? 나는 여전히 내 맥락에서 Cullen / Frey 그래프를 어떻게 활용할 수 있는지 궁금합니다.
Legend

또한 도움이되는 경우 마지막에 사용중인 데이터로 질문을 업데이트했습니다.
Legend

3

가치가있는 것에 대해, Mathematica의 FindDistribution 루틴을 사용하면 대수는 거의 두 정규 분포의 혼합입니다.

여기에 이미지 설명을 입력하십시오

x=ln(data)

f(x)=0.0585522e0.33781(x11.7025)2+0.229776e0.245814(x6.66864)2

3 가지 분포를 사용하여 혼합 분포를 만드는 것은

여기에 이미지 설명을 입력하십시오

f(x)=0.560456 Laplace(5.85532,0.59296)+0.312384 LogNormal(2.08338,0.122309)+0.12716 Normal(11.6327,1.02011),
숫자는
{0.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2x00.472592e1.68646(5.85532x)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)20<x<5.855320.472592e1.68646(x5.85532)+0.0497292e0.480476(x11.6327)2+1.01893xe33.4238(ln(x)2.08338)2Otherwise

다른 많은 가능성이 있습니다. 예를 들어, 3 개의 정규 분포를 데이터의 1/10 제곱에 적합합니다. Mathematica 코드의 경우이 링크에 따라 추가 방법이 있습니다.th

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.