관련 합계에서만 가방에 과일의 질량을 추정합니까?


9

우리 대학의 강사가 이와 같은 질문을했습니다 (수업이 끝나서 수업에 참여하지 않았기 때문에 숙제가 아님). 접근 방법을 알 수 없습니다.

문제는 각각 다른 종류의 과일을 포함하는 2 봉지에 관한 것입니다.

첫 번째 가방에는 다음과 같이 무작위로 선택된 과일이 들어 있습니다.

+ ------------- + -------- + --------- +
| 직경 cm | 질량 g | 썩은? |
+ ------------- + -------- + --------- +
| 17.28 | 139.08 | 0 |
| 6.57 | 91.48 | 1 |
| 7.12 | 74.23 | 1 |
| 16.52 | 129.8 | 0 |
| 14.58 | 169.22 | 0 |
| 6.99 | 123.43 | 0 |
| 6.63 | 104.93 | 1 |
| 6.75 | 103.27 | 1 |
| 15.38 | 169.01 | 1 |
| 7.45 | 83.29 | 1 |
| 13.06 | 157.57 | 0 |
| 6.61 | 117.72 | 0 |
| 7.19 | 128.63 | 0 |
+ ------------- + -------- + --------- +

두 번째 백에는 첫 번째 백과 같은 상점에서 무작위로 선택한 6 개의 과일이 들어 있습니다. 지름의 합은 64.2 cm이고 4가 썩었습니다.

두 번째 백의 질량을 추정하십시오.

직경과 질량이 보통으로 분포 된 두 가지 종류의 과일이있는 것처럼 보이지만 진행 방법에 대해 잃어 버렸습니다.


6
흥미로운 질문이지만 이상한 데이터 : 비중은 0.78에서 0.05까지입니다. 어쩌면 누군가가 실제 과일을 위해 스티로폼 장식을 착각했을까요? :-)
whuber

그 질문은 과일이 무엇으로 만들어 졌는지를 말하지 않습니다. 실제 가방 자체에도 무게가 없다고 가정 할 수 있다고 생각합니다. 문제를 어떻게 해결합니까?
rutilusk

3
저의 의견은 소량의 지저분한 데이터를 분석 할 때 데이터의 의미에 대한 지식에 의존한다는 것입니다. 이 숫자는 분명히 알려진 종류의 "과일"을 설명하지 않기 때문에 그러한 영역 지식에 호소 할 수 없습니다. (예를 들어, 우리는 이러한 데이터의 일부가 "정상적으로 배포되어야한다"고 가정 할 근거가 없습니다. 이는 합리적인 답변을 개발하는 것이 어렵거나 불가능하며 논란의 여지가 있습니다. 모든 접근 방식의 성능을 평가할 수 있습니다.
whuber

그러나 스티로폼 과일은 썩을 수 없습니다. 아마도 과일은 장축을 따라 측정 된 "직경"과 함께 구 상체입니다. 적어도 두 종류의 과일이있는 것 같습니다. 따라서 특정 중력이 1에 가까워지면 레몬의 크기와 모양이 작아집니다. 길이는 약 1/2 피트, 가로는 2 인치 미만입니다. 이 아이디어의 어려움은 더 짧은 축을 "직경"으로 묘사하는 것이 더 자연스럽게 보인다는 것입니다.
Scortchi-Monica Monica 복원

답변:


1

데이터를 플로팅하여 시작해 봅시다. 이것은 매우 제한된 양의 데이터이므로 많은 가정 으로 다소 임시적 입니다.

rotten <- c(0,1,1,0,0,0,1,1,1,1,0,0,0)
rotten <- as.factor(rotten)
mass <- c(139.08, 
        91.48,
        74.23,
        129.8,
        169.22,
        123.43,
        104.93,
        103.27,
        169.01,
        83.29,
        157.57,
        117.72,
        128.63)
diam <- c(17.28,
        6.57,
        7.12,
        16.52,
        14.58,
        6.99,
        6.63,
        6.75,
        15.38,
        7.45,
        13.06,
        6.61,
        7.19)

plot(mass,diam,col=rotten,lwd=2)
title("Fruits")

따라서 이것은 데이터이며, 빨간 점은 썩은 과일을 나타냅니다.

과일 플롯

두 종류의 과일이 있다고 가정하면 옳습니다. 내가 가정하는 것은 다음과 같습니다.

  • 직경은 과일을 두 그룹으로 나눕니다.
  • 직경이 10보다 큰 과일은 한 그룹에, 다른 그룹은 더 작은 그룹에 속합니다.
  • 큰 과일 그룹에는 썩은 과일이 하나뿐입니다. 과일이 큰 그룹에 있다면 썩은 것이 체중에 영향을 미치지 않는다고 가정 해 봅시다. 해당 그룹에는 하나의 데이터 포인트 만 있기 때문에 이것은 필수입니다.
  • 과일이 작은 과일이면 썩은 것이 덩어리에 영향을 미칩니다.
  • 변수 diam과 mass가 정상적으로 분포되어 있다고 가정합시다.

지름의 합이 64.2cm라고 가정하기 때문에 과일 2 개가 크고 과일 4 개가 작을 가능성이 높습니다. 이제 무게에 대한 세 가지 경우가 있습니다. 썩은 과일은 2 개, 3 개 또는 4 개가 있습니다 ( 썩은 과일은 질량에 영향을 미치지 않습니다 ). 이제이 값을 계산하여 질량에 한계를 설정할 수 있습니다.

작은 과일 수가 썩을 확률을 경험적으로 추정 할 수 있습니다. 우리는 확률을 사용하여 썩은 과일의 수에 따라 질량의 추정치를 가중합니다.

samps <- 100000
stored_vals <- matrix(0,samps,2)
for(i in 1:samps){
  numF <- 0 # Number of small rotten
  numR <- 0 # Total number of rotten
  # Pick 4 small fruits
  for(j in 1:4){
    if(runif(1) < (5/8)){ # Empirical proportion of small rotten
      numF <- numF + 1
      numR <- numR + 1
    } 
  }
  # Pick 2 large fruits
  for(j in 1:2){
    if(runif(1) < 1/5){# Empirical proportion of large rotten
      numR <- numR + 1
    }
  }
  stored_vals[i,] <- c(numF,numR)
}

# Pick out samples that had 4 rotten
fourRotten <- stored_vals[stored_vals[,2] == 4,1]
hist(fourRotten)

table(fourRotten)

# Proportions 
props <- table(fourRotten)/length(fourRotten)

massBig <- mean(mass[diam>10])
massSmRot <- mean(mass[diam<10 & rotten == 1])
massSmOk <- mean(mass[diam<10 & rotten == 0])

weights <- 2*massBig + c(2*massSmOk+2*massSmRot,1*massSmOk+3*massSmRot,4*massSmRot)

Est_Mass <- sum(props*weights) 

우리에게 691.5183g 의 최종 견적을 제공 합니다. 나는 결론에 도달하기 위해 가정 한 대부분의 가정을해야한다고 생각하지만, 더 현명한 방법으로이 작업을 수행 할 수 있다고 생각합니다. 또한 나는 썩은 작은 과일의 수의 확률을 얻기 위해 경험적으로 샘플링합니다. 그것은 단지 게으름이며 "분석적으로"수행 될 수 있습니다.


당신의 기여에 감사드립니다. "가정"이라고하는 대부분의 주장은 실제로 탐색 적 분석에 근거한 결론 인 것 같습니다 . 결과가 이러한 결론의 정확성에 어떻게 의존하는지 분석하는 것이 중요합니다. 그럼에도 불구하고, 그러한 작은 데이터 세트가 7 개의 중요한 수치로 결과를 지원할 수는 없다는 것이 분명합니다! 오류 가능성에 대한 평가를 제공하는 것이 특히 유용합니다. 상대적으로 클 것이므로 알아야 할 것입니다.
whuber

@ whuber 의견에 감사드립니다. 저녁 저녁에 변형을 추정하기 위해 더 많은 것을 추가 할 수 있습니다. 가장 간단한 방법은 최종 계산에 사용하는 세 그룹의 질량에 대한 오차 추정치를 얻고이를 기반으로 예측 간격을 계산하는 것입니다. 그러나 OP는 1 년 동안 활동하지 않았으므로이 답변을 받아 들일 것으로 기대하지 않습니다. 나는 여전히이 예제가 아주 적은 양의 데이터로 얻을 수있는 좋은 장난감 문제라고 생각합니다.
Gumeo

나는 실제로 자신이 불확실하다는 많은 데이터 파생 결론에 달려 있기 때문에 실제로 귀하의 답변에서 제안한 것보다 훨씬 적은 정보를 얻는 것을 제안하려고합니다.
whuber

@ whuber 예, 완전히 맞습니다. 그러나 내가 만드는 모든 가정 / 결론에 의해 전파 된 오류를 추정하는 것은 그리 간단하지 않습니다. 나는 또한 두 번째 봉지에 과일의 직경의 합이 64.2cm이고 OP에 두 그룹의 과일이있을 수 있다고 언급 한 사실에 크게 영향을 받았다.
Gumeo

1
@ whuber 나는 이것에 대해 생각하고 이것을 도전으로 삼을 것입니다. 이 질문을 나중에 다시 방문하겠습니다!
Gumeo

0

다음과 같은 접근법을 제안합니다.

  1. 4 개의 썩은 조건을 만족하는 6 개의 튜플을 모두 생성하십시오. 그들은(64)(72).
  2. 생성 된 튜플 중에서 직경 조건을 만족하는 튜플 중에서 선택하십시오.
  3. 선택한 튜플의 평균 무게를 계산합니다 (일반적인 산술 평균).

이 모든 것은 간단한 스크립트로 관리 할 수 ​​있습니다.


5
이 방법이 왜 효과가 있습니까? 어떤 가정을합니까? 답을 얻을 수 있는지 여부를 확인하려고 시도 했습니까?
whuber

0

가장 간단한 것부터 복잡한 것까지 다양한 접근법이 있습니다.

  1. 6 (평균 질량)
  2. 6 (평균 부피) (평균 밀도)
  3. 4 (평균 썩은 질량) + 2 (평균 썩지 않은 질량)
  4. 4 ((평균 썩은 부피) + 2 (평균 썩지 않은 부피)) (평균 밀도)
  5. 4 (평균 썩은 부피) (평균 썩은 밀도) + 2 (평균 썩지 않은 부피) (평균 썩지 않은 밀도)

. . .

조합 방법

접근 방식은 계산이 간단하거나 순서가 좋은 순서가 아닌 순서대로 정렬됩니다. 어떤 접근 방식을 선택할지는 인구의 어떤 특성이 알려 지거나 가정되는지에 달려 있습니다. 예를 들어, 점포 모집단의 과일 덩어리가 일반적으로 분포되고 직경 및 썩음 상태와 무관하면 더 복잡한 접근법을 사용하는 이점 (또는 여러 변수의 샘플링 오류의 단점)없이 가장 간단한 첫 번째 접근법을 사용할 수 있습니다 . 독립적으로 동일하게 분포 된 랜덤 변수가 아닌 경우, 모집단에 대한 알려진 또는 추정 된 정보에 따라 더 복잡한 선택이 더 나을 수 있습니다.


3
왜 이것들 중 좋은 것이 있습니까? 그들은 어떤 가정을합니까? 하나는 어떻게 다른 하나를 선택합니까? (어떤 의미에서 오름차순의 순서대로되어 있습니까?)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.