기본 데이터 : '1,'[good] '2,'[middle] 또는 '3'[bad]와 같이 평가 대상으로 ~ 1,000 명을 보유하고 있습니다. 이는 미래에 사람들에게 예측하려는 값입니다. . 또한 성별 (범주 : M / F), 연령 (숫자 : 17-80) 및 인종 (범주 : 흑인 / 백인 / 라티노)과 같은 인구 통계 정보가 있습니다.
주로 네 가지 질문이 있습니다.
처음에 다중 회귀 분석으로 위에서 설명한 데이터 세트를 실행하려고했습니다. 그러나 최근에 내 부양 가족이 연속 변수가 아닌 순서 요소이기 때문에 이런 식으로 서수 로지스틱 회귀를 사용해야한다는 것을 알았습니다. 나는 처음에와 같은 것을 사용하고 있었고
mod <- lm(assessment ~ age + gender + race, data = dataset)
, 아무도 올바른 방향으로 나를 가리킬 수 있습니까?거기에서 내가 편안하다고 생각하는 계수를 얻는다고 가정하면 x1, x2 등의 숫자 값만 연결하는 방법을 이해합니다. 그러나 인종, 예를 들어 여러 응답이있는 위치를 처리하는 방법은 무엇입니까? / 라틴계? 따라서 백인 계수가 0.289라고 말하고 내가 예측하려고하는 사람이 백인이라고하면 수치가 아니기 때문에 어떻게 다시 연결합니까?
또한 인종, 성별 등의 임의의 값이 누락되었습니다.이 값이 왜곡되지 않도록 추가 작업을 수행해야합니까? (내 데이터 세트가 R-Studio에로드 될 때, 누락 된 데이터가로로드 될
NA
때 R은 다음과 같이(162 observations deleted due to missingness)
말하지만 공백으로로드되면 아무것도하지 않습니다.)이 모든 것이 잘 작동한다고 가정하고 성별, 연령 및 인종을 예측하려는 새로운 데이터가 있다고 가정하면 R에서 새로운 계수가있는 공식을 통해 모든 것을 실행할 수있는 더 쉬운 방법이 있습니까? 수동으로하는 것이 아니라? (이 질문이 여기에 적합하지 않으면 R 포럼으로 다시 가져갈 수 있습니다.)