좋은 변수 이름은 다음과 같습니다.
a) 짧고 입력하기 쉬운
b) 기억하기 쉬운
c) 이해할 수 있고 의사 소통.
나는 아무것도 잊고 있습니까? 일관성은 찾아야 할 것입니다. 내가 말한 방법은 일관된 명명 규칙이 위의 품질에 기여한다는 것입니다. 일관성은 (b) 리콜 용이성 및 (c) 이해 가능성에 기여하지만, 다른 요소가 종종 더 중요합니다. (a) 이름 길이 / 입력 용이성 (예 : 모든 소문자)과 (c) 이해 가능성 사이에는 분명한 상충 관계가 있습니다.
수천 명의 사람들이 데이터를 사용하고 있기 때문에 이러한 문제에 대해 약간의 생각을 투자하고 있으며 많은 사람들이 내 코드 를 사용 하여 데이터를 준비하고 일부 유형의 분석을 촉진하기를 바랍니다. 청소년 건강에 대한 종단 연구에서 나온 데이터는 여러 데이터 세트로 분류됩니다. 첫 번째 단계는 가장 일반적으로 사용되는 데이터 세트에서 227 변수를 가져 와서 코딩하고 더 의미있는 이름을 지정하는 것이 었습니다. 원래 변수 이름은 "aid", "s1", "s2"와 같이 이름이 "aid2", "age"및 "male.is"로 바뀌 었습니다. 다른 데이터 세트에는 연구원의 목표가 무엇인지에 따라 병합 될 수있는 수천 개의 다른 변수가 있습니다.
변수 이름을 바꾸는 한 변수를 최대한 유용하게 만들고 싶습니다. 내가 고려한 몇 가지 문제는 다음과 같습니다. 지금까지 소문자 만 사용했으며 대시 또는 밑줄을 사용하지 않았으며 매우 구체적인 목적을 위해 마침표 만 사용했습니다. 이는 단순성과 일관성이라는 장점이 있으며 대부분의 변수에 문제를 일으키지 않습니다. 그러나 상황이 더욱 복잡해지면서 일관성을 깨고 싶은 유혹을 느낍니다. 예를 들어, 변수 "talkprobmsum"을 사용하면 "talkProbMSum"또는 "talk.prob.m.sum"으로 읽는 것이 더 쉬울 것입니다. 그러나 대문자 나 마침표를 사용하여 단어를 구분하려는 경우 모든 변수에 대해 그렇게해서는 안됩니까?
일부 변수는 한 번 이상 기록됩니다. 예를 들어 .is 또는 .ih를 추가하여 학교 또는 가정 설문지에서 온 것인지 여부를 나타냅니다. 그러나 아직 모르는 반복이 있습니다. 모든 변수의 이름에 데이터 세트에 대한 참조를 추가하는 것이 더 좋습니까?
많은 변수를 그룹화하고 표준화해야합니다. 이렇게 한 방법은 남성과 학교별로 z 점수를 의미하는 .zms를 추가하는 것입니다.
일반적이거나 구체적인 생각이나 자료는 대단히 감사합니다. 내 코드 중 일부와 변수 이름 목록이 포함 된 설명 통계는 이 저장소 를 참조하십시오 . 이 코드를 공유하는 이유를 여기 에서 간략하게 설명 했지만 여기 에서 약간 공개 되었지만 마지막 두 링크는 변수 명명 규칙 문제와 관련이 없습니다. 추가 : 나는 주석에서 명백한 혼란을 피하기 위해 주로 단락을 이동하면서 가볍게 편집했습니다. 생각해 주셔서 감사합니다!
2016-09-05 추가 : Hadley Wickham의 R 스타일 가이드 및 Google의 R 스타일 가이드에 주목할 가치가 있습니다 ... Hadley는 말합니다 :
변수 및 함수 이름은 소문자 여야합니다. 밑줄 (_)을 사용하여 이름 내에서 단어를 구분하십시오.
구글은 말한다 :
식별자에 밑줄 (_) 또는 하이픈 (-)을 사용하지 마십시오. 식별자는 다음 규칙에 따라 이름을 지정해야합니다. 변수 이름의 선호되는 형식은 모두 소문자와 점으로 구분 된 단어 (variable.name)이지만 variableName도 허용됩니다. 함수 이름은 초기 대문자를 가지며 점은 없습니다 (FunctionName). 상수는 함수와 같은 이름이지만 초기 k를 갖습니다.
R
것이 아니라 데이터를 문서화하고 사용하는 적절한 관행에 관한 것 같습니다.