데이터를 사용하는 방식에 따라 다른 단어를 사용합니다. 구성 데이터 세트가 놓여 있고 확인 알고리즘으로 알고리즘을 지적한 경우 "합성"이라는 단어는 괜찮습니다.
그러나 종종이 유형의 데이터를 사용할 때마다 알고리즘의 기능을 과시하려는 의도로 데이터를 발명했습니다. 다시 말해, 나는 "좋은 결과"를 얻기위한 특정 목적을 위해 데이터를 발명했습니다. 그러한 상황에서 나는 데이터에 대한 나의 기대치에 대한 설명과 함께 "contrived"라는 용어를 좋아한다. 이것은 내가 거짓말을 한 임의의 합성 데이터 세트에서 알고리즘을 지적했다고 생각하는 사람이 실수하기를 원하지 않기 때문에 실제로 잘 작동했습니다. 알고리즘을 제대로 작동시키기 위해 실제로 선택한 데이터 (실제로 만드는 시점까지)를 가지고 있다면 그렇게 말합니다. 그러한 결과는 내 알고리즘이 할 수 있다는 증거를 제공하기 때문입니다잘 작동하지만 알고리즘이 일반적으로 잘 작동 할 것으로 예상 할 수있는 매우 약한 증거 만 제공합니다 . "contrived"라는 단어는 "우수한 결과"를 염두에두고 데이터를 우선적으로 선택했다는 사실을 잘 요약합니다.
" 사기 데이터 의 인상을 주는가?"
아니,하지만, 어떤 데이터 세트의 소스와 명확히하는 것이 중요합니다 귀하의 모든 데이터 세트에 결과를보고 할 때 실험자 등의 사전 기대. "사기" 라는 용어 에는 무언가를 덮거나 완전히 거짓말을 한 양상이 명시 적으로 포함됩니다. 과학에서 사기 행위를 피하는 # 1 방법은 단순히 데이터의 특성과 기대에 대해 정직 하고 솔직한 것입니다. 다시 말해서, 데이터가 제조되고 어떤 식 으로든 말을 하지 않으면 데이터가 제조되지 않았거나 더 나쁘게 데이터가 가공되지 않은 정렬로 수집된다고 주장 하는 경우가 있습니다 방법을, 그 다음은 이다"사기". 그렇게하지 마십시오. "합성"과 같이 "보다 잘 들리다"라는 "조립 된"이라는 용어에 동의어를 사용하려는 경우 아무도 당신을 잘못 생각하지는 않지만 동시에 다른 사람이 당신을 제외하고는 그 차이를 느끼지 못할 것이라고 생각합니다.
참고 사항 :
실제로 사후 설명 인 선험적 기대가 있다고 주장하는 상황은 덜 분명하다 . 이것은 또한 부정한 데이터 분석입니다.
알고리즘의 기능을 "보여주는"의도로 데이터를 선택하면 합성 데이터의 경우가 종종 있습니다.
이것이 사실 인 이유를 명확히하기 위해, "정상적인"과학적 방법이 다음과 같이 작동한다는 것을 고려하십시오 : 1) 모집단 가 선택됨 2) 가설 가 결정됨 3) 가 (또는 ). 과학 은 이 좁은 정의 내 에서 작동 할 필요는 없지만 이것이 "확인"분석이라고하며 일반적으로 제공 할 수있는 가장 강력한 증거로 간주됩니다. 사건의 순서는 증거의 강도와 관련이 있기 때문에 구체적으로 기록하는 것이 중요합니다.DHHDD
가설 1) : 특히, "인위적인"데이터의 경우에는, 처리는 종종 이상과 같이 동작 2) 인구, 잉태 3), 선택 대하여 시험 . 예를 들어 알고리즘을 테스트하는 경우 합성 데이터 세트를 발명하기 전에 새롭고 멋진 알고리즘이 "좋은 일을한다"는 가설이 생길 수 있습니다. 이 경우에는 언급해야합니다. 은 적어도 당신은 안 그 독자를 이끌 것이기 때문에,에 "확증"방식으로 일어난 사건은 증거가 실제보다 더 강한 것으로 결론을 목적으로 제정 된 것이다.HDHD
당신이 한 일에 대해 정직 하고 솔직한 한 ,이 작업에는 아무런 문제가 없습니다 . "좋은 결과"를 제공하는 데이터 집합을 만드는 데 어려움을 겪었다면 그렇게하십시오. 독자에게 데이터 분석에서 취한 단계를 알리는 한, 가설에 대한 증거를 효과적으로 평가하는 데 필요한 정보가 있습니다. 당신이 정직 하지 않거나 직설적 이지 않으면 , 당신의 증거가 실제보다 강하다는 인상을 줄 수 있습니다. 증거를 실제보다 강하게 보이기 위해 정직 하고 솔직 하지 않은 경우 , 실제로는 사기입니다.
어쨌든, 이러한 데이터 세트에 대해 "고려 된"이라는 용어를 선호하고 가설을 염두에두고 선택되었다는 간단한 설명을 선호하는 이유가 여기에 있습니다. "고려"는 합성 데이터 세트를 만들었을뿐만 아니라 데이터 세트를 만들기 전에 내 가설이 이미 존재했다는 사실을 반영하는 특별한 의도로 그렇게했다는 의미를 전달합니다.
예를 들어 설명하기 위해 : 임의의 시계열 분석을위한 알고리즘을 만듭니다. 시계열을 가리킬 때이 알고리즘이 "좋은 결과"를 제공 할 것이라고 가정합니다. 이제 다음 두 가지 가능성을 고려하십시오. 1) 알고리즘이 잘 수행 할 것으로 예상되는 일종의 합성 데이터를 작성합니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 2) 일부 합성 데이터 세트 는 사용할 수 없기 때문에 사용할 수 있습니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 이 두 상황 중 어느 것이 알고리즘이 임의의 시계열에서 잘 수행된다는 더 좋은 증거를 제공합니까? 분명히 옵션 2입니다. 그러나 옵션 1 또는 옵션 2에서 "알고리즘 적용했다"는 것은 쉽게보고 할 수 있습니다A합성 데이터 세트 . 결과는 그림 표시됩니다 . "문맥이없는 경우 독자 는 옵션 1의 경우 그렇지 않은 경우 이러한 결과가 확인 적이라고 가정 (옵션 2) 한다고 가정 할 수 있습니다 . 따라서 독자는 옵션을 가지고 있습니다 1, 증거가 실제보다 강하다는 인상을 받았습니다.Dx.y
tl; dr
"합성", "구상 된", "조립 된", "가상"등 원하는 용어를 사용하십시오. 그러나 사용하는 용어로는 결과가 오도되지 않도록하기에 충분하지 않습니다 . 데이터에 대한 기대치 및 선택한 데이터를 선택한 이유를 포함하여 데이터가 어떻게 발생했는지에 대해 보고서에서 명확하게 확인하십시오.