ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [074:190429m] 기술통계,추론통계/ 데이터분석 검정비결/ 표본추출비결/ 분할표(table,xtabs)/ 기술통계보고서/ 카방금곱분석/ 적합도검정실습(주사위, 완두콩) 와~~
    카테고리 없음 2020. 2. 29. 17:16

    - 기술통계: 수집한 데이터의 주요 특성을 분석 및 기술하는 통계비결 ex)평균치(mean), 중위수(median), 최빈수(mode), 최대치, 최소치, 범위(range), 분산(variance), 보통편차(standard deviation) 등-추론통계: 수집한 데이터에서 표본(sample)을 추출, 특성을 파악하여 모두 데이터(모집단)의 특성으로 일반화할 수 있는지를 판단하여 모집단의 특성을 추정하는 것을 목적으로 한다. 간단하게 표본을 바탕으로 앞으로의 일을 예측하는 데 초점을 둔다.보통선거시즌후보자지지율조사(참조:http://www.playnexacro.com/index.html#show:article))


    >


    ​​​


    (하나)척도(자료가 수집될 때 관찰된 현상에 의해서 하봉잉의 값을 할그테하기 위해서 사용되는 측정의 수준)에 의한 분류 ​ 하나)의 명목 척도(nominal scale)– 척도의 명칭만 의미 있는 소리(네)결혼 상태에 대한 코드:{미혼=한 기혼자=2, 이혼=3, 사별=4}2)순서 척도(서열)(ordinal scale)– 명칭 및 순서가 의미를 갖는 것(예)성적의 등급-{poor=하나, fair=2, good=3, very good=4, excellent=5}3)간격 척도(도우은강)(interval scale)– 명칭, 절차 및 간격이 의미를 갖는 것(예)온도 4)비율 척도(ratio scale이름, 순서, 간격 및 배율의 모든 것을 의미한다. 이들 척도의 경우 이른바 '절대적 원점(absolute zero point)'이 정의된다.(예)키, 몸무게, 재산, 월 소득, 연령, 휘발유 1리터당 주행 거리, 텔레비전 시청률 등*측정 척도는 양적 분석을 위한 통계 분석 노하우를 결정하는 중요하다. 즉 명목척도와 서열척도로 측정된 변인은 비모수 통계(nonparametric statistics)를 적용하고, 등간척도와 비율척도로 측정된 변인은 t검정이 본인의 상관관계 분석, 변량 분석과 같은 모수 통계(nonparametric statistics)를 적용한다.​ ​(2)독립 변수와 종속 변수로 추론 및 검정을 위한 데이터 분석 시 분석 모델 선택에 영향을 주는 주된 구분 기준으로 사용될 것으로 종속 변수(반응 변수. 결과변수. 어떠한 영향을 받는다)와 독립변수(설명변수, 원인 변수. 종속변수에 따라 영향을 준다)가 있다. 두 변수 사이에는 원인과 결과의 관계를 가진다.


    표에서 (노란색 배경: '가설 검정', 주황색 배경: '머신 러닝')으로 볼 수 있다.* 한쪽반적으로 독립변수가 연속형 자료이면 공변량(Covariance)이라 부르고, 범주형이면 요인(Factor)이라 부르기도 한다. ​ ​(3)그이무카솔, 대립 가설, p-value​ 하나)의 통계적 추론:어느 집단(모집단)의 특징을 알려고 자료 연구를 진행할 때 집단의 규모, 자신의 성격에 의해서 차이는 있우쟈 신, 대부분의 경우 모집단을 대상으로 자료 연구를 실시하는 것은 쉽지 않는다.. 따라서 집단의 특징을 쉽게 파악하기 위해 모집단의 일부 자료만 표본으로 삼아 추정연구를 하게 된다. 추정은 점 추정과 구간 추정에 자신이 있다. 예를 들면 키 하나 75는 유동적이다. 구간추정 시 신뢰구간 설정이 중요한데 아무리 신뢰구간이라도 모수가 신뢰구간 안에 포함되지 않을 확률은 항상 존재하게 되는데 걸으면서 저런 확률을 알파라고 한다. 이때 신뢰 구간은 xy축에서 y축을 기준으로 양쪽을 다루게 되므로 α/2이다. 모수가 구간에 포함되지 않을 확률이 α이므로 모수가 구간에 포함될 확률은 -이 된다. 이를 신뢰 구간이란 하나 발죠크에 90%, 95%, 99%의 확률을 많이 사용한다. 2)의 통계적 가설:세상에는 관념(정설)이 있우쟈 신 자체가 언제나 그랬던 것처럼, 정답은 없고, 대개의 사람들이 인정하는 의견이다. 그러나 그런 의견은 영원하지 않고 불완전을 포함하고 있지만, 이따금씩 이 지남에 따라 그런 불완전을 해결하기 허브로 만들기 위한 새로운 의견, 즉 가설이 생겨나고 자신감을 갖게 된다. 발생한 가설은 세상에 인정받지 못하고 사라질 수도 있고, 기존의 정설을 대신해 새로운 정설로 인정되기도 한다.이는 다시 새로운 가설에 의해 사라질 가능성도 있다. 3)가설 검정:하나 밴 하나 된 사실은 쉽게 바뀌지 않는다. 따라서 어떤 사실을 주장하기 위해서는 한 가지 반화된 사실이 틀렸음을 증명해야 한다. 이것이 가설검정을 실시하는 이유다. 모수에 관한 주장을 가설로 정립해 가설이 올바른지를 자료로 판단하게 된다.이때는 물론 확률을 이용한다. 4)그이무/대립 가설:추론 통계에는 현재의 정설을 "그이무카솔(H0)"으로서 새로운 가설을 "대립 가설(H한가지)"라는 이 두가지 가설 중 어느 쪽이 더 타당한지를 판단한다.추론 통계에서 검정 통계량은 표본 통계량에서 모수는 이럴 것이라는 가설을 추정하는 것으로 언제든지 틀릴 확률이 있다."라고 하는 전제 조건을 가진다. 어떤 자료에 대해 일방반적으로 인정되는 오늘날까지의 정설에 대한 새로운 의견, 즉 아직 일방반적이지 않은 가설을 수용 또는 기각하는 과정을 거치게 된다.​


    >


    ​+의 이해를 돕기 위한 추가 참조:https://kkokkilkon.tistory.com/36


    ​​


    >


    >


    >


    >


    ​​​


    >


    >


    >


    >


    *-margin.table():행은 열의 합을 구하다 함수(1-행, 2-열)-prop.table():빈도의 비율을 구할 때 사용하는 함수(1-행, 2-열)​ ​ ​ ​


    >


    - table(): 데이터 빈도를 출력하는 함수


    >


    dim(): dataframe의 길이를 관측할 때 사용하고 행과 열의 개수를 모두 출력한다.- str(오브젝트): 데이터 구조, 변수 수, 변수명, 관찰치 수, 관찰치 미리보기


    >


    - summary( ): 데이터의 기초 통계량을 산출하여 표시한다. (평균, 표준편차, 중위수 등)


    >


    - unique(): 중복된 값은 삭제 후 단일값만 출력


    >


    barplot(x): x 데이터의 결과를 그래프로 표현한다.


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    >


    - kurtosis(): 정규 분포에 대한 꽃봉오리의 높이를 조사하는 측도


    >


    >


    ​​​


    -정규 분포 표 참고:https://math7.tistory.com/48-카직무고프 분포 표 참고:https://math7.tistory.com/58​-카직무고프 검정 통계량의 공식:


    >


    *참고: https://support.minitab.com/ko-kr/minitab/일 8/help-and-how-to/statistics/tables/how-to/chi-square-goodness-of-fit-test/methods-and-formulas/methods-and-formulas/(일) 가조금적 분석(교차 분석) 기본 이해


    >


    ​-비결 1)의 결과 X2=3, 임기에가프 3.84->그이무카솔 채택


    ​-비결 2)p-value사용


    >


    -Chi^2=3, d.f.=일, p=0.08326452-0.083(유의 확률치)>0.05(95%신뢰 확률에서의 유의 수준)-결론:허용할 수 없는->그이무카솔 채택-노하우, 일과 노하우 2의 결과는 마찬가지다.-노하우 2를 사용하면 노하우일에 비해서 그다지 고생하고 결과를 도출할 수 있다.​ ​ ​(2)교차 분석(X 타고 보람 스퀘어):Pearson's Chi-squared test-두 불연속 변수(카테고리형)간의 상관 관계를 측정하는 노하우인 노는 우는 그이무카솔을 밝히고 교차 분석을 통하여 기대 빈도를 계산한 뒤 관찰 빈도가 유의하고 있는지 확인-변인의 수에 의해서 일원, 이원 카ー쥬치에궁고프 분석이 있다. ​(2·일)의 일원 카아쥬치에궁고프:일개의 대변인(집단, 구)을 대상으로 검정 실시-교차 분할 표를 사용하지 않는다.-적합도 검정:어떤 조건에서 기대되는 빈도에 관측 빈도가 어느 정도 과인 적합한지 조사 ​ ​-​의 적합도 검정 실습 날)사이코로하그와잉룰 60번 던져서 나 온 경우의 수가 이후그와 같다. 카아즈 최근 콥검정을 실시하라.


    >


    <해석비결일>


    X-Squared의 값이 입니다. 계치 오른쪽에 있으므로 귀무가설을 기각한다.■결론: 현재 사용 중인 주사위는 게입니다. ​<해석의 비결 2>(p-value=0.0하나 439)<0.05이므로 ∴ 그이무카솔을 기각하며 대립 가설을 채택한다. ​-​의 적합도 검정 실습 2)멘델의 완두 콩의 연구 결과


    >


    ∴(p-value=0.9254)>0.05이므로 그이무카솔을 채택할 것이다.<해석>멘델의 완두 콩 조사 결과, 완두 콩의 모양과 색깔의 2대 유전의 비율은 9:3:3:1이다.​​​


    댓글

Designed by Tistory.