大家在學習統計時,可能會過于重視分析方法的使用,而忽略了數據收集和整理的重要性。一般而言,統計分析最重要的一步實際上是先將數據整理形成便于分析的數據形式,比如下表:
10年積累的
成都網站建設、網站建設經驗,可以快速應對客戶對網站的新想法和需求。提供各種問題對應的解決方案。讓選擇我們的客戶得到更好、更有力的網絡服務。我雖然不認識你,你也不認識我。但先
網站設計后付款的網站建設流程,更有
電白免費網站建設讓你可以放心的選擇與我們合作。上表中雖然全是數字,但卻可以回答很多問題。比如:每個人的年齡多大?是什么學歷?婚姻狀況如何?就業情況如何?家里有幾口人?這些問題的答案都是我們所調查對象的一系列特征或屬性,統計學上稱為變量(variable),也就是上表頂行各條目的名稱。初學統計學一定要訓練自己學會利用“變量”來表達。每個被調查對象被稱為一個觀測單位(case 或 observation),變量就是觀測單位的某種特征或屬性,變量的具體取值稱為“變量值”。由此,上表中的一系列問題對應的變量就是:年齡、學歷、婚姻狀況、就業情況、家庭人口數、ABO血型等。進一步觀察,可以發現,有些變量的取值如年齡、家庭人口數是具體的、有實際意義的數值;而有些變量的取值如學歷、婚姻狀況雖用數字來表示,但其意義卻只是一個“代號”,背后都需要特定的文字進行定義說明,比如規定“0=未婚,1=已婚”。因此,像年齡、家庭人口數這類變量,其取值是定量的、有計算意義的,我們稱之為定量變量(quantitative variable);而像學歷、婚姻狀況和就業狀況這類變量的取值是定性的、主要起代號作用,稱之為定性變量(qualitative variable)。另一方面,為了對定性變量進行統計學處理,往往需要對其進行編碼,比如“男為0,女為1”。所以,在實際的統計工作中,要避免輸入漢字,而是要注意將其轉換為相應的數字。甚至變量名稱,如上述的“編號、年齡、學歷等”也盡量采用英文或漢語拼音來表示,避免統計軟件出錯。更進一步思考會發現,年齡、人口數等變量一般是有單位的,并且不同人的年齡差異在理論上可以無限小,如1年、1個月、1天、1小時、0.1小時、0.01小時……所以,年齡變量的取值范圍在理論上可以取任意正實數,注意不是正整數,比如一個人的年齡可以記為17.55歲,表示年齡為17歲6個月18天,甚至還可以利用出生時刻的信息精確到更小的時間單位(如“分、秒”)。因此,這類變量稱為連續變量(continuous variable),主要是因為其取值范圍在理論上是連續不斷的。相反,家庭人口數這一變量就是相對于連續變量的另一類,即離散變量(discrete variable),因為不同家庭的人口數只可能相差0、1、2,而不能相差1.1、1.2等,它的取值范圍是間斷而不連續的。由此可見,一般僅定量變量有連續和離散之分,即一個定量變量要么是連續的、要么是離散的。相較而言,定性變量從數據表現上雖然和離散變量類似,但由于它只具有“代號”意義,所以一般不把它視為離散變量。除此之外,定性變量的取值往往表現為互不交叉的類別(所以定性變量也稱分類變量),同時這些類別有時會存在細微的差別。如學歷這類定性變性變量的取值為“文盲、小學、初中、高中……”,透露出一種等級或順序的感覺,因此也稱之為有序分類變量,這是指其取值的各類別之間存在著程度上的差別。另外一個常見的例子是“滿意程度”,包括“很不滿意、不滿意、一般、滿意、非常滿意”。這類有序分類變量給人一種“半定量”的感覺,也稱為“等級變量”;與之相對的另一類定性變量,即無序分類變量,其各個取值則不存在程度的差異,比如性別、血型等。對于無序分類變量,根據取值的不同又可分為“二項分類變量”和“多項分類變量”,比如性別(一般情況)只分為男女兩類,所以稱之為二分類,而血型類別較多,可稱為多分類。理清了各種變量的含義,還需要明白各種類型的變量間是可以進行轉換的。比如血壓值一般記為定量變量,但其可按照一定的臨床標準,將其轉換為定性變量,例如根據血壓值分為:正常血壓( 收縮壓
網站題目:變量是什么(統計學變量可分為哪幾類)
文章路徑:http://vcdvsql.cn/article20/sdpjo.html
成都網站建設公司_創新互聯,為您提供軟件開發、品牌網站建設、面包屑導航、網站收錄、移動網站建設、品牌網站制作
廣告
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源:
創新互聯