一、 数据介绍:
本次分析的数据为某地区361个人旅游情况状况统计表,其中共包含七变量,分别是:年龄,为三类变量;性别,为二类变量(0代表女,1代表男);收入,为一类变量;旅游花费,为一类变量;通道,为二类变量(0代表没走通道,1代表走通道);旅游的积极性,为三类变量(0代表积极性差,1代表积极性一般,2代表积极性比较好,3代表积极性好 4代表积极性非常好);额外收入,一类变量。通过运用spss统计软件,对变量进行频数分析、描述性统计、方差分析、相关分析,以了解该地区上述方面的综合状况,并分析个变量的分布特点及相互间的关系。
二、 数据分析
1、 频数分析。基本的统计分析往往从频数分析开始。通过频数分地区359个人旅游基本状况的统计数据表,在性别、旅游的积极性不同的状况下的频数分
析,从而了解该地区的男女职工数量、不同积极性情况的基本分布。
统计量
N
有效 缺失
积极性
359 0 性别
359 0
首先,对该地区的男女性别分布进行频数分析,结果如下
性别
有效
女 男 合计
频率 198 161 359
百分比 有效百分比 累积百分比 55.2 44.8 100.0
55.2 44.8 100.0
55.2 100.0
表说明,在该地区被调查的359个人中,有198名女性,161名男性,男女比例分
别为44.8%和55.2%,该公司职工男女数量差距不大,女性略多于男性。
其次对原有数据中的旅游的积极性进行频数分析,结果如下表 :
积极性
频率
171 79 79 24 6 359 百分比 有效百分比 累积百分比 47.6 22.0 22.0 6.7 1.7 100.0 47.6 22.0 22.0 6.7 1.7 100.0 47.6 69.6 91.6 98.3 100.0
有效 差
一般 比较好 好 非常好 合计
其次对原有数据中的积极性进行频数分析,结果如下表 :
其次对原有数据中的是否进通道进行频数分析,结果如下表 :
Statistics
通道 N
Valid Missing
359 0
通道 Valid Frequency 没走通道 通道 Total 293 66 359 Percent 81.6 18.4 100.0 Valid Percent 81.6 18.4 100.0 Cumulative Percent 81.6 100.0
这说明,在该地区被调查的359个人中,有没走通道的占81.6%,占绝大多数。 上表及其直方图说明,被调查的359个人中,对与旅游积极性差的组频数最高的,为171 人数的47.6%,其次为积极性一般和比较好的,占比例都为22.0%,积性为好的和非常好的比例比较低,分别为24人和6人,占总体的比例为6.7%和1.7%。 2、 描述统计分析。
再通过简单的频数统计分析了解了职工在性别和受教育水平上的总体分布状况后,我们还需要对数据中的其他变量特征有更为精确的认识,这就需要通过计算基本描述统计的方法来实现。下面就对各个变量进行描述统计分析,得到它们的均值、标准差、片度峰度等数据,以进一步把我数据的集中趋势和离散趋势。
描述统计量 N 极小值 极大值 均值 标准差 方差 偏度 统计统计量 统计量 统计量 统计量 量 标准峰度 标准统计统计量 量 误 统计量 误 收入 旅游花费 有效的 N (列表状态) 359 7.426 6250.000 1032.93021 762.523942 581442.762 1.790 .129 6.869 .257 359 359 21 1006 116.41 130.716 17086.704 3.145 .129 13.401 .257
如表所示,以起始工资为例读取分析结果,359个人中收入最小值为7.426¥,最大值为6250.00000¥,平均1032.9302¥,标准差为762.5239¥ 偏度系数和峰度系数分别为1.790和6.869。
其他数据依此读取,则该表表明该地区旅游花费的详细分布状况。
3、探索性数据分析 (1) 交叉分析。
通过频数分析能够掌握单个变量的数据分布情况,但是在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多个变量的联合分布特征,进而分析变量之间的相互影响和关系。就本数据而言,需要了解现工资与性别、年龄、受教育水平、起始工资、本单位工作经历、以前工作经历、职务等级的交叉分析。现以现工资与职务等级的列联表分析为例,读取数据(下面数据分析表为截取的一部分):
Count 性别* 积极性 交叉制表 计数 差 96 75 171 一般 47 32 79 积极性 比较好 41 38 79 好 12 12 24 非常好 2 4 6 合计 198 161 359 性别 女 男 合计
上联表及Bar Chart涉及两个变量,即性别与积极性的二维交叉,反映了在不同的性别对于旅游积极性分布情况。上表中,性别成为行向量,积极性列向量。
(2)性别与收入的探索性分析
性别 Case Processing Summary 收入 性别 女 男
Descriptives
收入
性别 女
Mean
95% Confidence Interval Lower Bound for Mean
Upper Bound
Statistic
Std. Error
N 198 161 Valid Percent 100.0% 100.0% N 0 0 Cases Missing Percent .0% .0% N 198 161 Total Percent 100.0% 100.0% 1005.28562 49.514796 907.63853 1102.93272
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range
Interquartile Range Skewness Kurtosis
男
Mean
95% Confidence Interval Lower Bound for Mean
5% Trimmed Mean Median Variance Std. Deviation Minimum Maximum Range
Interquartile Range Skewness Kurtosis
Upper Bound
957.92011 937.50000 485439.577 696.734940 7.426 3125.000 3117.574 937.563 .896 .310 .173 .344 1066.92791 65.993219 936.59779 1197.25802 986.95497 937.50000 701171.907 837.360082 58.630 6250.000 6191.370 718.750 2.370 10.166 .191 .380 收入
Stem-and-Leaf Plots
收入 Stem-and-Leaf Plot for 性别= 女
Frequency Stem & Leaf
18.00 0 . 001111111111111111
26.00 0 . 22222222222223333333333333 17.00 0 . 44444444444555555
33.00 0 . 666666666666666666666777777777777
22.00 0 . 8889999999999999999999 13.00 1 . 0000000001111
18.00 1 . 222222222222222223 18.00 1 . 444455555555555555 4.00 1 . 7777 5.00 1 . 88888
14.00 2 . 00000111111111 .00 2 .
4.00 2 . 5555 1.00 2 . 6 2.00 2 . 88
3.00 Extremes (>=3000)
Stem width: 1000.000
Each leaf: 1 case(s)
收入 Stem-and-Leaf Plot for 性别= 男
Frequency Stem & Leaf
15.00 0 . 001111111111111 17.00 0 . 22222233333333333 13.00 0 . 4444445555555
26.00 0 . 66666666666667777777777777 19.00 0 . 8888899999999999999 13.00 1 . 0000000000011
19.00 1 . 2222222222222222223 13.00 1 . 4444555555555 2.00 1 . 77
6.00 1 . 888889 6.00 2 . 000111 12.00 Extremes (>=2351)
Stem width: 1000.000
Each leaf: 1 case(s)
结果分析如下
收入
女 男 均数的95%可信区间 (907.63853,1102.93272) (936.59779,1197.25802) 5%的调整均数 957.92011 986.95497 中位数 937.50000 937.50000 标准差 696.734940 837.360082 标准差 485439.577 701171.907 最小值 7.426 58.630 最大值 3125.000 6250.000 极差 3117.574 6191.370 四分位数间距 937.563 718.750 偏度系数 2.370 2.370 峰度系数 .310 10.166
(3)p-p图分析
平均数 1005.28562 1066.92791
Age 结果分析
年龄在正态p-p图的散点近似成一条直线,无趋势正态p-p图的散点均匀分布在直线y=0的上下,故可认为本资料服从正态分布
4、相关分析。相关分析是分析客观事物之间关系的数量分析法,明确客观事 之间有怎样的关系对理解和运用相关分析是极其重要的。
函数关系是指两事物之间的一种一一对应的关系,即当一个变量X取一定值时,另一个变量函数Y可以根据确定的函数取一定的值。另一种普遍存在的关系是统计关系。统计关系是指两事物之间的一种非一一对应的关系,即当一个变量X取一定值时,另一个变量Y无法根据确定的函数取一定的值。统计关系可分为线性关系和非线性关系。
事物之间的函数关系比较容易分析和测度,而事物之间的统计关系却不像函
数关系那样直接,但确实普遍存在,并且有的关系强有的关系弱,程度各有差异。如何测度事物之间的统计关系的强弱是人们关注的问题。相关分析正是一种简单易行的测度事物之间统计关系的有效工具。
Correlations 收入 Pearson Correlation Sig. (2-tailed) N 收入 1 旅游花费 .140 .008 **额外收入 .853 .000 359 .183 .000 **** 359 .140 .008 359 .853 .000 359 ****359 1 旅游花费 Pearson Correlation Sig. (2-tailed) N 359 .183 .000 359 **359 1 额外收入 Pearson Correlation Sig. (2-tailed) N 359 **. Correlation is significant at the 0.01 level (2-tailed). 上表是对本次分析数据中,旅游花费、收入、、额外收入的相关分析,表中相关系数旁边有两个星号(**)的,表示显著性水平为0.01时,仍拒绝原假设。一个星号(*)表示显著性水平为0.05是仍拒绝原假设。先以现旅游花费这一变量与其他变量的相关性为例分析,由上表可知,旅游花费与额外收入的相关性最大, 5.回归分析
有相关性分析可得收入,旅游花费呈线性相关,因此作回归分析
Variables Entered/Removed Variables
Model 1
Entered 收入
a
b
Variables Removed
Method . Enter
a. All requested variables entered. b. Dependent Variable: 旅游花费
Model Summary bAdjusted R Model 1 R .140 aStd. Error of the Estimate 129.604 R Square .020 Square .017 a. Predictors: (Constant), 收入 b. Dependent Variable: 旅游花费
ANOVA Model 1 Regression Residual Total Sum of Squares 120443.809 5996596.239 6117040.048 df 1 357 358 Mean Square 120443.809 16797.188 F 7.170 Sig. .008 ab a. Predictors: (Constant), 收入 b. Dependent Variable: 旅游花费 Coefficients Standardized Unstandardized Coefficients Model 1 (Constant) 收入 B 91.563 .024 Std. Error 11.528 .009 Coefficients Beta t 7.943 .140 2.678 Sig. .000 .008 a a. Dependent Variable: 旅游花费 Residuals Statistics a Predicted Value Std. Predicted Value Standard Error of Predicted Value Adjusted Predicted Value Residual Std. Residual Stud. Residual Deleted Residual Stud. Deleted Residual Minimum 91.74 -1.345 6.840 Maximum 241.90 6.842 47.362 Mean 116.41 .000 9.048 Std. Deviation 18.342 1.000 3.426 N 359 359 359 92.09 -193.904 -1.496 -1.607 -223.789 -1.611 271.79 891.785 6.881 6.891 894.316 7.390 116.53 .000 .000 .000 -.117 .004 19.018 129.423 .999 1.002 130.229 1.025 359 359 359 359 359 359 Mahal. Distance Cook's Distance Centered Leverage Value a. Dependent Variable: 旅游花费 .000 .000 .000 46.811 .199 .131 .997 .003 .003 2.955 .015 .008 359 359 359 Charts
由上图可知回归方程: y=91.563+ 0.024 (x1) , (P(Sig=0.000)<0.01) 即 旅游花费=91.563+0.024*收入 ( p<0.01) 6单样本T检验 首先对现工资的分布做正态性检验,结果如下: 由上图可知,现工资的分布可近似看作符合正态分布,现推断现工资变量的平均值是否为$3,000,0,因此可采取单样本t检验来进行分析。分析如下:
One-Sample Statistics
单个样本统计量
收入
N 均值 标准差 均值的标准误 40.244474 359 1032.93021 762.523942 单个样本检验
收入
t 25.666 df 358 Sig.(双侧)
均值差值
检验值 = 0 差分的 95% 置信区间 下限
上限
.000 1032.930214 953.78493 1112.07550
由One-Sample Statistics可知,359个被调查的人中收入平均值1032.93021 ,标准差为762.523942,均值标准误差为40.244474。图表One-Sample Test中,第二列是t统计量的观测值为25.666;第三列是自由度为358(n-1);第四列是t统计量观测值的双尾概率值;第五列是样本均值和检验值的差;第六列和第七列是总体均值与原假设值差的95%的置信区间为(953.78493 , 1112.07550)。该问题的t值等于25.666对应的临界置信水平为0,远远小于设置的0.05,因此拒绝原假设,表明该地区被调查的359名人中收入与1032.93021 存在显著差异。
7,独立样本t检验 T-Test
Group Statistics 旅游花费 性别 女 男 N 198 161 Mean 126.09 104.51 Std. Deviation 149.533 102.187 Std. Error Mean 10.627 8.053 Independent Samples Test Levene's Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference F Sig. 6.302 .013 t 1.559 df Sig. Mean (2-tailDifferStd. Error Lower -5.647 Upper 48.806 ed) ence Difference 13.844 旅游花费 Equal variances assumed Equal variances not assumed 357 .120 21.580 1.618 347.2.106 21.580 13.334 -4.645 47.805 41 结果分析
得到两组的均数(mean)分别为198 和 161
独立样本t检验,取的t值1.559与Sig为0.120 p>0..05 旅游花费不成显著性差异,由图中可知旅行的旅游花费较高。
学号: 姓名 : 班级 :
因篇幅问题不能全部显示,请点此查看更多更全内容