hu221188 on Statistics: 七月 2010

2010年7月31日星期六

What is Rank sum test（秩和检验）?

什么是秩和检验?
秩和检验方法最早是由维尔克松提出，叫维尔克松两样本检验法。后来曼—惠特尼将其应用到两样本容量不等（）的情况，因而又称为曼—惠特尼U检验。这种方法主要用于比较两个独立样本的差异。

1、假设中的等价问题
　　设有两个连续型总体, 它们的概率密度函数分别为：
　　f1(x),f2(x)(均为未知)
　　已知f1(x) = f2(x − a)，a为末知常数，要检验的各假设为：
H0:A = 0,H1:a < 0.
H0:A= 0,H1:a > 0.
H0:A=0,H1:a≠ne 0.
　　设两个总体的均值存在，分别记为μ1,μ2，由于f1,f2最多只差一平移，则有μ2 = μ1 − a。此时, 上述各假设分别等价于：
H0:μ1 = μ2,H1:μ1 < μ2
H0:μ1 = μ2,H1:μ1 > μ2
Particularly, read the link http://www.pinggu.com/index.php?doc-innerlink-%E7%A7%A9%E5%92%8C%E6%A3%80%E9%AA%8C

Definition of Percential and Suitable Conditions of Percential

Definition of Percential:
PX=L+ i(nx%-Σf l)/f
L---the distance of the group; n----value number; x---your given percent. Σf l----closest last group frequency number; f---this group's frequecy number.
第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。
帮助理解它的含义:
分位数是用于衡量样本中各数据的位置的量度，但它所衡量的，不一定是中心位置。百分位数提供了有关各数据项是如何在最小值与最大值之间分布的信息。对于无大量重复的数据，第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小；而大约有(100－p)％的数据项的值比第p百分位数大。对第p百分位数，严格的定义如下。
第p百分位数是这样一个值，它使得至少有p％的数据项小于或等于这个值，且至少有(100－p)％的数据项大于或等于这个值。(数据项或者说是样本数据中每一个数据在样本总体中的位置是理解的关键)
比如说, 某一个样本观察值是4.7, 而我们算出(给出的40%这点的百分位数P50=4.71, 那就表明这个样本观察值位于整个样本中位于接近但不到50%的地方, 也就是比较接近中值(即核心)的位置, 所以说,P50是样本中最有代表性的观察值, 对样本总体而言. 它反映了这批数据在数轴或coordinate上的定位, 即在R set中的定位.
Suitable Conditions of Percential
1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5，P25, P50, P75, P95,可以描述总体或样本的分布特征(level)，如集中位置、变异度等.
2.确定医学正常值范围。
P25称为第1四分位数；记为Q1。
P50称为第2四分位数；记为Q2，就是中位数M
P75称为第3四分位数；记为Q3。
3. 分布中部的百分位数稳定, 具有较好的代表性;
4.计算百分位数时，特别是靠近两端的百分位数时，要求例数足够大，大于100例。

Suitable Conditions for Median

Suitable Conditions for Median (P50 or M)
its calculative formula look at my the first blog.
its suitable conditions are as below:
1.偏态分布资料(因为它不受特别大或特别小的数据值影响)或数据一段或两端无确切数据;
2.未知分布类型的资料.

Matter needing attention of geometric mean

Matter needing attention of geometric mean:
1. Usally, it is used in 等级资料或对数分布资料;
2. If there is Zone in your data group, usally, you can not use plumply it.
3.investigative data can appear synchronously negative values and plus values; If all values are negative, you may change them to plus values, then add negative symbol in font of the result after you got a result.
适用条件1.成倍数关系的资料。2.明显正偏态分布的资料
attend:
对数技巧的使用对实际计算是必不会少的.
列成频数表时计算公式如下：
LogG=∑flogX/Σf

The function of weighted mean

look at 'Function of Average'

fuctions of arithmetic mean

arithmetical mean = mean
Its functions equal average. read last blog.

Function of Average

Average in statistics, its functions is as following:
1.to describe the average level of a data group;
2.to direct the middle location out. i.e, it shows exact location of reference object to investigation data.
It statistic significant meanings are:
1. to show the average level of the same type variable values, or their distribution convergence location.
2. usally, is used to compare among different data group as a representive data of a data group.
Generally, it includes around 11 kinds as below:
1. arithmetic mean=mean; 2. weighted mean; 3. geometric mean; 4. weighted geometric mean; 5. median; 6. mode; 7. harmoniou average; 8.mean suqare root; 9. variance; 10. arithmetic-geometric mean; 11. percentile.

Features of Frequency Table

Feature of Frequecy Table
We explore a group data, we will find that data in the world can be class several typs as following, they are basic characters which our world is quantized :
From covergence perspective, they are only (convergent)concentrative, or discrete.
From distribution perspective, they may be symmetrical(normal distribution), or dissymmetrical ( unsymmetrical Skewness distribution) to a specifical object, to symetrical object, such as a coordinate axis , an option, etc. 向数值小的一边为正偏态分布, 向大的一边为负偏态分布.
features of frequency table are
1. describe data fact with table format so that we treat them furtherly.
2.investigate expediently(方便地) data distribution types;
3.find expediently out some distrustful(可疑的, 不可信的) data, for exampl, singular date, exceptant data, usally, very big, or very small.
4. When N is bigger, we can do probability evaluation of to every group frequecy.

2010年7月30日星期五

Regarding P value in correlation coefficient check

Concerning the exact meaning of P value in statistics
统计学意义（p值）
结果的统计学意义是结果真实程度（能够代表总体）的一种估计方法。专业上，p值为结果可信程度的一个递减指标，p值越大，我们越不能认为样本中变量的关联是总体中各变量关联的可靠指标。p值是将观察结果认为有效即具有总体代表性的犯错概率。如p=0.05提示样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联，我们重复类似实验，会发现约20个实验中有一个实验，我们所研究的变量关联将等于或强于我们的实验结果。（这并不是说如果变量间存在关联，我们可得到5%或95%次数的相同结果，当总体中的变量存在关联，重复研究和发现关联的可能性与设计的统计学效力有关。）在许多研究领域，0.05的p值通常被认为是可接受错误的边界水平。
如何判定结果具有真实的显著性
        在最后结论中判断什么样的显著性水平具有统计学意义，不可避免地带有武断性。换句话说，认为结果无效而被拒绝接受的水平的选择具有武断性。实践中，最后的决定通常依赖于1)数据集比较和分析过程中结果是先验性还是仅仅为均数之间的两两>比较，2)总体数据集里结论一致的支持性证据的数量，3)以往该研究领域的惯例(也就是基于现有专业理论得出的判断)。通常，许多的科学领域中产生p值的结果≤0.05被认为是统计学意义的边界线，但是这显著性水平还包含了相当高的犯错可能性。结果0.05≥p>0.01被认为是具有统计学意义，而0.01≥p≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规.
所有的检验统计都是正态分布的吗？
        并不完全如此，但大多数检验都直接或间接与之有关，可以从正态分布中推导出来，如t检验、f检验或卡方检验。这些检验一般都要求(有前提)：所分析变量在总体中呈正态分布，即满足所谓的正态假设。许多观察变量的确是呈正态分布, 这反映了正态分布是现实世界的一个基本特征。但这并不意味着这个世界的所有变量的变化都是正态分布的, 所以, 当人们用在正态分布基础上建立的检验方法来检验分析非正态分布变量的数据时分析结果对总体的拟合(反映)程度时问题就产生了，（参阅非参数和方差分析的正态性检验）。这种条件下有两种方法：一是用替代的非参数检验（即无分布性检验），但这种方法不方便，因为从它所提供的结论形式看，这种方法统计效率低下、不灵活。另一种方法是：当确定样本量足够大的情况下，通常还是可以使用基于正态分布前提下的检验。后一种方法是基于一个相当重要的原则产生的，该原则对正态方程基础上的总体检验有极其重要的作用。即，随着样本量的增加，样本分布形状趋于正态，即使所研究的变量分布并不呈正态.
1 统计软件的选择
在进行统计分析时，作者常使用非专门的数理统计软件Excel进行统计分析。由于Excel提供的统计分析功能十分有限，很难满足实际需要。目前，国际上已开发出的专门用于统计分析的商业软件很多，比较著名有SPSS(Statistical Package for Social Sciences)、SAS(Statistical Analysis System)、BMDP和STATISTICA等。其中，SPSS是专门为社会科学领域的研究者设计的（但是，此软件在自然科学领域也得到广泛应用）；BMDP是专门为生物学和医学领域研究者编制的统计软件。目前，国际学术界有一条不成文的约定：凡是用SPSS和SAS软件进行统计分析所获得的结果，在国际学术交流中不必说明具体算法。由此可见，SPSS和SAS软件已被各领域研究者普遍认可。建议作者们在进行统计分析时尽量使用这2个专门的统计软件。
2 均值的计算
在处理实验数据或采样数据时，经常会遇到对相同采样或相同实验条件下同一随机变量的多个不同取值进行统计处理的问题。此时，多数作者会不假思索地直接给出算术平均值和标准差。显然，这种做法是不严谨的。在数理统计学中，作为描述随机变量总体大小特征的统计量有算术平均值、几何平均值和中位数等。何时用算术平均值？何时用几何平均值？以及何时用中位数？这不能由研究者根据主观意愿随意确定，而要根据随机变量的分布特征确定。因为反映随机变量总体大小特征的统计量是数学期望，而在随机变量的分布服从正态分布时，其总体的数学期望就是其算术平均值。此时，可用样本的算术平均值描述随机变量的大小特征。如果所研究的随机变量不服从正态分布，则算术平均值不能准确反映该变量的大小特征。在这种情况下，可通过假设检验来判断随机变量是否服从对数正态分布。如果服从对数正态分布，则可用几何平均值描述该随机变量总体的大小。此时，就可以计算变量的几何平均值。如果随机变量既不服从正态分布也不服从对数正态分布，则按现有的数理统计学知识，尚无合适的统计量描述该变量的大小特征。退而求其次，此时可用中位数来描述变量的大小特征。
3 相关分析中相关系数的选择
        在相关分析中，作者们常犯的错误是简单地计算Pearson积矩相关系数，而且既不给出正态分布检验结果，也往往不明确指出所计算的相关系数就是Pearson 积矩相关系数。常用的相关系数除有Pearson积矩相关系数外，还有Spearman秩相关系数和Kendall秩相关系数等。其中，Pearson 积矩相关系数可用于描述2个随机变量的线性相关程度（相应的相关分析方法称为“参数相关分析”，该方法的检验功效高，检验结果明确）；Spearman或Kendall秩相关系数用来判断两个随机变量在二维和多维空间中是否具有某种共变趋势，而不考虑其变化的幅度（相应的相关分析称为“非参数相关分析” ，该方法的检验功效较参数方法稍差，检验结果也不如参数方法明确）。各种成熟的统计软件如SPSS、SAS等均提供了这些相关系数的计算模块。在相关分析中，计算各种相关系数的有前提是, 对于二元相关分析，如果2个随机变量服从二元正态分布，或2个随机变量经数据变换后服从二元正态分布，则可以用Pearson积矩相关系数描述这2个随机变量间的相关关系（此时描述的是线性相关关系），而不宜选用功效较低的Spearman或Kendall秩相关系数。如果样本数据或其变换值不服从正态分布，则计算Pearson 积矩相关系数就毫无意义。退而求其次，此时只能计算Spearman或Kendall秩相关系数（尽管这样做会导致检验功效的降低）。因此，在报告相关分析结果时，还应提供正态分布检验结果，以证明计算所选择的相关系数是妥当的。需要指出的是，由于Spearman或Kendall秩相关系数是基于顺序变量（秩）设计的相关系数，因此，如果所采集的数据不是确定的数值而仅仅是秩，则使用Spearman或Kendall秩相关系数进行非参数相关分析就成为唯一的选择。
4 相关分析与回归分析的区别
相关分析和回归分析是极为常用的2种数理统计方法，在地质学研究领域有着广泛的用途。然而，由于这2种数理统计方法在计算方面存在很多相似之处，且在一些数理统计教科书中没有系统阐明这2种数理统计方法的内在差别，从而使一些研究者不能严格区分相关分析与回归分析。最常见的错误是，用回归分析的结果解释相关性问题。例如，作者将“回归直线（曲线）图”称为“相关性图”或“相关关系图”；将回归直线的R2(拟合度，或称“可决系数”)错误地称为“相关系数”或“相关系数的平方”；根据回归分析的结果宣称2个变量之间存在正的或负的相关关系。这些情况在国内极为普遍。
        相关分析与回归分析均为研究2个或多个随机变量间关联性的方法，但2种数理统计方法存在本质的差别，1)它们的研究目的不同的. 相关分析的目的在于检验两个随机变量的共变趋势（即共同变化的程度），回归分析的目的则在于试图用自变量来预测因变量的值。2)在相关分析中，两个变量必须同时都是随机变量，否则不能做相关分析, 这由相关分析方法本身所决定的。对于回归分析，其中的因变量肯定为随机变量（这是回归分析方法本身所决定的），而自变量则可以是普通变量（规范的叫法是“固定变量”，有确定的取值）也可以是随机变量。如果自变量是普通变量，采用的回归方法就是最为常用的“最小二乘法”，即模型Ⅰ回归分析；如果自变量是随机变量，所采用的回归方法与计算者的目的有关---在以预测为目的的情况下，仍采用“最小二乘法”，在以估值为目的的情况下须使用相对严谨的“主轴法”、“约化主轴法”或“Bartlett法”，即模型Ⅱ回归分析。显然，对于回归分析，如果是模型Ⅰ回归分析，就根本不可能回答变量的“相关性”问题，因为普通变量与随机变量之间不存在“相关性”这一概念（问题在于，大多数的回归分析都是模型Ⅰ回归分析！）。此时，即使作者想描述2个变量间的“共变趋势”而改用相关分析，也会因相关分析的前提不存在而使分析结果毫无意义。如果是模型Ⅱ回归分析，鉴于两个随机变量客观上存在“相关性”问题，但因回归分析方法本身不能提供针对自变量和因变量之间相关关系的准确的检验手段，因此，若以预测为目的，最好不提“相关性”问题；若以探索两者的“共变趋势”为目的，建议作者改用相关分析。
       需要特别指出的是，回归分析中的R2在数学上恰好是Pearson积矩相关系数r的平方。因此，这极易使作者们错误地理解R2的含义，认为R2就是 “相关系数”或“相关系数的平方”。问题在于，对于自变量是普通变量（即其取值具有确定性）、因变量为随机变量的模型Ⅰ回归分析，2个变量之间的“相关性”概念根本不存在，又何谈“相关系数”呢？（说明：二元回归可决系数符号用小写r2）.
Regarding the knowledges of 'probability distribution' , 'normal distribution' and how do distinguish that a change of a data group is normal distribution, or not? look at the links as following:
http://zh.wikipedia.org/zh-cn/%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83 and http://zh.wikipedia.org/zh-cn/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83#.E6.AD.A3.E6.80.81.E5.88.86.E5.B8.83.E7.9A.84.E5.AE.9A.E7.BE.A9 , and other correlation links :
http://zh.wikipedia.org/zh-cn/%E8%BF%B4%E6%AD%B8%E5%88%86%E6%9E%90#.E8.BF.B4.E6.AD.B8.E5.88.86.E6.9E.90.E5.8E.9F.E7.90.86 ; 参数估计: Method of Moment、MOM(动差法-)- http://nccur.lib.nccu.edu.tw/bitstream/140.119/33977/8/35200808.pdf , .（Ordinary least square estimation, OLSE）最小二乘法--- http://zh.wikipedia.org/zh-cn/%E6%9C%80%E5%B0%8F%E5%B9%B3%E6%96%B9%E6%B3%95 ,最大似然估计（Maximum likelihood estimation, MLE）-- http://zh.wikipedia.org/zh-cn/%E6%9C%80%E5%A4%A7%E4%BC%BC%E7%84%B6%E4%BC%B0%E8%AE%A1 and 机率图法（Probability Plot Method）--

correlation analysis02-- correlation character description with plots

Can use all sorts of plots for description of correllation characters. Here, introduce specifically them.
For single variable( i.e. one-dimensional variable)[ Because it relates to plan, so it involves the question of variable numbers]
SAS provides four kinds of plots. They are as following:
Histogram/Bar Chart, Box plot/Mosaic Plot

correlation analysis01-- digital correlation character description

You must know your data in your hand before you use them, distinctly, you need to know their some characters as you will treat data sets. Useally, it means that you have to some correlation analysis work.
How to do correlation analysis? What are its operation steps ? Now, they will be present bellow:
Step1.
to creat a frequency table
Particular steps are as following:
   1)to find out the maximum date(value) and minim value in the object set.(找全距)
   2) to decide distinguished values to each group, i.e. give out to class values(定组距)
   3) to write out all group segments (写组段)in the first column of the frequency table.
   4) lto ist all investigation data(frequence频数) at the second column(列表划记) with a computer or hand method
   5) to caculate frequency value to every group with the frequency of every group data/total  frequency in the third column(X%).
6) to calculate added up frequency percent. (i.e. sum frequency percent%)
Step2.
(To start correlation analysis)
1) calculate firstly average for holding object sets character via all sorts of correlation coefficients. it include arithmetic mean (算术平均数), weighted mean(加权平均数), geometric mean(几何平均数G, Mg), weighted geometric mean(加权几何平均数), median(中数M), mode(众数), Harmonic Mean(调和平均数) , 平方平均数(均方根), 标准差(S) , 算术-几何平均数(M(x,y), or agm(x, y))和precentile(百分位数) etc.
particular calcuations are as below:

arithmetrica mean:

weighted mean:

Wi 是各项出现的概率大小. 这点distinguish arithmetric mean. Certainly, when all option's 概率is the same, then arithmetric mean=geometric mean.

geometric mean:

, or

or 先算出几何平均数的对数

, calculate geometric mean again. If you have created frequency table, use this formula:

f---is frequency number of frequency number of a group.

weighted geometric mean(加权几何平均数):

, 也可以用取对数的思想方法, 降次方求出weighted geometic mean的对数, 再求出加权几何平均数

Median(中数,中位数M):

sort order is prerequisite for using it.

Mode(众数):

in a data group, it is the number which appearing times is the most.

Harmonic Mean(调和平均数):

一组正数x1, x2 ... xn的调和平均数H其计算公式为：

调和平均数可以用在相同距离但速度不同时，平均速度的计算；如一段路程，前半段时速60公里，后半段时速30公里〔两段距离相等〕，则其平均速度为两者的调和平均数40公里。

平方平均数(均方根):

平方平均数，或称均方根，是2次方的广义平均数的表达式，也可称为2次幂平均数。计算公式为：

标准差(S):

标准差 s，就是所有数据x1,x2,...,xn和平均值相减后的数据

的标准差:

when you have frequency table，use this formula：

算术-几何平均数(agm(x, y), M(x,y):

, K 其中K(x)是第一类完全椭圆积分。(参见http://zh.wikipedia.org/zh-sg/%E7%AE%97%E6%9C%AF-%E5%87%A0%E4%BD%95%E5%B9%B3%E5%9D%87%E6%95%B0)

precentile(百分位数):

calculation method----

12)-1 create a frequency table (it should be 分组<即各组的下限值>, frequency number(频数), frequency(频率), 累加frequency.

12)-2. calculate nx%: nx%= n*x%(n为观察值项数或数据组数)

12)-3 分组栏 compare with Px which you want to investigation object value, decide the location in the 分组栏. it is at which row. i.e. you know the group's down-limit value(L, lower limit bound value), the distance of this group(i), its Σf and Σf Lof last group.(fL and f are separately 累加frequency of last group and of this group)

12)-4 calculate Px=L+i*(nx%-ΣfL )/f.

----------------------------------------------------------------

In SAS sofware, correlation coefficients among different variables are gotten by click analyze-- 'multivariate(X,Y)'---select objects which you want to analysis to box of Y and of X , and click the boxes of method, frequency and weight for entering their interface for further selection ---Ok. It will appear their correlation coeffiicisions.

You also add furtherly correlation p value via clicking 'Table'--Corr P value so that checking 样本实验代表总体变量间相关性的出错概率.

订阅：博文 (Atom)