2010年9月2日星期四

灰色挖掘与回归分析(Gray mining and Regression analysis)

Acknowledgement : this paper came from: http://www.sciencenet.cn/blog/user_content.aspx?id=356769




灰色挖掘与回归分析



灰色理论重在数据的处理方式和算法设计上,数据来源主要为间接的即三次以上处理得到的,对数据重质不重量,认识方式强调纵向思维,进而取补,延拓横向,即以纵连横对其进行深挖掘;数据少但工序多,方式复杂,对处理技术以及执行人员要求严格;灰色强调逻辑对科学发现的重要性,最终使得数据携带的信息按照所需较为充分的裸露出来。



回归重在数据的直接大量获取上,数据来源多两次以下甚者不经过处理后得到,对数据要求一次获得,同时样本必须足够的多,认识方式强调横向思维,以横连纵;数据多但工序和处理方式简单,同时对技术与执行人员的数学素养要求比较宽松;用的也都是历史数据,携带信息量大,但体现不充分;在某种意义上回归强调观察与实验对科学发现的重要性;最终信息的获得,是靠大量直接观察到的堆砌数据的而获得。

最后可以这样理解,在通过数据认识事物以及其间关系时,灰色处理即数据挖掘和回归分析各有其长,一个重逻辑一个重观察实验,实乃通过数据认识世界的两翼,相互配合方能见效。

2010年8月10日星期二

How protection to an Excel sheet (How do I protect an Excel sheet?)

In excel, workbook may be set several safe degrees, the highest safe is to whole file. It cotrols that an user can open a file, or not.
Usually, you have to set password that open it, specifically, steps are following:
open your file--click' Tools'---'protection'---select one option which you want: 1. 'protect sheet' for only protection a sheet; 2. 'Allow user Edit Range' for setting protection to some part of sheet; 3.'protect workbook' is to set protection to whole workbook; 4.'Protection and Share Workbook' is for sharing it, it can't be edited by users ---to set a your password is over.

Usage of Excell-01----- as regard in +,- *, / etc

一、Excel的公式运算符有以下几类:




有算术运算符、比较运算符、文本运算符和引用运算符四类:



算术运算符:加减乘除等等

比较运算符:大于、小于、等于、不等于等

文本运算符:比如连接符号“&”连接多个文本

引用运算符:如SUM(A1:A30)中的冒号等等



二、运算符的优先级

Excel中含有众多的运算符,每一种运算符都有一个固定的固定的优先级。如果在一个公式中用到了多个运算符,则Excel将由高级到低级进行计算;如果公式中用到多个相同优先级的运算符,那么将从左到右进行计算;如果要修改计算的顺序,可以把公式中需要首先计算的部分加上圆括号。

"运算符优先级——引用运算符、算术运算符、连接运算符、比较运算符

引用运算符优先级—— 先:(冒号)后(单个空格)再,(逗号)

算术运算符优先级—— - 负数(如 –1)、% 百分比、^ 乘方、* 和 / (乘和除)、+ 和 –(加和减 )

连接运算符优先级——& 连接两个文本字符串(串连)

比较运算符—— =、< 或 >(小于或大于)、<=(不大于)、>=(不小于)、<>(不等于)[注:这些比较运算符是属同级运算] "

(1)先(括号)内层,后(括号)外层。

解释:有扩号时,最内层的括号中的东西先算,再一层层向外。

(2)先函数,后运算。

解释:式中有函数,例如sqrt(),fabs(),sin()之类,先算函数。

(3)先算术,后关系,再逻辑。

解释:逻辑表达式中,混有算术运算,要先算算术(加减乘除,函数)运算,再算关系(大小,等不等)运算。最后算逻辑(或与非),得到真假。

(4)先乘除,后加减。

解释:同算术一样,先做乘除,后做加减。

逻辑运算符“与”又叫逻辑乘,逻辑运算符“或”,又叫逻辑加,按先乘除,后加减,“与”比“或”优先。

(5)先左,后右

解释:同级运算,先做左边的,后做右边的。

(6)搞不清,加括号。

解释:自己写算术表达式和逻辑表达式时,搞不清运算符优先级,可以加括号,括号里的总是先。

2010年7月31日星期六

What is Rank sum test(秩和检验)?

什么是秩和检验?
秩和检验方法最早是由维尔克松提出,叫维尔克松两样本检验法。后来曼—惠特尼将其应用到两样本容量不等()的情况,因而又称为曼—惠特尼U检验。这种方法主要用于比较两个独立样本的差异。

1、假设中的等价问题
  设有两个连续型总体, 它们的概率密度函数分别为:
  f1(x),f2(x)(均为未知)
  已知f1(x) = f2(x − a),a为末知常数,要检验的各假设为:
H0:A = 0,H1:a < 0.
H0:A= 0,H1:a > 0.
H0:A=0,H1:a≠ne 0.
  设两个总体的均值存在,分别记为μ1,μ2,由于f1,f2最多只差一平移,则有μ2 = μ1 − a。此时, 上述各假设分别等价于:
H01 = μ2,H11 < μ2
H01 = μ2,H11 > μ2
Particularly, read the link http://www.pinggu.com/index.php?doc-innerlink-%E7%A7%A9%E5%92%8C%E6%A3%80%E9%AA%8C

Definition of Percential and Suitable Conditions of Percential

Definition of Percential:
PX=L+ i(nx%-Σf l)/f
L---the distance of the group; n----value number; x---your given percent. Σf l----closest last group frequency number; f---this group's frequecy number.
第X百分位数以Px表示,它将总体或样本的全部观察值分成二个部分,其中有x%个观察值小于Px, (100-x)%个观察值大于Px。
帮助理解它的含义:
        分位数用于衡量样本中各数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项是如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下。
     第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。(数据项或者说是样本数据中每一个数据在样本总体中的位置是理解的关键)
比如说, 某一个样本观察值是4.7, 而我们算出(给出的40%这点的百分位数P50=4.71, 那就表明这个样本观察值位于整个样本中位于接近但不到50%的地方, 也就是比较接近中值(即核心)的位置, 所以说,P50是样本中最有代表性的观察值, 对样本总体而言. 它反映了这批数据在数轴或coordinate上的定位, 即在R set中的定位.
Suitable Conditions of Percential
1.描述一组资料在各个百分位置上的水平,用一组百分位数如P5,P25, P50, P75, P95,可以描述总体或样本的分布特征(level),如集中位置、变异度等.
2.确定医学正常值范围。
P25称为第1四分位数;记为Q1。
P50称为第2四分位数;记为Q2,就是中位数M
P75称为第3四分位数;记为Q3。
3. 分布中部的百分位数稳定, 具有较好的代表性;
4.计算百分位数时,特别是靠近两端的百分位数时,要求例数足够大,大于100例。

Suitable Conditions for Median

Suitable Conditions for Median (P50 or M)
its calculative formula look at my the first blog.
its suitable conditions are as below:
1.偏态分布资料(因为它不受特别大或特别小的数据值影响)或数据一段或两端无确切数据;
2.未知分布类型的资料.

Matter needing attention of geometric mean

Matter needing attention of geometric mean:
1. Usally, it is used in 等级资料或对数分布资料;
2. If there is Zone in your data group, usally, you can not use plumply it.
3.investigative data can appear synchronously negative values and plus values; If all values are negative, you may change them to plus values, then add negative symbol in font of the result after you got a result.
适用条件1.成倍数关系的资料。2.明显正偏态分布的资料
attend:
对数技巧的使用对实际计算是必不会少的.
列成频数表时计算公式如下:
LogG=∑flogX/Σf