生物统计学笔记 - 图文

更新时间:2024-05-05 18:06:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

生物统计学

Statisticsis the introduction of mathematical language into specific fields of scienc. It is an art and science for collecting, analyzing, showing and interpreting data.

Sources of randomness

The problem involves a large number of data, can not be fully studied, can only be used in a \

The random error of the experiment, that is, the error caused by the uncontrolled, unrecongnized factors in the test process.

Two major factions Classical

The probability of an event can be explained by a large number of repeated experiments, and this explanation does not depend on the cognitive body. Bayes

Any inference of the parameters is necessary and can only be based on the posterior distribution of parameters.

Common statistical terms Population: Individual:

Sample:a set of individuals drawn from a population is called a sample. Each individual that makes up a sample is called a sample unit.

The number of individuals included in the sample is called sample size or sample sizes, and the sample capacity is often recorded as n.

Generally in biological research, n<=30 samples are usually called small samples.the calculation and analysis of some statics between small and big samples are different.

The basic characterstic of statistical analysis is to infer the whole by sample.

Variables and constants

Deviation and error Deviation:

random error: sampling error systematic error: lopsoded error

生物统计学教学大纲

2018年3月5日 18:26

第一章 绪论 (2学时)

主要内容:介绍课程的性质、内容和考核方式;了解生物统计学的发展历史和基本概念;通过具体实例说明生物体中随机现象的普遍性。 重点和难点:让学生认识到随机性在生命系统中具有普遍性。 1. 生物统计发展历史

2. 生物体中随机现象的普遍性

第二章:试验·与特征数的计算 (2学时)

主要内容:试验资料的类型、收集与整理,层次分布表、直方图等收集和显示数据方式;特征数的计算,包括平均数、众数、方差、极差等。 重点和难点:特征数的计算,平均数、众数、方差和极差的含义 1. 试验材料的收集与整理 2. 特征数的计算

第三章:概率和概率分布(4学时)

主要内容:大数定理;几种常见的理论分布,二项分布、泊松分布和正态分布;统计数的分布,t分布、χ2分布、F分布。 重点和难点:几种常见的理论分布和统计数的分布 1. 概率基础知识

2. 几种常见的理论分布 3. 统计数的分布

第四章:统计推断 (8学时)

主要内容:假设检验的原理和方法,具体假设检验方法,包括u检验、t检验和方差的同质性检验;参数估计和点估计,非参数检验。 重点和难点:假设检验的原理和方法,具体假设检验方法 1. 假设检验的原理和方法 2. 样本平均数的假设检验 3. 样本频率的假设检验 4. 方差的同质性检验 第五章:卡方检验(2学时)

主要内容:卡方检验的原理和方法,Pearson定理;卡方检验的应用,适合性检验和独立性检验。

重点和难点:卡方检验的原理和方法 1. 卡方检验的原理和方法 2. 适合性检验 3. 独立性检验

第六章:方差分析(4学时)

主要内容:方差分析、协方差分析的原理和方法,单因素、多因素方差分析,单因素、多因素协方差分析。

重点和难点:方差分析、协方差分析的原理和方法 1. 方差分析的基本原理 2. 单因素方差分析 3. 二因素方差分析

第七章:直线回归与相关分析(4学时)

主要内容:直线回归的原理和方法,曲线拟合的原理和方法,相关分析的原理和方法。

重点和难点:重点是直线回归的原理和方法,相关分析的原理和方法 1. 直线回归分析 2. 直线相关

第八章:试验设计及其统计分析(2学时)

主要内容:试验设计的基本原理,常用试验设计和分析方法。

重点和难点:重点是试验设计的基本原理,难点是每个原理的具体实现方式和相关分析方法。

1. 试验设计的基本原则:重复、随机和局部控制

2. 局部控制的方法:比对设计、随机区组设计和拉丁方设计等 第九章:扩展知识 (4学时, 理论课)

主要内容:课程项目实践相关知识,包括统计学和生物学相关基础知识,如多重检验和小样本检验等统计学知识,以及DNA突变和单核苷酸多态性、基因型与表型、转录因子结合等生物学知识。

重点和难点:生物学和统计学之间的内在逻辑关系 1. DNA突变、转录因子结合、表型之间的联系 2. 课程项目实践和统计学在各个环节的衔接关系 实践环节:课程项目实践 (16学时,上机操作)

主要内容:根据生物统计学基本原理约设置4个生物学问题,在教师提供数据和具体解析待解决生物学问题的前提下,学生自行完成项目。项目结果以书面报告形式和课堂展示两种方式进行。

重点和难点:通过课程项目实践使学生初步具备应用统计学基本概念和方法分析并解决具体生物问题的能力。

1. 模式生物基因组GC含量特征或基因突变方向特征 2. 基因型和表型关联分析 3. 转录因子结合位点 4. 自由选题

来自

生物统计学概念及主要内容

2018年3月9日 19:54

The concept and main content of biostatistics

Concept:

Biostatistics is the application of mathematical statistics in biological research

Sources of biological randomness Variability, uncertainty, complexity

Collation of data &caculation of the characteristic number

2018年3月9日 20:03

Type of test data:

Collection and collation of test data

Quantitative character is a character which could be counted or measured, the data get in this way is called data of quantitative characteristics

The quantitative trait data is divided into two kinds, discrete type and continous.

Qualitative character means the character which could be measured directly.

The data obtained from the observation of quality traits is the quality character data. This type of trait can not be direcyly used as a numerical value, to obtain data on such traits, it is necessary to quantify the results of their observations.

Collection of test data: Overall, samples

Random samping must meet 2 conditions :

Equal opportunity of each individual being drawn in the whole

Independent of each other in the whole, whether being drawn is not affected by other individual.

Finishing of test data:

The formulation of the distribution table

The caculation of the characteristic number

2018年3月11日

16:47

The distribution of variables has two distinct basic characteristics: centealization and dispersion

Arithmetic mean: the sum means the number

Median: the number standing at the middle of the line

Mode: the value that has the most occurrences of the observed value Geometric:

Application scope:the geometrical mean numberis applicable to the logarithmic normal distribution of variable x, and the data of normal distribution after logarithmic transformation. Harmonic mean:

The reciprocal of the arithmetic mean of the reciprocal of the observations in the data

The important nature of arithemetic averages:

The sum of the deviations is equal to zero The square sum of the deviation is minimum

Range: the difference between the maximum value and the minimum value of a sample variable Variance:

Standard deviation:

The characteristics of standard deviation:

The size of the standard deviation, affected by multiple observations, if the observation number of large differences between the difference is also large, and vise versa is small

Coefficient of variabilit: CV=s / x × 100%

The degree of relative variability of different samples can be compared

Probabity and probility distribution

2018年3月12日 12:40

The concept:

Wheather or not something happens

Frequency: the number of occurrences of the event dicided by the total times

Probability: the frequency obtained after extensive testings, which is an approximate value. Classocalprobabilty: the probablity is calculated directy from the characteristics of the event. Geometric probablity is considered as a random experiment with an infinite number of possible basic events

The axiomatic definition of probablity:

Caculation of probability:

Plot& and events, mutex events, opposing events, independent events, complete event system

The law of probability caculation:

the addition theorem of mutex events.

定理: 若事件A与B互斥,则 P(A+B)=P(A)+P(B) 推理1 P(A1+A2+…+An)=P(A1)+P(A2)+…+P(An) 推理2 P(A)=1-P(A)

推理3 完全事件系的和事件的概率为1。

Probability distribution of discrete variables

Probability distribution of continuous type variables

The probability depend on the distribution density function

Law of large numbers: Chebyshev inequalities:

Berrnoulli's law of large numbers:

Sinchin law of large numbers:

第二节:

几种常见的理论分布:

二项分布:实验只有两个对立结果,具有重复性和独立性

二项分布的形状和参数:p值较小且n不大时,分布是偏倚的,随着n的增大,分布趋于对称;当p趋于0.5时,分布趋于对称

当n足够大时,符合泊松分布 泊松分布函数的推导:

正态分布:

特征:

分布曲线由μ,σ决定,前者确定曲线中心位置,后者确定正太分布的变异度

他方分布:

特征:

(1)χ2分布于区间[0,+∝ )。

(2)χ2分布的偏斜度随自由度降低而增大,当自由度df=1时,曲线以纵轴为渐近线。 (3)随自由度df的增大, χ2分布曲线渐趋左右对称,当df>30时,卡方分布已接近正态分布。 t分布

(1)t分布曲线是左右对称的,围绕平均数μt =0 向两侧递降。 (2)t分布受自由度制约,每个自由度都有一条t分布曲线。

(3)和正态分布相比,t分布顶端偏低,尾部偏高,自由度df>30时,其曲线接近正态分布曲线,n→∝时则和正态分布曲线重合。 F分布:

(1)F分布的平均数μF=1 ,F的取值区间为[0,+∝)

(2)F分布曲线的形状仅决定于n1和n2。在n1=1或2时,F分布曲线呈严重倾斜的反向J型,当n1≧ 3时,转为左偏曲线。

统计数的分布

如果所有可能样本的某一统计数的平均数等于总体的相应参数,则称该统计数为总体相应参数的无偏估计值。

现有一N=3总体,具有变量3,4,5,可以求出 μ=4, σ 2=0.6667,σ =0.8165。 现以n=2作独立的有放回式抽样。

中实际是几乎不可能发生的。

小概率事件在一次抽样中基本上不会发生。 二 、假设检验的步骤

例:设矽肺病患者的血红蛋白含量

具平均数?0=126(mg/L), ?=240 (mg/L)的正态分布。现用克矽平对6位矽肺病患者进行治疗,治疗后化验测得其平均血红蛋白含量x =136(mg/L)。问:该药物治疗是否有效?

2

2

治疗后 n =6 x =136

那么 ?x=?0 ? 即克矽平对治疗矽肺是否有效?

1 、提出假设

例:克矽平治疗矽肺病是否能提高血红蛋白含量?

x-?0=136-126=10(mg/L)这一差数 是由于治疗造成的,还是抽样误差所致。 平均数的假设检验

检验治疗后的总体平均数?是否还是治疗前的126(mg/L)?

本例中零假设是指治疗后的血红蛋白平均数仍和治疗前一样,二者来自同一总体,接受零假设则表示克矽平没有疗效。 而相对立的备择假设表示拒绝H0,治疗后的血红蛋白平均数和治疗前的平均数来自不同总体,即克矽平有疗效。

2 、 确定显著水平

能否定H0的人为规定的概率标准称为显著水平,记作?。 统计学中,一般认为概率小于0.05或0.01的事件为小概率事件,所以在小概率原理基础上建立的假设

检验也常取?=0.05和?=0.01两个显著水平 。

3、选定检验方法,计算检验统计量,确定概率值

根据研究设计的类型和统计推断的目的选择使用不同的检验方法。

本文来源:https://www.bwwdw.com/article/jm2g.html

Top