机器学习数学基础总结

目录 线性代数 一、基本知识 二、向量操作 三、矩阵运算 概率论与随机过程 一、概率与分布 1.1 条件概率与独立事件 1.2 联合概率分布 二、期望 三、方差 3.1 方差 3.2 协方差与相关系数 3.3 协方差矩阵 四、大数定律及中心极限定理 4.1 切比雪夫不等式 4.2 大数定理 4.3 中心极限定理 五、不确定性来源 六、常见概率分布 6.1 均匀分布 6.2 二项分布 6.3 高斯分布 6.4 指数分布 6.5 拉普拉斯分布 6.6 狄拉克分布 6.7 多项式分布与狄里克雷分布 6.8 混合概率分布 七、先验分布与后验分布 八、测度论 九、信息论 数值计算 一、数值稳定性 1.1 近似误差 1.2 softmax 函数 二、Conditioning 三、梯度下降法 四、海森矩阵 4.1 二阶导数 4.2 海森矩阵 4.3 海森矩阵与学习率 4.4 驻点与全局极小点 四、牛顿法 五、拟牛顿法 5.1 原理 5.2 DFP 算法 5.2 BFGS 算法 5.3 Broyden 类算法 六、 约束优化 6.1 原理 6.2 KKT 方法 常用函数 一、 sigmoid 二、 softplus 三、Gamma 函数和贝塔函数 3.1 伽马函数 3.2 伽马分布 3.3 贝塔函数 线性代数 一、基本知识 本文中所有的向量都是列向量的形式: → x =(x1,x2,⋯,xn)T=[ x1 x2 ⋮ xn ] 本书中所有的矩 X∈Rm×n 都表示为: X=[ x1,1 x1,2 ⋯ x1,n x2,1 x2,2 ⋯ x2,n ⋮ ⋮ ⋱ ⋮ xm,1 xm,2 ⋯ xm,n ] 简写为 (xi,j)m×n 或 [xi,j]m×n 。 矩阵的F范数:设矩 A=(ai,j)m×n ,则其F范数为 ||A||F= √ ∑i,ja 2 i,j 。 它是向量 L2 范数的推广。 矩阵的迹:设矩 A=(ai,j)m×n , A 的迹为 tr(A)=∑iai,i 。 迹的性质有: A 的F 范数等 AAT 的迹的平方根 ||A||F= √ tr(AAT) 。 A 的迹等 AT 的迹 tr(A)=tr(AT) 。 交换律:假设 A∈Rm×n,B∈Rn×m ,则有 tr(AB)=tr(BA) 。 结合律 tr(ABC)=tr(CAB)=tr(BCA) 。 二、向量操作 一组向 → v 1, → v 2,⋯, → v n 是线性相关的:指存在一组不全为零的实 a1,a2,⋯,an ,使得 ∑ n i=1 ai → v i= → 0 。 一组向 → v 1, → v 2,⋯, → v n 是线性无关的,当且仅 ai=0,i=1,2,⋯,n 时,才有 ∑ n i=1 ai → v i= → 0 。 一个向量空间所包含的最大线性无关向量的数目,称作该向量空间的维数。 三维向量的点积 → u ⋅ → v =uxvx+uyvy+uzvz=| → u || → v |cos( → u , → v ) 。 三维向量的叉积: → w = → u × → v =[ → i → j → k ux uy uz vx vy vz ] 其 → i , → j , → k 分别 x,y,z 轴的单位向量。 → u =ux → i +uy → j +uz → k , → v =vx → i +vy → j +vz → k ​ → u 和 → v 的叉积垂直于 → u , → v 构成的平面,其方向符合右手规则。 叉积的模等于 → u , → v 构成的平行四边形的面积 → u × → v =− → v × → u → u ×( → v × → w )=( → u ⋅ → w ) → v −( → u ⋅ → v ) → w 三维向量的混合积: [ → u → v → w ]=( → u × → v )⋅ → w = → u ⋅( → v × → w )=| ux uy uz vx vy vz wx wy wz |=| ux vx wx uy vy wy uz vz wz | 其物理意义为: → u , → v , → w 为三个棱边所围成的平行六面体的体积。 → u , → v , → w 构成右手系时,该平行六面体的体积为正号。 两个向量的并矢:给定两个向 → x =(x1,x2,⋯,xn)T, → y =(y1,y2,⋯,ym)T ,则向量的并矢记作: → x → y =[ x1y1 x1y2 ⋯ x1ym x2y1 x2y2 ⋯ x2ym ⋮ ⋮ ⋱ ⋮ xny1 xny2 ⋯ xnym ] 也记 → x ⊗ → y 或 → x → y T 。 三、矩阵运算 给定两个矩 A=(ai,j)∈Rm×n,B=(bi,j)∈Rm×n ,定义: 阿达马积Hadamard product(又称作逐元素积): A∘B=[ a1,1b1,1 a1,2b1,2 ⋯ a1,nb1,n a2,1b2,1 a2,2b2,2 ⋯ a2,nb2,n ⋮ ⋮ ⋱ ⋮ am,1bm,1 am,2bm,2 ⋯ am,nbm,n ] 克罗内积Kronnecker product: A⊗B=[ a1,1B a1,2B ⋯ a1,nB a2,1B a2,2B ⋯ a2,nB ⋮ ⋮ ⋱ ⋮ am,1B am,2B ⋯ am,nB ] → x , → a , → b , → c n 阶向量 A,B,C,X n 阶方阵,则有: ∂( → a T → x ) ∂ → x = ∂( → x T → a ) ∂ → x = → a ∂( → a TX → b ) ∂X = → a → b T= → a ⊗ → b ∈Rn×n ∂( → a TXT → b ) ∂X = → b → a T= → b ⊗ → a ∈Rn×n ∂( → a TX → a ) ∂X = ∂( → a TXT → a ) ∂X = → a ⊗ → a ∂( → a TXTX → b ) ∂X =X( → a ⊗ → b + → b ⊗ → a ) ∂[(A → x + → a )TC(B → x + → b )] ∂ → x =ATC(B → x + → b )+BTC(A → x + → a ) ∂( → x TA → x ) ∂ → x =(A+AT) → x ∂[(X → b + → c )TA(X → b + → c )] ∂X =(A+AT)(X → b + → c ) → b T ∂( → b TXTAX → c ) ∂X =ATX → b → c T+AX → c → b T 如 f 是一元函数,则: 其逐元向量函数为 f( → x )=(f(x1),f(x2),⋯,f(xn))T 。 其逐矩阵函数为: f(X)=[ f(x1,1) f(x1,2) ⋯ f(x1,n) f(x2,1) f(x2,2) ⋯ f(x2,n) ⋮ ⋮ ⋱ ⋮ f(xm,1) f(xm,2) ⋯ f(xm,n) ] 其逐元导数分别为: f′( → x )=(f′(x1),f′(x2),⋯,f′(xn))Tf′(X)=[ f′(x1,1) f′(x1,2) ⋯ f′(x1,n) f′(x2,1) f′(x2,2) ⋯ f′(x2,n) ⋮ ⋮ ⋱ ⋮ f′(xm,1) f′(xm,2) ⋯ f′(xm,n) ] 各种类型的偏导数: 标量对标量的偏导数 ∂u ∂v 。 标量对向量 n 维向量)的偏导数 ∂u ∂ → v =( ∂u ∂v1 , ∂u ∂v2 ,⋯, ∂u ∂vn )T 。 标量对矩阵 m×n 阶矩阵)的偏导数: ∂u ∂V =[ ∂u ∂V1,1 ∂u ∂V1,2 ⋯ ∂u ∂V1,n ∂u ∂V2,1 ∂u ∂V2,2 ⋯ ∂u ∂V2,n ⋮ ⋮ ⋱ ⋮ ∂u ∂Vm,1 ∂u ∂Vm,2 ⋯ ∂u ∂Vm,n ] 向量 m 维向量)对标量的偏导数 ∂ → u ∂v =( ∂u1 ∂v , ∂u2 ∂v ,⋯, ∂um ∂v )T 。 向量 m 维向量)对向量 n 维向量)的偏导数(雅可比矩阵,行优先) ∂ → u ∂ → v =[ ∂u1 ∂v1 ∂u1 ∂v2 ⋯ ∂u1 ∂vn ∂u2 ∂v1 ∂u2 ∂v2 ⋯ ∂u2 ∂vn ⋮ ⋮ ⋱ ⋮ ∂um ∂v1 ∂um ∂v2 ⋯ ∂um ∂vn ] 如果为列优先,则为上面矩阵的转置。 矩阵 m×n 阶矩阵)对标量的偏导数 ∂U ∂v =[ ∂U1,1 ∂v ∂U1,2 ∂v ⋯ ∂U1,n ∂v ∂U2,1 ∂v ∂U2,2 ∂v ⋯ ∂U2,n ∂v ⋮ ⋮ ⋱ ⋮ ∂Um,1 ∂v ∂Um,2 ∂v ⋯ ∂Um,n ∂v ] 对于矩阵的迹,有下列偏导数成立: ∂[tr(f(X))] ∂X =(f′(X))T ∂[tr(AXB)] ∂X =ATBT ∂[tr(AXTB)] ∂X =BA ∂[tr(A⊗X)] ∂X =tr(A)I ∂[tr(AXBX)] ∂X =ATXTBT+BTXAT ∂[tr(XTBXC)] ∂X =(BT+B)XCCT ∂[tr(CTXTBXC)] ∂X =BXC+BTXCT ∂[tr(AXBXTC)] ∂X =ATCTXBT+CAXB ∂[tr((AXB+C)(AXB+C))] ∂X =2AT(AXB+C)BT 假 U=f(X) 是关 X 的矩阵值函数 f:Rm×n→Rm×n ), g(U) 是关 U 的实值函数 g:Rm×n→R ),则下面链式法则成立: ∂g(U) ∂X =( ∂g(U) ∂xi,j )m×n=[ ∂g(U) ∂x1,1 ∂g(U) ∂x1,2 ⋯ ∂g(U) ∂x1,n ∂g(U) ∂x2,1 ∂g(U) ∂x2,2 ⋯ ∂g(U) ∂x2,n ⋮ ⋮ ⋱ ⋮ ∂g(U) ∂xm,1 ∂g(U) ∂xm,2 ⋯ ∂g(U) ∂xm,n ]=( ∑k ∑l ∂g(U) ∂uk,l ∂uk,l ∂xi,j )m×n=(tr[( ∂g(U) ∂U )T ∂U ∂xi,j ])m×n 概率论与随机过程 一、概率与分布 1.1 条件概率与独立事件 条件概率:已 A 事件发生的条件 B 发生的概率,记 P(B∣A) ,它等于事 AB 的概率相对于事 A 的概率,即: P(B∣A)= P(AB) P(A) 其中必须 P(A)>0 条件概率分布的链式法则:对 n 个随机变 x1,x2,⋯,xn ,有: P(x1,x2,⋯,xn)=P(x1) n ∏ i=2 P(xi∣x1,⋯,xi−1) 两个随机变 x,y 相互独立的数学描述: ∀x∈X,∀y∈Y,P(x=x,y=y)=P(x=x)P(y=y) 记作 x⊥y 两个随机变 x,y 关于随机变 z 条件独立的数学描述: ∀x∈X,∀y∈Y,∀z∈ZP(x=x,y=y∣z=z)=P(x=x∣z=z)P(y=y∣z=z) 记作 x⊥y∣z 1.2 联合概率分布 定 x y 的联合分布为: P(a,b)=P{x≤a,y≤b},−∞0 p(x,y)py(y)= ∑x:p(x,y)>0 p(x,y) x y 联合地连续时,即存在函 p(x,y) ,使得对于所有的实数集 A B 满足: P{x∈A,y∈B}=∫B∫Ap(x,y)dxdy 则函 p(x,y) 称 x y 的概率密度函数。 联合分布为 P(a,b)=P{x≤a,y≤b}=∫ a −∞ ∫ b −∞ p(x,y)dxdy x y 的概率密度函数以及分布函数分别为: Px(a)=∫ a −∞ ∫ ∞ −∞ p(x,y)dxdy=∫ a −∞ px(x)dxPy(b)=∫ ∞ −∞ ∫ b −∞ p(x,y)dxdy=∫ b −∞ py(y)dypx(x)=∫ ∞ −∞ p(x,y)dypy(y)=∫ ∞ −∞ p(x,y)dx 二、期望 期望:(是概率分布的泛函,函数的函数) 离散型随机变 x 的期望: E[x]= ∞ ∑ i=1 xipi 若级数不收敛,则期望不存在 连续性随机变 x 的期望: E[x]=∫ ∞ −∞ xp(x)dx 若极限不收敛,则期望不存在 期望描述了随机变量的平均情况,衡量了随机变 x 的均值 定理: y=g(x) 均为随机变量 g(⋅) 是连续函数 x 为离散型随机变量, y 的期望存在,则: E[y]=E[g(x)]= ∞ ∑ i=1 g(xi)pi x 为连续型随机变量, y 的期望存在,则: E[y]=E[g(x)]=∫ ∞ −∞ g(x)p(x)dx 该定理的意义在于:当 E(y) 时,不必计算 y 的分布,只需要利 x 的分布即可。该定理可以推广至两个或者两个以上随机变量的情况。此时: E[Z]=E[g(x,y)]=∫ ∞ −∞ ∫ ∞ −∞ g(x,y)p(x,y)dxdy 上述公式也记做: Ex∼P[g(x)]= ∑x g(x)p(x)Ex∼P[g(x)]=∫g(x)p(x)dxEx,y∼P[g(x)]∫g(x,y)p(x,y)dxdy 期望性质: 常数的期望就是常数本身 对常 C 有: E[Cx]=CE[x] 对两个随机变 x,y ,有: E[x+y]=E[x]+E[y] 该结论可以推广到任意有限个随机变量之和的情况 对两个相互独立的随机变量,有: E[xy]=E[x]E[y] 该结论可以推广到任意有限个相互独立的随机变量之积的情况 三、方差 3.1 方差 对随机变 x , E[(x−E[x])2] 存在,则称它 x 的方差,记 Var[x] x 的标准差为方差的开平方。即: Var[x]=E[(x−E[x])2]σ= √ Var[x] 方差度量了随机变量 x 与期望值偏离的程度,衡量了 x 取值分散程度的一个尺度。 由于绝对值 |x−E[x]| 带有绝对值,不方便运算,因此采用平方来计算。又因为 |x−E[x]|2 是一个随机变量,因此对它取期望,即得 x 与期望值偏离的均值 根据定义可知: Var[x]=E[(x−E[x])2]=E[x2]−(E[x])2Var[f(x)]=E[(f(x)−E[f(x)])2] 对于一个期望 μ ,方差 σ2,σ≠0 的随机变 x ,随机变 x∗= x−μ σ 的数学期望为0,方差为1。 x∗ x 的标准化变量 方差的性质: 常数的方差恒为0 对常 C Var[Cx]=C2Var[x] 对两个随机变 x,y ,有 Var[x+y]=Var[x]+Var[y]+2E[(x−E[x])(y−E[y])] 当 x 和 y 相互独立时,有 Var[x+y]=Var[x]+Var[y] 。可以推广至任意有限多个相互独立的随机变量之和的情况 Var[x]=0 的充要条件 x 以概率1取常数 3.2 协方差与相关系数 对于二维随机变 (x,y) ,可以讨论描 x y 之间相互关系的数字特征。 定义 E[(x−E[x])(y−E[y])] 为随机变量 x 与 y 的协方差,记作 Cov[x,y]=E[(x−E[x])(y−E[y])] 。 定义 ρxy= Cov[x,y] √ Var[x] √ Var[y] 为随机变量 x 与 y  的相关系数,它是协方差的归一化。 由定义可知: Cov[x,y]=Cov[y,x]Cov[x,x]=Var[x]Var[x+y]=Var[x]+Var[y]+2Cov[x,y] ​ 协方差的性质: Cov[ax,by]=abCov[x,y] , a,b 为常数 Cov[x1+x2,y]=Cov[x1,y]+Cov[x2,y] Cov[f(x),g(y)]=E[(f(x)−E[f(x)])(g(y)−E[g(y)])] ρ[f(x),g(y)]= Cov[f(x),g(y)] √ Var[f(x)] √ Var[g(y)] 协方差的物理意义: 协方差的绝对值越大,说明两个随机变量都远离它们的均值。 协方差如果为正,则说明两个随机变量同时趋向于取较大的值;如果为负,则说明一个随变量趋向于取较大的值,另一个随机变量趋向于取较小的值 两个随机变量的独立性可以导出协方差为零。但是两个随机变量的协方差为零无法导出独立性 因为独立性也包括:没有非线性关系。有可能两个随机变量是非独立的,但是协方差为零 假设随机变 x∼U[−1,1] 。定义随机变 s 的概率分布函数为: P(s=1)= 1 2 P(s=−1)= 1 2 定义随机变 y=sx ,则随机变 x,y 是非独立的,但是有 Cov[x,y]=0 相关系数的物理意义:考虑以随机变 x 的线性函 a+bx 来近似表 y 。以均方误差 e=E[(y−(a+bx))2]=E[y2]+b2E[x2]+a2−2bE[xy]+2abE[x]−2aE[y] 来衡量 a+bx 近似表 y 的好坏程度 e 越小表示近似程度越高。为求得 最好的近似,则 a,b 分别取偏导数,得到: a0=E[y]−b0E[x]=E[y]−E[x] Cov[x,y] Var[x] b0= Cov[x,y] Var[x] min(e)=E[(y−(a0+b0x))2]=(1−ρ 2 xy )Var[y] 因此有以下定理: |ρxy|≤1 |...| 是绝对值) |ρxy|=1 的充要条件是,存在常数 a,b 使得 P{y=a+bx}=1 |ρxy| 较大时 e 较小,表明随机变 x y 联系较紧密,于 ρxy 是一个表 x y 之间线性关系紧密程度的量。 ρxy=0 时, x y 不相关。 不相关是就线性关系来讲的,而相互独立是一般关系而言的。 相互独立一定不相关;不相关则未必独立。 3.3 协方差矩阵 矩: x y 是随机变量 若 E[xk],k=1,2,⋯ 存在,则称它为 x 的 k 阶原点矩,简称 k 阶矩 若 E[(x−E[x])k],k=2,3,⋯ 存在,则称它为 x 的 k 阶中心矩 若 E[xkyl],k,l=1,2,⋯ 存在,则称它为 x 和 y 的 k+l 阶混合矩 若 E[(x−E[x])k(y−E[y])l],k,l=1,2,⋯ 存在,则称它为 x 和 y 的 k+l 阶混合中心矩 因此期望是一阶原点矩,方差是二阶中心矩,协方差是二阶混合中心矩 协方差矩阵:二维随机变 (x1,x2) 有四个二阶中心矩(设他们都存在),记作: c11 =E[(x1−E[x1])2] c12 =E[(x1−E[x1])(x2−E[x2])] c21 =E[(x2−E[x2])(x1−E[x1])] c22 =E[(x2−E[x2])2] 这个矩阵称作随机变 (x1,x2) 的协方差矩阵。 n 维随机变 (x1,x2,⋯,xn) 的二阶混合中心 cij=Cov[xi,xj]=E[(xi−E[xi])(xj−E[xj])],i,j=1,2,⋯,n ,都存在,则称矩阵 C=[ c11 c12 ⋯ c1n c21 c22 ⋯ c2n ⋮ ⋮ ⋱ ⋮ cn1 cn2 ⋯ cnn ] n 维随机变 (x1,x2,⋯,xn) 的协方差矩阵。 由于 cij=cji,i≠j,i,j=1,2,⋯,n 因此协方差矩阵是个对称阵 通 n 维随机变量的分布是不知道的,或者太复杂以致数学上不容易处理。因此实际中协方差矩阵非常重要。 四、大数定律及中心极限定理 4.1 切比雪夫不等式 切比雪夫不等式:随机变 x 具有期 E[x]=μ ,方 Var(x)=σ2 ,对于任意正 ε ,不等式 P{|x−μ|≥ε}≤ σ2 ε2 成立 其意义是:对于距 E[x] 足够远的地方(距离大于等 ε ),事件出现的概率是小于等 σ2 ε2 ;即事件出现在区 [μ−ε,μ+ε] 的概率大 1− σ2 ε2 该不等式给出了随机变 x 在分布未知的情况下,事 {|x−μ|≤ε} 的下限估计( P{|x−μ|<3σ}≥0.8889 证明: P{|x−μ|≥ε}=∫|x−μ|≥εp(x)dx≤∫|x−μ|≥ε |x−μ|2 ε2 p(x)dx≤ 1 ε2 ∫ ∞ −∞ (x−μ)2p(x)dx= σ2 ε2 切比雪夫不等式的特殊情况:设随机变 x1,x2,⋯,xn,⋯ 相互独立,且具有相同的数学期望和方差 E[xk]=μ,Var[xk]=σ2,k=1,2,⋯ 。作 n 个随机变量的算术平均 ¯ x = 1 n ∑ n k=1 xk ,则对于任意正 ε 有: limn→∞ P{| ¯ x −μ|<ε}= limn→∞ P{| 1 n n ∑ k=1 xk−μ|<ε}=1 证明: E[ 1 n n ∑ k=1 xk]=μVar[ 1 n n ∑ k=1 xk]= σ2 n 有切比雪夫不等式,以 n 趋于无穷时,可以证明。详细过程省略 4.2 大数定理 依概率收敛: y1,y2,⋯,yn,⋯ 是一个随机变量序列 a 是一个常数。若对于任意正 ε 有 limn→∞P{|yn−a|≤ε}=1 ,则称序 y1,y2,⋯,yn,⋯ 依概率收敛 a 。记作 yn P → a 依概率收敛的两个含义: 收敛:表明这是一个随机变量序列,而不是某个随机变量;且序列是无限长,而不是有限长 依概率:表明序列无穷远处的随机变量 y∞ 的分布规律为:绝大部分分布于点 a ,极少数位于 a 之外。且分布于 a 之外的事件发生的概率之和为0 大数定理一:设随机变 x1,x2,⋯,xn,⋯ 相互独立,且具有相同的数学期望和方差 E[xk]=μ,Var[xk]=σ2,k=1,2,⋯ 。则序列 ¯ x = 1 n ∑ n k=1 xk 依概率收敛 μ , ¯ x P → μ 这里并没有要求随机变量 x1,x2,⋯,xn,⋯ 同分布 伯努利大数定理: nA n 次独立重复实验中事 A 发生的次数 p 是事 A 在每次试验中发生的概率。则对于任意正 ε 有: limn→∞ P{| nA n −p|<ε}=1or: limn→∞ P{| nA n −p|≥ε}=0 即:当独立重复实验执行非常大的次数时,事件 A 发生的频率逼近于它的概率 辛钦定理:设随机变 x1,x2,⋯,xn,⋯ 相互独立,服从同一分布,且具有相同的数学期望 E[xk]=μ,k=1,2,⋯ 。则对于任意正 ε 有: limn→∞ P{| 1 n n ∑ k=1 xk−μ|<ε}=1 这里并没有要求随机变量 x1,x2,⋯,xn,⋯ 的方差存在 伯努利大数定理是亲钦定理的特殊情况。 4.3 中心极限定理 独立同分布的中心极限定理:设随机变 x1,x2,⋯,xn 独立同分布,且具有数学期望和方差 E[xk]=μ,Var[xk]=σ2>0,k=1,2,⋯ ,则随机变量之 ¯ Sxn =∑ n k=1 xk 的标准变化量: yn= ¯ Sxn −E[ ¯ Sxn ] √ Var[ ¯ Sxn ] = ¯ Sxn −nμ √ n σ 的概率分布函 Fn(x) 对于任 x 满足: limn→∞ Fn(x)= limn→∞ P{yn≤x}= limn→∞ P{ ∑ n k=1 xk−nμ √ n σ ≤x}=∫ x −∞ 1 √ 2π e−t2/2dt=Φ(x) 其物理意义为:均值方差为 μ,σ2 的独立同分布的随机变量 x1,x2,⋯,xn 之和 ¯ Sxn =∑ n k=1 xk 的标准变化量 yn ,当 n 充分大时,其分布近似与标准正态分布。即 ¯ Sxn =∑ n k=1 xk 在 n 充分大时,其分布近似于 N(nμ,nσ2) 一般情况下,很难求出 n 个随机变量之和的分布函数。因此当 n 充分大时,可以通过正态分布来做理论上的分析或者计算。 Liapunov定理:设随机变 x1,x2,⋯,xn,⋯ 相互独立,具有数学期望和方差 E[xk]=μk,Var[xk]=σ 2 k >0,k=1,2,⋯ ,记 B 2 n =∑ n k=1 σ 2 k 。 若存在正 δ ,使得 n→∞ 时, 1 B 2+δ n n ∑ k=1 E[|xk−μk|2+δ]→0 则随机变量之 ¯ Sxn =∑ n k=1 xk 的标准变化量: Zn= ¯ Sxn −E[ ¯ Sxn ] √ Var[ ¯ Sxn ] = ¯ Sxn −∑ n k=1 μk Bn 的概率分布函 Fn(x) 对于任 x 满足: limn→∞ Fn(x)= limn→∞ P{Zn≤x}= limn→∞ P{ ∑ n k=1 xk−∑ n k=1 μk Bn ≤x}=∫ x −∞ 1 √ 2π e−t2/2dt=Φ(x) 其物理意义为:相互独立的随机变量 x1,x2,⋯,xn,⋯ 之和 ¯ Sxn =∑ n k=1 xk 的衍生随机变量序 Zn= ¯ Sxn −∑ n k=1 μk Bn ,当 n 充分大时,其分布近似与标准正态分布。 这里并不要求 x1,x2,⋯,xn,⋯ 同分布 Demoiver-Laplace定理:设随机变量序 ηn,n=1,2,... 服从参数 n,p(00) 为常数。 若随机变量 x 的概率密度函数如上所述,则称 x 服从参数为 μ,σ 的正态分布或者高斯分布,记作 x∼N(μ,σ2) 。 特别的,当 μ=0,σ=1 时,称为标准正态分布,其概率密度函数记作 φ(x) , 分布函数记作 Φ(x) 为了计算方便,有时也记作: N(x;μ,β−1)= √ β 2π exp(− 1 2 β(x−μ)2) 其 β∈(0,∞) 正态分布是很多应用中的合理选择。如果某个随机变量取值范围是实数,且对它的概率分布一无所知,通常会假设它服从正态分布。有两个原因支持这一选择: 建模的任务的真实分布通常都确实接近正态分布。中心极限定理表明,多个独立随机变量的和近似正态分布。 在具有相同方差的所有可能的概率分布中,正态分布的熵最大(即不确定性最大)。 正态分布的概率密度函数性质: 曲线关于 x=μ 对称 曲线在 x=μ 时取最大值 曲线在 x=μ±σ 处有拐点 参 μ 决定曲线的位置 σ 决定图形的胖瘦 x∼N(μ,σ2) 则 x−μ
50000+
5万行代码练就真实本领
17年
创办于2008年老牌培训机构
1000+
合作企业
98%
就业率

联系我们

电话咨询

0532-85025005

扫码添加微信