人工智能数学基础
人工智能数学基础
一、数据描述
1、概率与频率
频率的定义:在n次重复试验,事件A发生了m次(0<=m<=n),m叫做事件A的频数,事件A的频数在试验的总次数中的比例M/n,叫做事件A出现的频率。频率的范围:[0,1]。记做P(A)
概率的定义:随机事件A发生可能性大小的度量(非负实数,<=1),称为事件A发生的概率,记做P(A)。在大量重复进行同一试验时,事件A发生的频率m(A)/n总是接近于某个数,在它附近摆动,这个常数就是事件A的概率。因此只要n相当大,概率是可以通过频率来测量的,或者说频率是概率的一个近似。因此:事件A的概率P(A)是对事件A发生可能性大小的一个度量,它是一个确定的数值,其值大于0小于1。与试验次数n无关。事件A的频率m(A)/n是一个与试验次数n有关的数,它总是在概率P(A)附近摆动。当试验
次数n相当大的时候,频率可以作为概率的一个近似,或者说概率是可以通过频率来测量。
2、均值、中位数、众数、四分位数
均值:大多数时候所说的平均数,它的定义如下:均值= 所有数值的总和 / 所有数值的个数总和
中位数:分类数据组的中间值(如果数据个数为偶数,则是两个中间数值和的一半)
众数:数据组中出现次数最多的值(或者一组值)
四分位数(Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数
第一四分位数 (Q1),又称"下四分位数",等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称"中位数",等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称"上四分位数",等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile
Range, IQR)。
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的最大值、最小值、中位数和两个四分位数;然后, 连接两个四分位数画出箱子;再将最大值和最小值与箱子相连接,中位数在箱子中间。
3、误差(error)、偏差(bias)和方差(variance)
error=bias+variance(忽略噪音),Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输出结果与模型输出期望之间的误差,即模型的稳定性。
机器学习:
偏差:度量学习算法的期望预测与真实结果的偏离程度,也叫拟合能力。
方差:度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动造成的影响。
总体期望:总体中所有观察值的总和除以个体总数所得得商称为总体期望值,即“总体期望值”
为“总体的算术平均值”,总体期望值能反映总体分布中大量数据向某一方向中的情况,利用总体期望值
可以对两个总体的差异进行比较。