数据分析|概率密度函数曲线及绘制
创始人
2024-04-05 22:15:23

目录

  • 前言
  • 概率密度函数曲线
  • 几类经典的概率密度函数
  • 两种绘制密度曲线的方法
  • 参考文献

前言

很多数据科学家在做回归模型评估的时候,不仅会去计算模型拟合优度R2,平均绝对误差还会去看测试集的每个样本偏差的分布情况,这个时候就需要用到概率密度函数曲线的知识了,通过绘制概率密度函数曲线图或者直方图可以很直观的看到测试集的所有样本的偏差分布情况。

概率密度函数曲线

我们知道概率是用来度量一件事物发生可能性大小,以抛色子为例,一枚色子是一个正六面体,一共6个面,分别标有1~6,随手一抛,求出现点数5朝上的可能性是多少?因为样本空间数是6,对点数5朝上的有利事件数是1(点数5朝上),因此,出现点数5朝上的概率都是1/6,这是古典概率论的描述,列出其概率分步表如下

点数123456
概率1/61/61/61/61/61/6

画出其概率分布图如下
抛色子概率分布图

对于有限离散的样本空间,我们可以列出概率分布表画出概率分布图,如果,某事件可能取值是某个连续的区间 [a,b][a,b][a,b],也有其对应的概率值,这种对应关系称为连续型概率函数,记作

p=f(x),x∈[a,b]p = f(x), x\in[a,b]p=f(x),x∈[a,b]

其中,p表示自变量取x附近一小段的概率,对应的概率分布函数图像可以用一条连续的曲线来刻画
概率函数曲线
其中,横坐标表示自变量x取值范围,从a到b,可以是a,b中间某一点或某一小段或几个小段的并等,纵坐标表示因变量f(x)取值大小,可以得到

∫aaf(x)dx=1\int_{a}^{a} f(x) dx = 1 ∫aa​f(x)dx=1

这样,概率函数可以定义为连续型随机变量(X)在某个确定的取值点附近的可能性的函数,可以类比一个质地不均匀的橡皮泥横梗在a,b之间,如果要求这块橡皮泥的质量,那么就要知道从a到b的各处的密度大小,所以概率函数也叫概率密度函数。

几类经典的概率密度函数

  • 正态分布

正态分布是最常见的一种的概率分布,也称为也称为高斯分布,它刻画了随机变量(X)服从一个位置参数为μ\muμ 、尺度参数为σ\sigmaσ的概率分布,其概率密度函数为

f(x)=12πσe−(x−μ)22σ2f(x) = \frac{1}{\sqrt {2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x)=2π​σ1​e−2σ2(x−μ)2​

如果随机变量(X)服从一个数学期望为μ\muμ,方差为σ2\sigma^2σ2的正态分布,记作 X∼N(μ,σ2)X\sim N(\mu, \sigma^2)X∼N(μ,σ2),特别的,当μ=0,σ2=1\mu =0, \sigma^2 = 1μ=0,σ2=1时,称为标准正态分布。

  • 泊松分布

泊松分布是一种常见的离散型概率分布,刻画了单位时间内随机事件发生的次数,其概率密度函数为
P(X=k)=λkk!e−λ,k=0,1,2,⋯P(X = k) = \frac{\lambda^k}{k!}e^{-\lambda}, k = 0, 1, 2,\cdots P(X=k)=k!λk​e−λ,k=0,1,2,⋯

  • 伯努利分布

伯努利分布常用来刻画0-1概率分布,如果随机变量(X)仅有两个可能的结果0和1,此时随机变量(X)取0和1两个值,相应的概率密度函数为
p={p,X=11−p,X=0p = \begin{cases} p, \quad X= 1\\ \\ 1-p,\quad X=0 \end{cases} p=⎩⎧​p,X=11−p,X=0​

两种绘制密度曲线的方法

某数据科学家通过算法模型获得一组预测值,其想要评估预测值与实际值之间偏差分布情况,可以绘制出偏差的概率分布函数曲线图或者直方图,观测这些偏差分布情况,这里给出两种绘制概率密度曲线的方法

  • matplotlib

matplotlib是python比较原生的绘图模块,适合平时使用习惯,功能强大用法友善,出场率高。

def density(column_1, column_2): #密度函数diff = abs(column_1 - column_2)  #差异率plt.figure(figsize = (6, 4)) #新建画布diff.plot(kind ='kde', label = u'观测值') #label = str(lower) +'~'+ str(upper)plt.grid(alpha = 0.5) #添加网格线plt.xlabel("偏差")plt.ylabel("密度值")plt.legend()plt.title("偏差密度分布图")plt.show()

预览效果

matplotlib
matplotlib绘制概率密度函数曲线主要调用了**kind =‘kde’**的参数,这是一种密度图(Kernel Density Estimate,核密度估计),它是通过模拟计算“可能会产生观测数据的连续情况概率分布的估计”而产生的,因此在调用plot时加上kind='kde’即可生成一张密度图,也就是我们看到的概率密度函数曲线图。

  • seaborn

seaborn也是python中的一个常用的可视化模块,是对matplotlib进行二次封装而成,所以有些方面要比matplotlib更简单更友好

def density(column_1, column_2): #密度函数diff = abs(column_1 - column_2)  #差异率plt.figure(figsize = (6, 4)) #新建画布sb.kdeplot(diff, label = 'density') #密度曲线plt.grid(alpha = 0.5) #添加网格线plt.xlabel("偏差")plt.ylabel("密度值")plt.legend()plt.title("偏差概率密度曲线")plt.show()

预览效果

seaborn

seaborn就进一步把这个观测值连续模拟过程封装成了kdeplot函数,直接调用即可,但从两者的概率函数曲线来看,matplotlib更具有对称性,seaborn细节更丰富,我们可以从seaborn的密度函数曲线看到实际值的数量级和预测值的数量级大致在10000左右,偏差有大有小,但主要集中在-500到2000之间。

参考文献

1,https://baike.baidu.com/item/概率密度函数/5021996?fr=aladdin
2,https://zhuanlan.zhihu.com/p/48140593
3,https://www.zhihu.com/question/263467674
4,http://t.zoukankan.com/Renyi-Fan-p-13282258.html
5,https://blog.csdn.net/helloworld0906/article/details/103214392

相关内容

热门资讯

埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
埃菲尔铁塔在哪 中国仿建埃菲尔... 2019年4月26日,广西南宁市,街头惊现一座巨型山寨版埃菲尔铁塔,高约20米,白色塔身,造型逼真,...
苗族的传统节日 贵州苗族节日有... 【岜沙苗族芦笙节】岜沙,苗语叫“分送”,距从江县城7.5公里,是世界上最崇拜树木并以树为神的枪手部落...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...
长白山自助游攻略 吉林长白山游... 昨天介绍了西坡的景点详细请看链接:一个人的旅行,据说能看到长白山天池全凭运气,您的运气如何?今日介绍...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
应用未安装解决办法 平板应用未... ---IT小技术,每天Get一个小技能!一、前言描述苹果IPad2居然不能安装怎么办?与此IPad不...
脚上的穴位图 脚面经络图对应的... 人体穴位作用图解大全更清晰直观的标注了各个人体穴位的作用,包括头部穴位图、胸部穴位图、背部穴位图、胳...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...