bootstrap


bootstrap

文章插图
什么是bootstrap方法:
bootstrap

文章插图
在统计学中,自助法是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中 。
自助法由Bradley Efron于1979年在《Annals of Statistics》上发表 。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);
但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析 。采用随机可置换抽样(random sampling with replacement) 。对于小数据集,自助法效果很好 。
最常用的一种Bootstrap自助法,假设给定的数据集包含d个样本 。该数据集有放回地抽样m次,产生m个样本的训练集 。这样原数据样本中的某些样本很可能在该样本集中出现多次 。没有进入该训练集的样本最终形成检验集 。
显然每个样本被选中的概率是1/m,因此未被选中的概率就是(1-1/m),这样一个样本在训练集中没出现的概率就是m次都未被选中的概率,即(1-1/m)^m 。当m趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2% 。
例如:人工样本为1,2,3;只有三个样本,则可以从随机变量X,分布为P(X=k)=1/3, k=1,2,3; 这样的经验分布中用计算机根据上述分布自动产生样本,如产生5个样本:1 2 3 2 1;也可以是:3 3 2 1 1
自助法在数据集较小、难以有效划分训练集和测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处 。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差 。因此,在初始数据量足够时,留出法和交叉验证法更常用一些 。
在统计学中,自助法是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中 。
优点
bootstrap 的一大优点是它的简单性 。这是导出复杂分布估计量的标准误差和置信区间估计值的直接方法 。
Bootstrap 也是控制和检查结果稳定性的合适方法 。尽管对于大多数问题不可能知道真正的置信区间,但自举法比使用样本方差和正态性假设获得的标准区间渐近更准确 。Bootstrapping 也是一种方便的方法,它避免了重复实验以获取其他组样本数据的成本 。
缺点
尽管自举是渐近一致的,但它不提供一般的有限样本保证 。结果可能取决于代表性样本 。表面上的简单性可能掩盖了这样一个事实,即在进行自举分析时正在做出重要假设,而这些假设将在其他方法中更正式地说明 。此外,引导可能非常耗时 。
统计
如果参数可以写为总体分布的函数,则总体参数的点估计量的自举分布已被用于生成参数真实值的自举置信区间 。
人口参数是用许多点估计器估计的 。点的估计器的流行家族包括均值无偏最小方差估计,中值无偏估计,贝叶斯估计器,和最大似然估计 。
根据渐近理论,贝叶斯点估计器和最大似然估计器在样本大小无限时具有良好的性能 。对于有限样本的实际问题,其他估计器可能更可取 。渐近理论提出了通常可以提高自举估计器性能的技术;最大似然估计量的自举通常可以使用与关键量相关的转换来改进 。
以上内容参考百度百科-自助法
什么是Bootstrap?为什么使用 Bootstrap:
bootstrap

文章插图
Bootstrap 是一个用于快速开发 Web 应用程序和网站的前端框架 。Bootstrap 是基于 HTML、CSS、JAVASCRIPT 的 。
Bootstrap 是由 Twitter 的 Mark Otto 和 Jacob Thornton 开发的 。Bootstrap 是 2011 年八月在 GitHub 上发布的开源产品 。
为什么使用 Bootstrap?
移动设备优先:自 Bootstrap 3 起,框架包含了贯穿于整个库的移动设备优先的样式 。
浏览器支持:所有的主流浏览器都支持 Bootstrap 。
容易上手:只要您具备 HTML 和 CSS 的基础知识,您就可以开始学习 Bootstrap 。
响应式设计:Bootstrap 的响应式 CSS 能够自适应于台式机、平板电脑和手机 。更多有关响应式设计的内容详见 Bootstrap 响应式设计 。
它为开发人员创建接口提供了一个简洁统一的解决方案 。
它包含了功能强大的内置组件,易于定制 。
它还提供了基于 Web 的定制 。

推荐阅读