数据科学基础(四) 大数定律与中心极限定理
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
4.1 大数定律
大量重复实验的平均结果的稳定性.
4.1.1. 马尔可夫不等式
$P\{X\geq a\}\leq\displaystyle\frac{EX}{a}$
证明:$EX=\displaystyle\int_0^{\infty}xf(x)dx=\int_a^{\infty}xf(x)dx+\int_0^{a}xf(x)dx\geq\int_a^{\infty}xf(x)dx\geq\int_a^{\infty}af(x)dx=a P\{X\geq a\}$
4.1.2. 切比雪夫不等式
定理: 若 $EX$ 和 $DX$ 均存在, $\forall \epsilon >0$,均有 ${|X-EX|\geq \epsilon } \leq \frac{DX}{\epsilon ^2}$
证明:
\begin{aligned}\\{|X-EX|\geq \epsilon \\}&=\int_{|X-EX|\geq \eps ...
数据科学基础(五) 数理统计的基本概念
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
5.1. 总体与样本5.2. 常用统计量定义
样本均值: $\overline{X}=\displaystyle\frac{1}{n}\displaystyle\sum_{i=1}^{n}X_i$
修正后的样本方差: $\begin{aligned}S^{2}=\frac{1}{n-1} \sum{i=1}^{n}\left(X{i}-\bar{X}\right)^{2}\end{aligned}$
样本均值和样本方差的性质
定理: 设总体$X$的均值为$EX=\mu$,方差为$DX=\sigma^2$,样本{$X_1,X_2,\ldots ,X_n$} 来自总体$X$ ,则:
$E\overline{X}=\mu$
$\displaystyle D\overline{X} = \frac{1}{n}\sigma^2$
$ES^2=\sigma^2$
前两者证明略. $ES^2=\sigma^2$ 的证明:
\begin ...
数据科学基础(七) 假设检验
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
7.1. 假设检验7.1.1. 假设检验问题
参数估计:讨论如何根据样本得到总体分布所含参数的优良估计.
假设检验:讨论怎样在样本的基础上观察上面所得到的估计值与真实值之间在统计意义上相拟合,从而做出一个有较大把握的结论.
例子: 设菜厂生产一种灯管,其寿命X $\sim \mathrm{N}(\mu, 40000),$ 从过去较长一段 时间的生产情况看,灯管的平均寿命为 1500 小时,现在使用了新工艺后,在所生产的灯管中抽取25只,测得的平均寿命为1675 小时,问:采用新工艺后,灯管的寿命是否有显著提高?为了判别新产品的寿命是否显著提高,提出两个假设:
原假设 $H_0:$
新产品的寿命 $\mu=1500$
接受 $H_0:$ 新产品寿命没有提高
备择假设 $H_1:$
新产品的寿命 $\mu > 1500$
拒绝 $H_0:$(接受$H_1$) 新产品的寿命有所提高.
注意:一般情况下,将希望成立的假设设为 $H_1$ ...
Java 基础(五) 继承(以实现一个存放 CD 、DVD 的 Database 为例)
在 Database.java 文件中实现了一个 Database 的类,其中含有 ArrayList 类型的成员变量 list 来存放数据。此外还有对 list 进行增添和遍历的add(Item newItem)和list()方法。
12345678910111213141516171819202122//Database.javapackage database;import java.util.ArrayList;public class Database { private ArrayList<Item> list = new ArrayList<>(); public void add(Item newItem) { list.add(newItem); } public void list(){ for(Item item:list) item.print(); } public static void main(St ...
数据科学基础(九) 回归分析和方差分析
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
9.1 回归分析9.1.1 相关性分析
皮尔逊 (Pearson) 相关系数.
r=\frac{1}{n-1}\sum_{i=1}^{n}\frac{(X_i-\bar X)(Y_i-\bar Y)}{s_Xs_Y}$\bar X,\bar Y$ 为样本均值, $s_x,s_y$ 是样本方差.
Pearson 相关系数用于度量两个随机变量 $X,Y$ 的线性关系. 可近似估计 $\rho$ .
取值范围: $[-1,1]$ , 绝对值越接近 1 , 则线性关系越强.
对称性.
原样本经过线性变换不影响 $r$ 值.
不描述因果关系.
对相关系数 $r$ 进行显著性检验
H_0:\rho = 0, H_1:\rho\neq 0构造统计量:
\begin{aligned}\\
t&=\frac{r}{S_r}\sim t(n-2), S_r = \sqrt{\frac {1-r^2}{n-2} }
\end{aligned}若原假 ...
数据科学基础(十) 降维
📚 文档目录随机事件及其概率随机变量及其分布期望和方差大数定律与中心极限定理数理统计的基本概念参数估计假设检验多维回归分析和方差分析降维
10.1 主成分分析(PCA)不懂线性代数, 下面这些参考了一些 PCA 的说明, 但我总觉得某些解释的不是很严谨.
目标PCA 常用于高维数据的降维,可用于提取数据的主要特征分量.
对于原始数据矩阵
A=\begin{bmatrix}
x_{11} &x_{12} & \cdots & x_{1n}\\
x_{21} &x_{22} & \cdots & x_{2n}\\
\vdots & \vdots & \cdots &\vdots \\
x_{r1} &x_{r2} & \cdots & x_{rn}\\
\end{bmatrix}其中, 列向量(x_{1i},x_{2i},\cdots,x_{ri})^T 为 $n$ 个样本中的一个. $r$ 行表示 $r$ 个维度.
对该矩阵进行中心化,得到中心化矩阵 $X$
计算机组织结构 合集
📖 本笔记参考计算机组织结构课程的课件, 由于时间关系, 后期缺失部分内容
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
系统概述
指令和数据在关机时储存在外存中,开机后存储在内存
冯·诺依曼计算机工作方式的基本特点是按地址访问指令并自动按序执行程序
指令由操作码和地址码组成
控制器通过执行指令来控制整个机器运行
注意对存储器来讲,例如 $32K\times16位$的存储器意为,该存储器为 16 位可寻址, 共有 32K 个存储单元, 若对于芯片来讲,不能得到什么信息
结构 ( Architecture ) :对程序员可见
对于程序的逻辑执行有着直接影响
例如: 该计main算机有无乘法器
组织 ( Organization ) : 对程序员不可见
操作单元及其相互联系
该计算机中的乘法器是如何实现的
Stored Program: 意为将指令、数据以二进制的方式存储到主存中.摩尔定律: 每 18 个月,晶体管的数量增加一倍,价格下降 ...
计算机组织结构(一) 数的二进制表示
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
二进制补码整数补数:负数加模得补数,负数的补数和负数的绝对值相加等于模
浮点数小密 大稀疏
Java 基础(九) 数据与表现分离( 以"细胞自动机"为例)
Field 维护了一个二维数组, 里面存放着 Cell,Field 可以往二维数组中存放、取出指定 Cell, 获得指定 Cell 的邻居; Cell 可以用 draw() 绘制自己; view 只做一件事: 从 Filed 获得数据, 根据数据来paint().
计算机组织结构(四) 浮点数四则运算
📚 文档目录合集-数的二进制表示-定点运算-BCD 码-浮点数四则运算-内置存储器-Cache-外存-纠错-RAID-内存管理-总线-指令集: 特征- 指令集:寻址方式和指令格式
浮点数的加减运算$X=X_S \times 2^{X_E},Y=Y_S \times 2^{Y_E}$
步骤
检查是否为零
阶码对齐,尾数移位
对尾数加或减
标准化结果
溢出判断
对阶
求阶差$\Delta E=\begin{cases} =0,已经对齐\\ne0,\begin{cases}大的向小的对齐:减小较r大的阶码,同时扩大其尾数\小的向大的对齐:增大较小的阶码,同时减小其尾数 \end{cases} \\end{cases}$在计算机中,尾数左移可能会使最高位数据丢j失,故采用小阶向大阶对齐
浮点数加减的过程
一些溢出情况1. Exponent overflow
一个正的指数超出了指数的最大值(即127)
指定为$-\infty 或 +\infty$
2. Exponent underflow
一个负的指数小于了指数的最小值(即-126)
指定为0.
3. Signi ...
