在线(单遍)算法
0.0通常认为计算方差需要先算出均值,再回头计算各点与均值的平方差之和。然而,方差实际上可以通过单遍扫描数据集的方式在线计算,无需存储所有数据点或进行二次遍历。这类单遍算法在数据流处理和大规模数据场景中尤为实用。
30 条来自 johndcook-com 的内容
通常认为计算方差需要先算出均值,再回头计算各点与均值的平方差之和。然而,方差实际上可以通过单遍扫描数据集的方式在线计算,无需存储所有数据点或进行二次遍历。这类单遍算法在数据流处理和大规模数据场景中尤为实用。
KL散度衡量两个随机变量分布的差异,非负且当分布相同时为零,但因不满足对称性和三角不等式而非度量。本文介绍Jeffreys散度(对称化KL散度)和Jensen-Shannon散度(进一步通过取平均分布保证对称性且有界),后者平方根可作为真正的度量,广泛应用于机器学习与信息论。
文章探讨了 Meta 标志与贝萨斯(Besace)曲线的关系。贝萨斯曲线具有隐式形式和参数形式,参数 t 的取值范围为 [0, 2π]。给定一条类似 Meta 标志的贝萨斯曲线,问题在于如何找到合适的参数 a 和 b 来拟合该曲线。文章说明了如何通过改写方程来解决这一拟合问题。
本文深入探讨了如何计算来自标准正态分布 N(0, 1) 的 n 个样本的期望极差(最大值与最小值之差)。结果以 σ 为单位给出,若 σ 不为 1,则需乘以相应 σ 值。文章基于此前关于12人陪审团中智商期望极差的讨论,提供了更通用的计算方法。
最近网上有人讨论智商差距过大会导致两人难以沟通。有研究证实了这一现象,但并非无法克服,需要刻意努力。有人反驳这一观点,指出陪审团成员之间的预期智商差异其实并不大。本文从统计角度分析了一个随机选出的陪审团中,成员间智商差异的数学期望值。
本文探讨了希尔伯特变换与傅里叶级数之间的关系。作者回顾了自己之前的文章,指出一个函数的傅里叶级数与其希尔伯特变换的傅里叶级数之间存在特定联系。文中进一步思考了如果将这种变换视为一个无限矩阵,会得到怎样的数学结构和性质。
上一篇博文介绍了笔者基于Henry Baker一篇文章整理的笔记,该文章通过实变函数实现复变函数。即寻找函数u(x, y)和v(x, y),使得f(x + iy) = u(x, y) + i v(x, y),其中x、y、u和v均为实数。
本文介绍了如何仅使用实变量的实函数来计算复数的初等函数值,例如通过特定公式计算复数的正弦和余弦。虽然所有初等函数都可以用类似方法处理,但某些函数的表达式会比正弦余弦复杂得多。文章延续了作者此前关于复数运算实部化方法的讨论。
三角函数和双曲函数并非可逆函数,但人们仍然对其进行逆运算。这些函数将定义域中的多个点映射到值域中的同一个点,而逆运算则通过限制定义域或选择主值分支,将值域中的点映射回定义域中的一个特定值。文章探讨了这种"雅致"(可逆的)与"粗犷"(不可逆但被强行求逆)的函数配对现象。
圆函数与双曲函数之间的差异可通过旋转来理解。例如,cosh(z) = cos(iz) 表明,求 z 的双曲余弦相当于先将 z 左旋四分之一圈(即乘以 i),再求余弦。这一视角揭示了两种函数在复数域中的深层联系。
√(z² − 1) 的定义看似简单,实则暗藏玄机。当 x 为非负实数时,√x 定义为平方等于 x 的非负实数;但扩展到复数域后,情况变得更加微妙。本文深入探讨了这一数学问题背后的细节与歧义。
前文推导了一个恒等式,并指出当 x > 1 且 y > 1 时该式成立。现在用 Mathematica 绘制图形来验证,观察恒等式成立时图形的平坦区域。结果确实在 x > 1 区间内保持平坦,这也解释了为何需要强调其适用范围。
马尔可夫数满足方程 x² + y² + z² = 3xyz。唐·扎吉尔通过近似方程 x² + y² + z² = 3xyz + 4/9 来研究马尔可夫数,该方程等价于 f(x) + f(y) = f(z),其中 f(t) = arccosh(3t/2)。本文探讨了引入这一近似方程的数学动机及其意义。
本文探讨如何逆向恢复xorshift128随机数生成器的内部状态。继之前分析Mersenne Twister和lehmer64之后,作者这次聚焦于xorshift128,给出了包含四个32位种子变量(a、b、c、d)的实现示例,并讨论了状态恢复的技术方法。
本文探讨了在C语言中处理128位整数的技巧。作者发现,虽然可用64位值初始化128位无符号整数(例如用于表示随机数生成器的内部状态),但直接使用128位值初始化更能简化代码。文章揭示了C语言在处理扩展整数类型时的一些意外特性,并提供了实用的初始化和打印方法。
本文介绍了如何破解 lehmer64 随机数生成器。该生成器实现非常简单,Daniel Lemire 称其为“最快的随机数生成器之一”。与之前破解梅森旋转算法(Mersenne Twister)的方法类似,作者展示了如何从 640 个输出流中恢复 lehmer64 的内部状态。文章详细分析了该生成器的数学结构及其安全隐患。
本文讨论了有限域上随机矩阵可逆的概率问题。若域有q个元素,矩阵为n×n维,则概率表达式与欧拉函数相关。作者指出该概率随n增大而快速收敛,并对此现象进行了分析。
将序列向右移位的逆操作是什么?自然是向左移位。但仔细一想:假设有一个八位二进制序列 abcdefgh,向右移位后得到 0abcdefg。再向左移位则得到 abcdefg0——你无法恢复原始数据。本文探讨了移位操作的逆运算并不简单等同于反向移位这一数学事实。
本文探讨了随机填充0和1的n×n矩阵的可逆性概率问题。作者指出,计算这一概率有两种主要方法:一种基于模2(即GF(2)域)的线性代数,另一种则考虑实数域下的可逆性。文章分析了这两种不同解释下的概率差异,并给出了具体的概率计算公式和数值结果。
前一篇文章探讨了梅森旋转算法的温度补偿步骤,将一系列位运算形式化为模2矩阵乘法。本文将进一步深入分析这些组件的细节。线性代数定理通常不依赖于标量域,典型标量域是实数或复数,但模2矩阵乘法同样适用这些定理。
梅森旋转算法(MT)是一种统计性质优良但密码学性质较弱的随机数生成器(属于PRNG而非CSPRNG)。本文展示了如何通过线性代数方法,从生成器的输出中恢复其内部状态。与常见的位操作逆向方法不同,本文采用纯线性代数途径展开分析。
曲率的概念虽然直观,但计算通常很复杂。对于水平集曲线 f(x, y) = c,即使 f 的表达式相当简单,曲率 κ 的表达式也可能变得繁琐。本文探讨了曲率计算中的这一难点。
上一篇文章构建了"squircle"的三角类比,即p-范数下的单位圆,p通常取值在4左右。当p=2时得到欧几里得圆,而p→∞时极限为欧几里得正方形。该文引入三个函数Li(x, y),每个函数的水平集都能构成平滑的多边形边界,为圆与多边形之间的形状过渡提供了新的数学方法。
在讨论吉他拨片形状的帖子中,读者提到了一种类似“圆方”(squircle)的等腰三角形形状。这启发作者思考:是否存在更直接的三角形版本的圆方?圆方并非简单的圆角正方形,其边是连续弯曲的。本文探索了三角形的这类平滑曲线形状的数学类比。
作者致力于在不同电脑间维持一致的工作环境,避免因非必要原因导致差异。通过重新映射按键,让同一按键在不同设备上执行相同功能,从而简化操作习惯的切换。这种方法适用于各种配置文件,帮助实现跨平台的无缝工作体验。
作者与朋友探讨了范畴论作为一种有用的模式描述语言,同时也指出人们对它抱有不切实际的期望,认为它能不劳而获。随后作者引用了Qiaochu Yuan的一篇帖子,其观点与他们的讨论不谋而合。文章反思了范畴论被过度神化的现象。
有人在X上发帖称,将连字符改为短破折号会使PDF文件大小增加约10字节。作者最初认为这与连字符是ASCII字符而短破折号不是有关——将连字符改为短破折号本会使UTF-8文本文件...但实际原因并非如此简单。
本文探讨了函数 (log x)² + (log y)² = 1 的等高线形状。与标准的圆方程 x² + y² = 1 不同,对其取对数后,曲线呈现出类似吉他拨片的独特轮廓。作者展示了当右侧等于 1、2 等不同值时的图形变化。
本文探讨了如何通过余弦函数的幂次来构造偶函数的简单精确近似,以贝塞尔函数 J(x) 被 (1 + cos(x))/2 近似为例展开。作者在博文中将这一技巧发展为通用方法,并指出该近似实际上是布尔曼定理(Burmann's theorem)的一阶特例。文章通过数学分析与实例,展示了如何利用余弦幂次序列系统性地逼近各类偶函数。
当一个函数在经典意义上不可微时,存在多种计算广义导数的方法。本文探讨了经典导数的三种推广形式,并将其分别应用于神经网络中常用的激活函数——ReLU(修正线性单元)。