硬币 vs 违约:从一个对比走通信息论与概率统计
抛硬币和预测违约,都是二元结果,都有概率,熵公式通用,数学形式完全一样。 但一个不需要模型,另一个养活了整个行业。 为什么? 这篇笔记想做的事情是:以这个对比为主线,每往下挖一层,就逼出一个信息论或概率统计的核心概念。硬币始终是"对照组"——每引入一个新概念,先问"对硬币有没有用",再问"对风控有没有用"。有用的差异就是新概念的价值所在。 ...
抛硬币和预测违约,都是二元结果,都有概率,熵公式通用,数学形式完全一样。 但一个不需要模型,另一个养活了整个行业。 为什么? 这篇笔记想做的事情是:以这个对比为主线,每往下挖一层,就逼出一个信息论或概率统计的核心概念。硬币始终是"对照组"——每引入一个新概念,先问"对硬币有没有用",再问"对风控有没有用"。有用的差异就是新概念的价值所在。 ...
最近重新整理信息论,发现它概念不多但关系很紧——一个地方没想透,后面就越背越乱。所以这篇笔记不写成公式大全,而是按我自己复习的顺序来: 数学基础:熵、条件熵、互信息、交叉熵 工程实践:压缩、通信、ML、风控、LLM 语言现象:诗词、文言文和日常所说的”信息量” 原始讨论来自这个 ChatGPT 对话。把这些概念串成体系的人是 Claude E. Shannon(1916-2001),他的贡献在第一部分末尾展开。 ...
打开一个网页,看起来只是点了一下链接。 但在这背后,浏览器、HTTP、TCP、TLS,甚至 QUIC,要一起配合,才能把页面安全、完整、尽快地送到你眼前。 ...
最近在想一个问题: 人类会通过睡眠来清理噪音、巩固记忆、重组经验,那 agent 能不能也有一个类似的“睡眠机制”? 如果把 agent 的记忆系统只理解为“存更多”,最后通常会变成信息垃圾堆。真正有价值的不是记得更多,而是: ...
MySQL 8.0中主要有三类常用数据类型,分别是数值类型(Numeric Data Types),日期和时间类型(Data and Time Data Types),字符类型(String Data Types)。 ...