炸鸡人博客 基本上无害
Posts with the tag 翻译:

通过缩放和偏移压缩数据

ERA5 的 NetCDF 文件或卫星的 HDF 文件为了压缩文件体积会用 16 位整数存储变量,读取时跟属性里的 add_offsetscale_factor 做运算恢复成 64 位浮点数。如果你是用 Python 的 NetCDF4 或 xarray 包处理 NetCDF 文件,甚至都不用关心这些细节,它们默认会帮你解包成浮点数。问题是,如果自己也想用这种方法压缩数据,那么 add_offsetscale_factor 该如何设置,压缩率能有多高,又会损失多少精度呢?一番搜索后发现 Unidata Developer’s Blog 上的博文 Compression by Scaling and Offfset(原文标题确实把 offset 拼错了)清晰地介绍了压缩的原理和参数选择,现翻译前半部分,后半部分关于 GRIB 压缩的看不懂感觉也用不上,偷懒不翻了。

今天来深入了解一下存储浮点数据时如何指定所需的精度,抛弃那些对于精度来说多余的比特。这些多余的比特往往很随机所以不可压缩,导致标准压缩算法的效果有限。需要注意这种操作是一种有损压缩

如何从最初的颜色匹配实验导出 CIE 1931 RGB 颜色匹配函数

罗切斯特大学朱禺皓的 博客文章,基于颜色匹配实验的原始论文跟后人的调查,先从单位系统和色度系数讲起,再引入颜色匹配函数的概念和计算方法,并直接指出颜色匹配函数就是匹配单位功率单色光的亮度时,红绿蓝三基色的亮度经亮度系数缩放后的值。本文讲解的顺序跟一般教科书相反,显得更加自然和易于理解。专业术语的翻译可能有误,还请读者指正。

cover

一些汉化资源

manga

预测的 KPI:RMSE、MAE、MAPE 和 Bias

Nicolas Vandeput 发布在 Towards Data Science 上的文章,同时也是其著作《Data Science for Supply Chain Forecasting》中的一章。

为预测任务挑选一个合适的指标并没有想象中那么简单,所以这次我们来研究一下 RMSE、MAE、MAPE 和 Bias 的优缺点。剧透:MAPE 是其中最差的,别用。

fig1

PyTorch 时间序列预测入门

xkcd

最近学习用 PyTorch 做时间序列预测,发现只有 TensorFlow 官网的教程 把时间窗口的选取和模型的设置讲得直观易懂,故改编如下。本人也只是入门水平,翻译错误之处还请指正。

本文是利用深度学习做时间序列预测的入门教程,用到的模型包括卷积神经网络(CNN)和循环神经网络(RNN)。全文分为两大部分,又可以细分为:

  • 预测单个时间步:
    • 预测一个特征。
    • 预测所有特征。
  • 预测多个时间步:
    • 单发预测:模型跑一次输出所有时间步的结果。
    • 自回归:每次输出一个时间步的预测,再把结果喂给模型得到下一步的预测。

本文用到的数据和 notebook 可以在 GitHub 仓库 找到。

编写科研作图代码有更好的方法

这是物理海洋学家 Ken Hughes 在 2021 年发表的博客文章,原文标题为 A better way to code up scientific figures。以 Matplotlib 和 Matlab 为例,强调了模块化思想对于科研作图代码的帮助。我很少看到关于作图方法论的文章,所以翻译出来交流学习。

我画一张出版级别的科研配图一般需要写 100 - 200 行代码,这个长度有点点危险,因为很容易写出能正常运行但又一团糟的东西。如果代码片段都很短还可以从头重写,但如果代码有上千行,提前做好规划会更明智一些。不过在这两种极端情况之间潜藏着另一种吸引人的做法:写出一段当时感觉无比连贯,但以后会让你吃苦头的脚本。

假设你想画一张中等复杂度的图片,类似下面这张:

data_overview-1