译:黄小伟,资深数据从业者。目前就职杭州有赞数据分析团队,欢迎加入!
2019年12月份,152个R新包收录于CRAN(11月份收录144个),累计收录15,667个R包!由于CRAN会不定时进行R包增删,所以具体数量会随时间略有变化。此次整理了十个类别,分别为数据获取、基因组学、机器学习、数学、医学、科学、统计学、时间序列、效率工具和可视化工具。以下是本期(总第37期)R新包的核心功能介绍:
一.数据获取
- climate: 提供从OGIMET、怀俄明州大学和波兰气象与水管理研究所国家研究所获取气象和水文数据的途径.2. CCAMLRGIS: 支持加载和创建空间数据,包括与南极海洋生物资源保护委员会(南极海生委)活动有关的图层和工具.
- schrute: 包含美国版办公室电视节目的完整脚本,格式为tibble.4. simfinR: 通过API访问SimFin财务数据,包括资产负债表、现金流和损益表.
- statcanR: 提供访问加拿大统计局Web数据服务的权限.
二. 基因组学
- ampir: 实现从全基因组范围内的蛋白质序列预测抗菌肽的工具包,包括使用Meher等人描述的计算出的物理-化学和组成序列特性在公开的抗菌肽数据上训练的支持向量机模型.2. simplePHENOTYPES: 在加性、显性和上位模型下实现多效性和连锁不平衡的模拟算法.3. TreeTools: 提供创建、修改和分析系统发生树以及从Newick、Nexus和TNT格式导入和导出树的功能.
三. 机器学习
1. AzureVision:实现与Azure计算机视觉和Azure自定义视觉的接口,允许用户利用云来使用高级图像处理模型执行视觉识别任务.2. dann: 实现了判别式自适应最近邻分类,其中k个最近邻的变化是沿着类边界拉长的.3. eventstream: 提供函数以提取和分类二维或三维连续时空数据流中的事件.
- isotree: 提供隔离林、扩展隔离林、科学林和公平割林的多线程实现,用于孤立的孤立点检测、聚类离群点检测、距离或相似性近似以及缺失值的填补,如科特斯所描述(2019).
- mlr3proba: 扩展mlr3用于概率监督学习,包括概率和区间回归、生存模型和其他模型.6. NLPclient: 实现一个到斯坦福CoreNLP注释客户端的接口,该客户端包括一个词性(POS)标记器、一个命名实体识别器(NER)、一个解析器和一个联合引用解析系统.7. stray: 修改用于高维数据异常检测的HDoutliers包,以包括Talagala、Hyndman和Smith Miles(2019)中提出的算法.8. tfhub: 包括用于发布、发现和使用机器学习模型可重用部分的库,模块包括TensorFlow图的自包含部分及权重和资产等.
四. 数学
1. dual: 使用对偶数实现自动微分,并返回数学函数的输出值及其精确的一阶导数(或梯度).2. set6: 提供一个面向对象的接口,用于构造和操作数学集,包括(可数有限)集、元组、区间(可数无限或不可数)和模糊变量.
五. 医学
- LARisk: 提供计算辐射诱发癌症终生归因风险的功能.2. SCtools: 提供对R包Synth进行的综合控制分析的扩展,如Abadie等人所述(2011年),包括生成和绘制安慰剂、MSPE前后(均方根预测误差)显着性测试和图、计算多个治疗单位的平均治疗效果等.
六. 科学
- chronosphere: 提供函数支持(古)环境/生态研究中的空间分析,并充当板块构造重建、深层全球气候模型结果以及化石发生数据集(如古生物学数据库和古礁数据库)的门户.
- OCNet: 提供生成分析最优河网(OCNs)的函数:面向生成树,再现真实自然河网的所有缩放特征.
七. 统计学
- bnma: 使用Dias等人的Bayesian框架提供网络元分析功能.2. npsurvSS: 提供生存分析中常见非参数检验的样本量和功率计算,包括t年生存率的差异(或比率)、p百分位生存率的差异(或比率)、限制平均生存时间的差异(或比率)和加权对数秩检验.
- sail: 实施具有强遗传特性的稀疏加性交互学习.
- SequenceSpikeSlab: 实现Van Erven&Szabo(2018)中描述的算法,以计算稀疏正态序列模型的精确贝叶斯后验.
- tcensReg: 在威廉姆斯等人描述的左截断左下截尾正态分布下实现极大似然估计(MLE).6. univariateML: 回顾最大似然估计的根(Fisher(1921)),为单变量密度的ML估计提供函数.
八. 时间序列
- imputeFin: 提供基于随机游动或自回归(AR)模型对时间序列建模的基础上估算缺失值的功能,便于对金融数据中的对数价格和对数建模.
2. VLTimeCausality: 实现了一个基于变滞后Granger因果关系和传递熵的对实数时间序列因果关系推断框架.
九. 效率工具
1. asciicast: 实现从R脚本记录屏幕投射并将其转换为动画SVG图像的工具,以便在READMEfiles和博客文章中使用.2. funneljoin: 实现基于时间的联接以分析内存中和内存外的事件序列.3. hardhat: 提供工具,通过提供预处理、预测和验证输入的功能来减轻构建新建模包的成本.
- proffer: 建立在pprof的基础上,以提供能够检测R代码中的慢速来源的性能分析工具.
- robenblas: 支持任何GNU/Linux发行版用户下载、编译和链接OpenBLAS库.6. sortable: 通过将SortableJSJavaScript库的功能公开为htmlwidget,提供启用Shiny应用程序中拖放行为的功能.
- sparkhail: 实现了一个到Hail的sparklyr接口,这是一个开源的、通用的、基于Python的数据分析工具,带有用于处理基因组数据的额外数据类型和方法,它已经被构建成可伸缩的,并为多维结构化数据提供一流的支持.8. trimmer: 实现一个轻量级工具包,以根据用户输入减少列表对象的大小.
十. 可视化工具
1. gggibbous: 扩展ggplot2以提供月相图、饼图,其中的比例显示为月牙形或圆形凸出部分,如月球的照亮和未照亮部分.
2. patchwork: 通过提供用于组合多个绘图的数学运算符,扩展ggplot2 API以允许任意复杂的绘图组合.
说明:限于个人水平,错误之处难免,烦请批评指正,共同交流~