R

圆角barplot

不同方法实现ggplot2圆角barplot

Emacs远程连接R

本地的R脚本,远程执行

一(三)文你读不懂PCA和PCoA

今天看到金唯智公众号的推文《三文读懂PCA和PCoA》(《》,《》,《》)。作者以平民化的语言,剔除数学术语,介绍了二者的区别,是很好的尝试,但是文中提出的很多关键性总结,都存在着明显的漏洞。

成分之咒与ReBoot算法

# 写在前面 本文的大部分内容都来自我们之前的一篇综述文章Li et al, 2016

微生物组测序与成分数据

微生物组测序数据的获得其实有很多抽样过程(Sampling process)存在,比如说,粪便微生物组其实是对肠道微生物的一次抽样,测序的过程也是对所有DNA分子的一次抽样。最后,我们得到的OTU表中的OTU read count与测序深度相关,很显然测序深度是一个技术上的干扰因子(confounder),所以我们要对OTU表进行标准化(Normalization)。最简单的标准化方法,就是用read count除以样本内所有OTU的read count之和,获得每个OTU的相对丰度(relative abundance)。这种只有相对丰度的数据(相加总数为常数1或100)被称为成分数据(Compositional data)。 你可能注意到,作为成分数据一种的微生物组的数据中缺乏一个重要的信息–微生物总量(total abundance)。

ggplot扩展学习笔记--逐行解析Y叔的"geom_ord_ellipse.R"

看到Y叔为ggord做的添加置信椭圆的geom_ord_ellipse.R(用法见上一篇文章),决定学习一点ggplot图形的语言,对于初学者最好的方法就是照葫芦画瓢,而Y叔的代码自然是最好的模板。我对Y叔的代码进行了逐行的分析,希望以后有需要可以套用。

Generalized Lotka-Volterra model

Relative scaling for GLV models

从curatedMetagenoimcData提取健康样本的微生物组

简介

有人问我,这个curatedMetagenomicData有什么作用?对于我们这些research parasite(出处请见NEJM社论)来说,这样庞大的数据集当然是用来挖信息或者是测试算法了: 1. 作为validation cohort来验证已发现的结论。如我们的这篇文章都使用了2014年Oh et al发表于Nature的数据来佐证我们发现的Staphylococcus特异性突变。 2. 用来测试新方法,发现新的生物问题。如这篇文章中我们也用了Oh et al的数据来观测Malessezia在人体皮肤的分布。 3. 因为数据中有大量健康人的微生物组(不同研究中的control),我们也可以用它们补充我们的对照组(当然在机器学习中要注意数据不平衡问题)。 当然最基础的操作,就是要从数据库中提取数据。

桑基图(Sankey diagram)II

再次尝试桑基图

超大宏基因组数据集CuratedMetagenomicData

简介

CuratedMetagenomicData(https://waldronlab.github.io/curatedMetagenomicData/)的目标是用标准化的流程(MetaPhlan2、HUMAnN2)分析已发表的宏基因组数据并建立一个统一的数据集合。目前已经收录6000余个样本并在持续扩建当中。样本涵盖糖尿病、肥胖症、IBD等多种疾病,涉及皮肤、口腔、粪便等多处样本。

桑基图(Sankey diagram)

桑基图(Sankey diagram)是用于表示能量或信息流动的一种可视化方式,应用于微生物组数据,可以清晰展示各个taxonomy level之间物种相对丰度的流动。从Domain到Species,相邻两级之间分支的总宽度保持不变(能量守恒),如下图