单文库基因组组装 (A Single Library for Genome Assemble)

Illumina 报告中比较了 Reads 长度,coverage,insert size 等对组装结果的影响,可以看到理想状况下,对于简单基因组,30X左右短片段reads加上适量长片段reads可以覆盖足够的基因组区域,并且有较好的N50等指标。

最开始sanger测序可能为了避免重复序列的影响,采用了1k-40k的建库策略,后来soapdenovo在做人类基因组的时候沿用了200,500,2k,5k,10k的测序方法。但是不同基因组具体采用的策略并不一致,但是一般均需要短片段文库(<2k)和长片段文库(>2k)。像Abyss由于做非洲人的时候就只用了42X的210文库数据。

GAGE评价了一些组装软件的组装效果,有 Effect of multiple libraries on assembly 这一段。结合我自己的项目经验,multilib的策略是为了辅助scaffolding。因为contig的组装主要用到reads见的overlap信息,只要测序随机和均一,并且深度足够,短片段reads可以很好的组装出contig(无N的一致性序列),contig的组装步骤并不设计文库片段信息(insert-size和pair-end关系),后面scaffolding则需要用到文库信息来辅助contig间建立连接关系,而这里最主要的也是需要大雨2k的文库梯度分配。所以像allpath这种软件推荐的就是一个短片段文库加一个大片段文库。金小峰这种单倍体物种,基因组也不太大,考虑到个体小,提取DNA复杂,一只蜜蜂样品不足以构建三个短片段文库(200,500,800),我们可以尽量尝试建1到2个文库,对于contig组装影响不会太大(我曾经组装的单染色体蚂蚁也是由于样品原因,建了一个500的文库,效果也很好)。

另外我们注意到像fermi这样的最新的组装软件的进展,对人类基因组已经可以一个样品一个库,35X数据做denovo assembly了。

为了更好的开展后续的分析和讨论工作,后面我还会具体找下已经出来的蜜蜂或蚂蚁的组装文献给大家看看,应该说膜翅目的研究现在还是比较热门的,有很多可参考的借鉴的地方。为了尽快推进这个项目,我们没必要非建3个文库。这是我的意见。

Comments