0%

单细胞测序学习资料

单细胞数据分析大概方向,但是还是备份下
更多其实是看文章,文章大致方向的套路差不多,更多是做聚类,然后再各类的基础上再亚聚类;找出各类对应的细胞类型;后面的于功能结合的分析才是重点部分

个人理解:
肿瘤单细胞测序,与普通样本测序分析最大的区别在于这里一个细胞就是一个样本,普通的就是很多个细胞一起;因为每一个细胞的基因表达都是不一样的,而普通的一堆细胞放在一起测序就看不出各个细胞之间的差别;所以肿瘤单细胞测序的基本分析目标就是为了看肿瘤的异质性,发现新的亚型。
分析思路大体是获取到各个样本的表达量,对各个样本聚类,比如层次聚类和K-means;
从而分出新的亚型;然后就寻找在各个类别中的差异基因;知道哪些基因在哪个类中高表达或者低表达;而单细胞测序分析特别的一点在于降维不使用PCA,而是使用t-SNE,这是因为PCA是线性降维而t-SNE是非线性的,这样更好反映样本之间的关系;

了解单细胞测序原理:

推荐看陈魏学基因:

爱奇艺链接:http://www.iqiyi.com/w_19rsbneilx.html?list=19rrmo2s4q

由于目前很多人使用10Xgenomic这个其中一种单细胞测序方法,所以主要是使用10X genomic作为例子;

10Xgenomic介绍

视频版本:
http://v.youku.com/v_show/id_XMjk4MDU0NDg0OA==.html?spm=a2hzp.8253869.0.0

单细胞测序方法的一种;

准备细胞悬液——文库构建——转录组测序——数据分析——可视化

凝胶微珠,每个凝胶微珠上有特定的DNA片段、每个DNA序列分了一下几段:第一段是Barcode。16个碱基长度、总400万种、一个微珠对应一种Barcode,通过400万种可以把凝胶微珠区分开;
第二段是UMI,unique molecular identifier,独特分子标记物、UMI是一段随机序列、每一个DNA分子都有自己的UM序列、10个碱基长的UMI,UMI的作用是经过PCR、深度测序得到的reads后,可以知道哪些reads来源于一个原始的cDNA分子的;
Poly(dT)序列:与mRNA的Poly(A)尾巴结合 、引物,逆转录出cDNA

总之,Barcode是每个凝胶微珠身份证号码;UMI是每个DNA标签分子的身份证号码。

左边是准备好的凝胶微珠,细胞混悬液在第一个十字交叉口与凝胶微珠混合在一起、然后进入第二个十字交叉口,加入了油相,油把凝胶微珠和细胞混悬液包裹成一个个油包水的小液滴; 里面是水相,外面是油相;在这些乳浊液小液滴中,大部分是包含了一个细胞的;

得到乳浊液之后,破裂细胞膜,让细胞中的mRNA游离出来;游离出来的mRNA在小液滴中 水相中会和逆转录酶、结合在凝胶微珠上的核酸引物、以及dNTP底物相接触;从而发生逆转录反应; 得到的cDNA分子带有凝胶微珠所特有的Barcode标签,并且每一个cDNA 分子各自还带有特定的UMI标签;从而将不同细胞和同一个细胞不同的cDNA分子区分开来。

抽出水相中的cDNA 分子、然后加上接头P5,P7,经过PCR扩增、做成illumina测序文库、
然后前面的方法上机测序。

通过Barcode拆分细胞,把测序得到的reads归属到一个一个细胞,有少量会有两个或者更多的细胞共享一个barcode,制备混合液的时候,控制细胞数,数目越少混合越少;
通过UMI 对Reads进行简并;可知一个细胞被读到基因数目;
一个基因对应同一个UMI,基因表达量的mRNA越多,这种UMI数目越多, 从而得知这个基因的 表达量;
下图是显示出人类和小鼠两个不同物种样本放在一起测序,看混合的数目,这可以看出测序质量好坏,中间部分混合越多,说明两个细胞共用了一个barcode;

数据分析部分:

10X的官方教程:

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/what-is-cell-ranger

第一个是通过cellranger:

这个他们自己开发的集成很多功能的软件:对原始测序bcl2格式的数据转换成fastq格式的文件、比对、过滤、UMI计数、归一化、降维(PCA、tSNE)、聚类(k-means)和差异表达分析等。由于集成度很高,所以代码很简单。得到结果会通过html页面显示。结果文件的矩阵不是普通的表达矩阵,而是使用了稀疏矩阵格式储存的。这样可以节省非常大的空间。

R包:Seurat、cellrangerRkit:

质量检查、标准化、检测单细胞可变基因、PCA和tSNE降维、聚类、绘制热图。更加细致分析。

第一步结果:HTML文件会显示出细胞数目、每个细胞总read平均数、平均基因数等统计信息;每个细胞UMI数目绘制t-SNE图:UMI数目多的有更高的RNA数目;以及通过K-means聚类结果并显示对应的t-SNE图和对应的差异表达分析;

非官方教程:

https://vip.biotrainee.com/d/297-%E4%B8%93%E9%97%A8%E5%88%86%E6%9E%9010x-genomic%E5%85%AC%E5%8F%B8%E7%9A%84%E5%8D%95%E7%BB%86%E8%83%9E%E8%BD%AC%E5%BD%95%E7%BB%84%E6%95%B0%E6%8D%AE%E7%9A%84%E8%BD%AF%E4%BB%B6%E5%A5%97%E4%BB%B6

目前单细胞分析有三大R包:分别是Seurat、monocle2、scater:
生信技能树作者都有写过教程:
Seurat:https://mp.weixin.qq.com/s/QZD1tvCgZVa5PQtbjvrkrg
monocle2:https://mp.weixin.qq.com/s/zCfDkxbVTxjFQ5QAIULYjA
scater :https://mp.weixin.qq.com/s/mcLEiL2k2ABXNBzipy1WHQ

生信技能树新开专门讲单细胞的公众号:单细胞天地,微信号:sc-ngs,查看历史记录;

单细胞相关文献:链接:https://pan.baidu.com/s/10F-3S3VlmQ3WG0OSvHyfeQ 密码:0caf

知识星球:“单细胞”;有很多分享的资料:
avatar