专业网站建设公司哪里好,网站制作教程视频,国外的响应式网站模板,浙江省建设政务网站零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路#xff08;二#xff09;-关键基因集的获取和生存数据准备
前面的分析中#xff0c;下载TCGA和GEO的数据#xff0c;并进行简单的处理#xff0c;接下来就是相关基因集的获取和整理#xff0c;为后期聚类和降维做准…零代码复现-TCGA联合GEO免疫基因结合代谢基因生信套路二-关键基因集的获取和生存数据准备
前面的分析中下载TCGA和GEO的数据并进行简单的处理接下来就是相关基因集的获取和整理为后期聚类和降维做准备工作
三、获取免疫基因和代谢相关的基因集
这里可以选择从GSEA官网下载免疫和代谢相关基因或者换成其他的基因也是可以的
1、取对数TCGA的数据一般跨度比较大所以在使用limma做差异之前需要取一个log进行后续的分析http://www.sxdyc.com/logarithmicdata 运行完成后点击下载即可 2、直接提取相关基因的表达谱矩阵
准备好基因集后可以收到一个一个捕获基因的表达谱也可以使用我们的工具
首先获取这两个基因集合并为all.gene.txt 使用工具提取特定的基因集(提取部分基因表达http://www.sxdyc.com/geneExpression)
需要上传两个文件一个是全基因的表达谱数据一个是基因的列表信息 运行完成后直接下载数据 四、TCGA数据差异分析
1、准备分组文件
接下来进行差异分析需要准备一个分组文件这里选择 4.特征基因表达谱的准备 文件夹中生成的dat.select.txt 的文件 从14号位置往后数两个字符其中01为肿瘤组织11为正常组织 02其实也是肿瘤组织只是很多分析中会去掉因为01是原发性肿瘤保存一下所以只保留了01和11的样本 2、差异分析
这里其实有两种做法的一种是拿免疫代谢相关基因表达谱进行差异分析一种是拿全部的基因做差异分析筛选出差异基因后在和免疫代谢相关基因集取交集。(这里选择的是免疫代谢相关基因表达谱进行差异分析)
http://www.sxdyc.com/diffLimmaAnalyse 3、差异分析的火山图的绘制
从limma差异分析中下载差异分析的结果 获取绘制火山图的数据包含三列顺序分别为基因差异倍数p值 http://www.sxdyc.com/visualsVolcano 补充一点如果这里用全部的基因做差异需单独使用venn图的工具取一个交集
4、差异基因表达的热图
差异基因的获取用excel的筛选工具对volcan0.txt进行筛选标准logFC选择大于1或者小于-1FDR0.05当然这里的标准可以进行修改把相关基因提取放在heatmap.gene.txt文件中 先通过工具获取差异基因的表达谱http://www.sxdyc.com/geneExpression 运行成功后下载数据并改名为heatmap.exp.txt 在使用工具绘制热图http://www.sxdyc.com/visualsClusterHeat 这里需要注意的是
行注释为基因的分组信息如上调下调的分组代谢还是免疫基因的分组等等
列注释为样本的分组信息例如这个癌组织和癌旁组织
热图的颜色从低到高的颜色
是否显示行名这里需要显示基因名就选yes
是否显示列名这里需要显示样本命就选yes
是否进行行聚类如果需要对基因进行聚类就选yes
是否进行列聚类如果需要对样本进行聚类就选yes
图片的高度和宽度设置好
提交后等待运行成功即可下载 五、TCGA和GEO差异基因获取和预后数据的整理
1、差异基因集的获取获取TCGA和GEO数据集的共有基因
首先需要将GEO的数据中的基因名单独复制到gse31210.gene.list.txt文件中 使用venn/upset图绘制工具获取交集基因http://www.sxdyc.com/visualsVennUpset
准备绘制venn图的文件如这里只要两个组 上传后绘制venn图这里的颜色指的是分组的颜色工具写错了后面会改掉设置图片的宽度和高度运行完成后直接下载即可 这时候就需要提取共有基因表达谱包括TCGA和GEO的表达谱数据为后面的分型和建模做准备。
2、TCGA数据集肿瘤组织生存数据的准备和表达谱矩阵的准备
提取TCGA的肿瘤组织的表达谱在5.差异基因热图获取的group.txt和heatmap.exp.txt打开group.txt数据筛选删掉N的样本只有肿瘤组织的样本另存为group1.txt只保留第一列的样本名去掉列名。 打开生存数据TCGA.merge.cli.txt去掉生存时间为0的样本 准备两列数据第一列数据为生存时间大于0的样本第二列为肿瘤组织的样本用excel选择1-12位字符串接下來复制C列的数据选择性粘贴在C列选择数值这一步很重要 然后把A列的数据复制在C列之下用excel筛选共有的样本 开始-条件格式-突出显示单元格规则-重复值选择C列之后 将没有颜色的行删掉 这时候将B列的样本名复制为group1.txt的文件中。
同时将C列中重复的样本复制在生存数据中将不存在的样本删掉TCGA.merge.cli.txt一样的方法去掉多余的样本 打开heatmap.exp.txt文件转置如下所示改为heatmap.exp1.txt 使用提取部分基因表达工具提取肿瘤组织的表达谱http://www.sxdyc.com/geneExpression当然也可以手动一个一个删这样比较麻烦 运行完成后直接下载并改名为tcga.T.dat.txt
用excel打开tcga.T.dat.txt文件然后提取样本的1-12位字符串 接下來复制B列的数据选择性粘贴在A列选择数值这一步很重要 然后删除B列的信息只留A列的信息即可 该文件保存一下即可
3、GEO数据生存时间的筛选和表达谱矩阵的获取
首先获取共有基因表达谱准备文件2.geo.pre\GSE31210\gse31210.dat.process.txt,6.TCGA和GEO差异基因获取和预后数据的整理中获取的com.set.txt使用工具http://www.sxdyc.com/geneExpression提取gse31210数据集表达谱 运行完成后下载即可 下载后改名为gse31210.select.gene.txt
打开gse31210的生存数据删掉正常组织保留我们想要的临床信息 修改生存时间名字习惯性修改为OS.time和OS并将生存状态Ailve替换为0dead替换为1 并将样本复制出现保存在gse.sample.txt 打开gse31210.select.gene.txt文件在excel转置一下提取肿瘤组织的表达谱数据和TCGA数据一样 运行完成后下载并改名为gse31210.T.data.txt
接下来就是分子亚型和风险模型的构建