做外汇网站卖判刑多少年,医院网站建设要素,网站域名做入什么科目,网站排名是什么意思目录
1. SMILES字符串
2. 利用图马尔可夫神经网络#xff08;GMNN#xff09;来进行关联性预测
3. 图池化算法
4. 合成致死性#xff08;SL#xff09;预测
5. 蛋白质溶解度研究
6. 药物疾病关联预测#xff08;DAA#xff09;
7. tRNA-疾病关系预测
8.异构体功能…目录
1. SMILES字符串
2. 利用图马尔可夫神经网络GMNN来进行关联性预测
3. 图池化算法
4. 合成致死性SL预测
5. 蛋白质溶解度研究
6. 药物疾病关联预测DAA
7. tRNA-疾病关系预测
8.异构体功能预测
9. 蛋白质配体亲和力预测
10. InterProScan 痛苦地读论文。。。for 。。。。 持续更新中 :) 1. SMILES字符串
参考:
SMILES:一种简化的分子语言_smiles格式-CSDN博客
如何将化学分子SMILES字符串转化为Pytorch图数据结构——ESOL分子水溶性数据集解析_smiles string-CSDN博客 SMILES,全称是Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。
SMILES强大的一点就是存在一种唯一的SMILES,使用标准的SMILES,分子的名字和结构是同义的,在唯一的SMILES里面,这也是通用的,世界上任何使用SMILES命名分子的人都会选择完全相同的名字。
2. 利用图马尔可夫神经网络GMNN来进行关联性预测
例如
采用图马尔可夫神经网络GMNN算法来预测未知的circRNA-疾病关联
论文
GMNN2CD: identification of circRNA–disease associations based on variational inference and graph Markov neural networks
该论文摘要通过对循环RNAcircRNAs的特性和功能进行分析人们意识到它们在疾病中发挥着关键作用。探索circRNAs与疾病之间的关系对于寻找疾病的病因病理和治疗具有深远意义。然而仅通过生物技术学习新的关联是低效的。因此作者提出了一种计算方法GMNN2CD它采用图马尔可夫神经网络GMNN算法来预测未知的circRNA-疾病关联。首先利用已验证的关联作者计算疾病的语义相似性和高斯交互特征核相似性GIPs以及circRNA的GIPs然后将它们合并形成统一的描述符。接着GMNN2CD采用融合特征变分映射自编码器来学习深层特征并使用基于已知关联的标签传播映射自编码器来传播标签。基于变分推断GMNN交替训练增强了GMNN2CD从低维表示中获取高效高维特征的能力。最后对五个基准数据集进行的5倍交叉验证表明GMNN2CD优于最先进的方法。此外案例研究表明GMNN2CD能够检测潜在的关联。
3. 图池化算法
参考
GNN中的Graph Pooling-CSDN博客
相关论文
Struct2GO: protein function prediction based on graph pooling algorithm and AlphaFold2 structure information
论文摘要近年来蛋白质结构预测取得了突破性进展DeepMind团队的AlphaFold2模型将蛋白质结构预测的准确性提高到了原子水平。目前基于深度学习的蛋白质功能预测模型通常从蛋白质序列中提取特征并将其与蛋白质-蛋白质相互作用网络结合以获得良好的结果。然而对于不在蛋白质-蛋白质相互作用网络中的新序列蛋白质这种模型无法进行有效的预测。为了解决这个问题本文提出了Struct2GO模型它结合了蛋白质结构和序列数据以提高蛋白质功能预测的精度和模型的普适性。作者提出了一种新的基于图池化算法和AlphaFold2结构信息的蛋白质功能预测器protein function prediction based on graph pooling algorithm and AlphaFold2 structure information。通过图表示学习获取蛋白质结构中的氨基酸残基嵌入利用基于自注意机制的图池化算法获取整个图结构特征并将其与从蛋白质语言模型中获取的序列特征进行融合。结果表明与传统的基于蛋白质序列的功能预测模型相比Struct2GO模型取得了更好的结果。Gene OntologyGO数据库是目前最常用的描述基因和蛋白质功能的数据库。本文利用蛋白质结构信息对GO数据库中的蛋白质功能进行预测因而称为Struct2GO。作者通过图表示学习获得蛋白质结构中的氨基酸残基嵌入利用基于自注意力机制的图池化算法获得整个图结构特征并将其与蛋白质语言模型获得的序列特征融合。结果表明与传统的基于蛋白质序列的功能预测模型相比Struct2GO模型取得了更好的结果。具体而言Struct2GO采用图池化模型从AlphaFold2预测的三维蛋白质结构中获取结构特征并整合SeqVec提取的序列特征来训练蛋白质功能分类器。AlphaFold2预测的三维蛋白质结构数据为蛋白质功能预测提供了强有力的支持可以有效提高模型的通用性。同时与以往基于实验确定的蛋白质结构预测蛋白质功能的方法相比AlphaFold2提供了足够的高分辨率结构信息有效提高了预测的准确性。对比实验表明Struct2Go达到了最先进的性能从而最终证明了结构信息对蛋白质功能预测的有效支持。 注意 在该论文当中通过使用节点选择算法该算法保留了输入图的一些节点和边并生成一个新的子图作为下一层的输入。池化比率k确定将保留的节点数。
4. 合成致死性SL预测 相关论文
SLGNN: synthetic lethality prediction in human cancers based on factor-aware knowledge graph neural network
论文摘要合成致死性SL是一种基因相互作用形式可以选择性地杀死癌细胞而不损害正常细胞。利用这种机制在靶向癌症治疗和抗癌药物开发领域日益受到欢迎。由于从实验室实验中识别SL相互作用的局限性越来越多的研究小组正在设计计算预测方法以引导潜在的SL配对的发现。尽管现有方法已经尝试捕捉SL相互作用的潜在机制但仍需要开发更深入理解并尝试解释SL机制的方法。作者通过知识图的信息聚合获得基因的初始嵌入这避免了对基因特征的手动设计并且可以通过知识图中所代表的丰富信息生成特征。KGNNLin等人2020年使用了知识图卷积网络来自动生成实体嵌入作者遵循这种信息聚合机制并进行了轻微修改。在基于消息传递机制的知识图卷积网络中知识图中的关系起着重要作用因为它们连接实体。知识图的一个显著特征是相同的实体可以通过不同的关系连接这些关系对应着不同的生物过程。因此在信息聚合过程中需要区分不同的关系。在先前的工作中KGNN使用了注意机制来模拟知识图关系作为衰减因子以控制不同邻居的影响。为了提高模型的性能作者采取了一种不同的方法对不同的关系聚合消息的过程是显式的在这项工作中作者提出了一种新颖的SL预测方法称为SLGNN。该方法基于以下假设SL相互作用是由不同的分子事件或生物过程引起的作者将其定义为导致SL相互作用的SL相关因素。除了识别SL相互作用对SLGNN还模拟了基因对不同SL相关因素的偏好使结果对生物学家和临床医生更具解释性。SLGNN包括三个步骤首先作者将基因相关知识图中的关系组合建模为SL相关因素。接下来作者通过知识图的显式信息聚合过程导出基因的初始嵌入。最后作者通过一个SL图利用已知的SL基因对构建利用基于因素的信息聚合导出最终的基因嵌入。在这个阶段采用了监督的端到端训练模型进行SL相互作用预测。根据实验结果所提出的SLGNN模型优于所有当前最先进的SL预测方法并提供了更好的可解释性
值得注意的是该论文通过对知识图谱KG进行消息聚合来获得基因的初始嵌入这避免了基因特征的手工设计并且可以通过知识图谱中所表示的丰富信息生成特征。KGNNLin等人2020年使用了知识图谱卷积网络来自动生成实体嵌入。
参考
KGNN基于知识图谱的图神经网络预测药物与药物相互作用 - 知乎 5. 蛋白质溶解度研究
相关论文
Enhancing Protein Solubility Prediction through Pre-trained Language Models and Graph Convolutional Neural Networks
论文摘要蛋白质作为驱动多种生物过程的关键实体其功能性归功于复杂的结构特征和性质。在蛋白质科学领域中溶解度凸显为一个关键的决定因素。蛋白质的溶解度是其主要序列与周围环境条件之间复杂相互作用的结果。溶解度的重要性在蛋白化学、结构生物学、药学等领域得到体现并在涉及溶液中蛋白质的研究中保持其核心意义。其影响涵盖生物技术、生物化学和医学应用特别是在蛋白表达和纯化工作中。本研究介绍了创新的PPSol模型旨在以卓越的效果预测蛋白质的溶解度。PPSol的方法论包括几个关键步骤。首先它利用ESM2直接获取蛋白质接触图这是蛋白质结构中的关键元素。这些接触图作为构建蛋白质图的基石富含各种蛋白质特征作为节点属性。随后这些蛋白质图被输入到图卷积神经网络中有效地吸收蛋白质结构信息的复杂性。此外PPSol利用ESM2生成蛋白质序列特征这是理解序列特征的宝贵基础。这些特征经过全连接层的处理以编码与序列相关的见解。这两条不同路径的结合即结构和序列导致了对蛋白质溶解度的强大预测。值得注意的是PPSol的性能超越了其同行突显了其在蛋白质溶解度预测领域的有效性。 注意在这篇论文当中使用利用ESM2直接获取蛋白质接触图。
ESM相当于是一个蛋白质预训练语言模型。
官网
GitHub - facebookresearch/esm: Evolutionary Scale Modeling (esm): Pretrained language models for proteins
6. 药物疾病关联预测DAA
相关论文
Hierarchical Semantic Augmentation Graph Neural Network for Drug-Disease Association Predictio
论文摘要作为药物干预发现中的关键步骤预测药物-疾病关联DDA探索了给定药物和疾病中的潜在治疗关联。由于药物和疾病中的各种联系包含高阶关系和复杂的治疗语义图神经网络GNNs已被引入到DDA预测中并取得了巨大成功。然而大多数先前的方法要求给定药物和疾病的节点具有平滑属性在实际应用中很难满足。此外基于GNN的模型在异质图中进行DDA预测时存在语义混淆的问题。这些挑战限制了模型在药物-疾病网络中发现治疗语义的有效性。为了解决DDA中的这些挑战作者提出了一种名为HSAGNN的新型图神经网络模型通过应用SGNN方法的语义引导思想分层增强节点语义包括拓扑嵌入学习、属性补全和语义引导聚合等三个关键步骤。HSAGNN首先学习拓扑嵌入并采用学习到的拓扑关系通过注意力机制来完成缺失属性从而使节点能够包含更丰富的邻居聚合信息。然后模型在节点和语义层面上使用语义引导聚合来聚合邻居信息。在这里HSAGNN将学习到的通用知识作为跳跃知识注入以减轻语义混淆。作者使用各种基线在DDA任务中评估了模型并进行了广泛的研究来探索模型的有效性。实验结果表明HSAGNN能够通过增强语义发现潜在的治疗关联.
7. tRNA-疾病关系预测
PTDA-SWGCL: Predicting tRNA-Disease Associations using Supplementarily Weighted Graph Contrastive Learning
论文摘要tRNA在蛋白质合成中扮演着关键角色根据mRNA的指令将氨基酸运输到核糖体。这些分子在各种生物过程中起着重要调节作用其失调与人类疾病密切相关。预测tRNA与疾病之间的关联对于发现有助于疾病预防、检测、预后、诊断和治疗的生物标志物至关重要。然而实验验证这些关联是资源密集型的需要开发强大的计算方法。在本研究中作者提出了PTDA-SWGCL这是一个用于预测潜在tRNA-疾病关联的新模型。PTDA-SWGCL整合了从高斯核相似性、序列相似性和语义相似性中得出的tRNA和疾病相似性信息。它使用这些相似性信息初始化tRNA和疾病嵌入并通过在tRNA-疾病关联图上进行补充权重和图比较学习训练来对其进行改进。最终的关联对预测是通过tRNA和疾病嵌入的内积获得的。实验结果表明PTDA-SWGCL优于最先进的方法。案例研究证实了其在预测tRNA-疾病关联方面的有效性。 8.异构体功能预测
相关论文
Isoform Function Prediction Based on Heterogeneous Graph Attention Networks
论文摘要
异构体指的是从同一基因转录而来、可以转译为具有不同结构和功能的蛋白质的不同mRNA分子。预测异构体功能是生物信息学中一个重要的课题因为它可以为基因调控和生物过程的复杂机制提供宝贵的洞察力。传统上基因功能标签是以基因本体GO术语标准化的。然而用于预测异构体功能的传统方法在很大程度上受到异构体特定标签的缺失、稀疏注释以及大量GO术语的限制。为了解决这些问题我们提出了HANIso这是一种基于深度学习的异构体功能预测方法。HANIso利用预训练的蛋白质语言模型从蛋白质序列中提取特征。它还使用异构图注意力网络HAN集成了异构信息如异构体序列特征、GO注释和异构体相互作用数据。这使得模型能够通过注意力机制学习不同信息来源的重要性及它们之间的语义关系。我们的方法可以在基因水平和异构体水平上预测功能标签。我们在两个物种数据集上进行实验结果表明我们的方法在AUROC和AUPRC上均优于现有方法。HANIso有潜力克服传统方法的局限性并提供对异构体功能更准确、更全面的理解
9. 蛋白质配体亲和力预测
相关论文
Predicting Protein-Ligand Binding Affinity with Multi-Scale Structural Features
论文摘要
在药物发现、基因调控和信号转导等领域预测蛋白质-配体结合亲和力是非常重要的。基于蛋白质结构的DTA药物-靶标亲和性方法不仅可以有效弥补缺乏结合信息的问题而且更符合真实生物过程。尽管基于结构的DTA方法取得了良好的性能但现有方法仍然存在只考虑单尺度结构特征、忽略多尺度结构特征的问题。为了解决这一问题我们提出了MSSDTA多尺度结构表示药物-靶标亲和性预测该方法通过整合蛋白质的表面节点特征和结构节点特征来提取多尺度蛋白质特征。同时药物表示网络用于融合药物的二维分子结构特征和化学特征以有效区分具有类似平面结构的药物分子。最后亲和性预测网络用于生成蛋白质-配体结合亲和力分数。我们在PDBbind v.2019数据集上验证了该模型的性能。实验结果表明所提出的方法取得了出色的性能。
10. InterProScan
官网InterPro
相关论文
Protein function prediction using graph neural network with multi-type biological knowledge
论文摘要
蛋白质在多种生物学功能中起着关键作用准确注释它们的功能对于理解细胞机制并开发复杂疾病的治疗方法至关重要。计算方法被提出作为替代繁琐实验方法的选择。然而现有的基于网络的方法主要关注蛋白质-蛋白质相互作用PPI网络而没有相互作用的蛋白质则被忽略了。为了解决这一局限性我们提出了一种新颖的蛋白质功能预测深度学习框架称为PFP-GMB它结合了多种生物学知识考虑了不在PPI网络中的蛋白质。PFP-GMB利用预训练的蛋白质语言模型来提取序列表示。此外蛋白质相互作用和同源关系通过图神经网络和注意机制生成功能相关特征。最后这些多类型特征被融合用于蛋白质功能预测。与八种最先进的方法相比PFP-GMB在F-max和AUPR方面表现优异。消融研究进一步证实了将多种生物学知识整合到PFP-GMB中对于蛋白质功能预测的相关性和重要性。
在这篇论文当中
使用了Gene Ontology GO蛋白质功能现在可由基因本体论Gene OntologyGO标准化和组织分为三个类别分子功能Molecular FunctionMF、生物过程Biology ProcessBP和细胞组分Cellular ComponentCC。截至2023年7月GO数据库涵盖了庞大的收集其中包括27,597个BP术语、11,236个MF术语和4,054个CC术语。此外GO术语通过层次关系相互连接包括“是一个”is a、“部分是”part of和“有部分”has part等。这些关系形成了一个有向无环图Directed Acyclic GraphDAG结构其中每个GO术语都可以看作是图中的一个节点。当一个GO术语被注释到一个蛋白质时它的所有祖先也被注释到该蛋白质上因为“子”GO术语比它们的“父”GO术语更具体。鉴于可能的功能注释数量众多和复杂的层次关系蛋白质功能预测是一个具有挑战性的多标签分类问题
官网: Gene Ontology Resource
一文极速读懂 Gene Ontology GO数据库 - 知乎
通过InterProScan生成节点的功能特征并使用图神经网络在PPI和同源网络中聚合邻近的特征。
官网InterPro
InterProScan 是一个生物信息学工具用于对蛋白质序列进行功能注释和结构预测。它通过比对已知的蛋白质特征、功能域和结构域数据库如InterPro数据库来识别输入蛋白质序列中的功能域、结构域和其他特征。InterProScan 结果包括注释信息如已知功能域、家族、重复模式等有助于理解蛋白质的功能和结构。这个工具通常用于在基因组学和蛋白质组学研究中对大量蛋白质进行功能注释和特征预测。
还使用了
EggNOG v5.0A database of orthology relationships, functional annotation, and gene evolutionary histories.
EggNOG Database | Orthology predictions and functional annnotaion
STRING蛋白质相互作用PPI网络
STRING: functional protein association networks 11.Pre-trained protein models (PYPMS) Pre-trained language models (PTLMs) have prevailed in natural language processing (NLP). Recently,some methods (Alley et al., 2019; Elnaggar et al., 2021; Rives et al., 2021) use PTLMs toencode protein sequences to predict biological functions, which are called pre-trained protein models(PTPMs).
使用PTLMs对蛋白质序列进行编码以预测生物功能这些方法被称为预训练蛋白质模型
与自然语言相比蛋白质结构有四个明显的层次Kessel Ben-Tal2018。第一级是由氨基酸组成的蛋白质序列第二级指的是局部折叠结构例如α螺旋和β折叠片第三级描述了自然折叠的三维结构第四级是由多个多肽组成的蛋白质多聚体。蛋白质可以专注于不同的结构水平以实现其特定功能包括保留一段序列展现整体的三维结构作为构象元素甚至与其他蛋白质合作。因此在预测蛋白质功能时灵活利用多级结构信息至关重要