当前位置：首页 > news >正文

怎么做有数据库的网站章贡网站建设

news 2025/11/15 0:59:27

怎么做有数据库的网站,章贡网站建设,网站页面怎样做1920,厦门人才网个人会员数据治理之法一、数据基础设施当今#xff0c;世界正快速由工业经济时代迈向“数化万物、智化生存”的数字经济时代。数据基础设施尚没有统一的概念。从狭义上讲#xff0c;数据基础设施是指支撑数据运转的相关软硬件资源#xff0c;如数据中台、数据仓库、数据湖等…数据治理之法一、数据基础设施当今世界正快速由工业经济时代迈向“数化万物、智化生存”的数字经济时代。数据基础设施尚没有统一的概念。从狭义上讲数据基础设施是指支撑数据运转的相关软硬件资源如数据中台、数据仓库、数据湖等。从广义上讲数据基础设施是指以数据为中心深度整合存储、计算、网络等资源以挖掘数据价值为目标以保障数据安全为底线支撑数据资源全生命周期运转的基础设施。 1、数据基础设施的三层架构数据基础设施架构包括三层——基础支撑层、数据管理层和交易流通层。基础支撑层主要提供计算、网络、存储等基础资源构建数据资源池数据管理层由数据管理和安全支撑相关技术工具组成支撑数据资源全生命周期管理实现数据资源的要素化交易流通层主要支撑数据的运维、运营、价值评估和交易流通实现数据价值的释放。数据基础设施架构 1、基础支撑层基础支撑层也可称为数据资源层主要提供计算、网络、存储等基础硬件资源最终形成数据资源池。基础支撑技术框架资源供给技术计算技术计算硬件、计算模式并行计算、分布式计算、云计算、网络技术、存储技术资源调度技术虚拟化技术平台虚拟化、资源虚拟化、应用虚拟化典型的虚拟化技术包括服务器虚拟化、存储虚拟化、网络虚拟化等资源监管技术 2、数据管理层数据管理层也可称为数据要素层主要提供面向数据管理和安全支撑的基础工具将数据资源加工为可用的数据生产要素。数据管理层技术框架主数据是有关业务实体的数据。数据集成和互操作是指数据在不同主体和应用之间调度、融合的相关过程。数据湖是一个存储各种各样原始数据的大型仓库其中的数据可供存取、处理、分析及传输。数据湖可以实现数据资源的集中式管理并在此基础上形成新的能力包括预测分析、智能推荐等。数据中台是企业实现数字化的一个解决方案可将共性需求进行抽象打造成平台化、组件化的系统能力以接口、组件等形式共享给各业务单元使用从而使企业可以针对特定问题快速灵活地调用资源来构建解决方案为业务的创新和迭代赋能。从本质上看数字中台是一套方法论加一个产品组合能够承接数据湖的存储技术利用数据技术实现对海量、多源数据的采集、处理、存储和计算等形成可复用的数据生产要素为上层数据应用提供支撑。安全支撑技术数据信任技术利用基于角色的访问控制模型实现“实名制”动态网络安全管理为构建以“身份为中心”的数据安全体系提供基础支撑。信任技术保障以密码技术为基础以“最小授权、知其所需”的原则通过细粒度角色赋权对数据访问实施动态管控主要由身份管理、身份认证、权限管理和责任认定四部分构成。数字信任技术框架安全监管技术安全监管技术框架 3、交易流通层交易流通层也可称为数据资产层主要提供数据产品和服务的加工、运营和交易流通支撑能力将数据生产要素转化为数据产品或服务并上市交易。数据流通层技术框架数据运营加工技术 1、数据可信交换技术数据可信交换是数据运营的基础。根据数据敏感度不同可构建非加密传输通道和加密计算通道两类可信交换能力。数据流通过程中需要采用不同的数据隐私计算技术满足数据提供方、数据中介和数据消费方等主体的数据隐私保护诉求。隐私计算技术包括联邦学习、多方安全计算、TEE可信执行环境、差分隐私等。 TEE可信执行环境基于硬件防护能力的隔离执行环境构建芯片级别的安全计算。数据可信交换技术框架 2、数据开发利用技术数据开发利用主要基于多方安全计算、联邦学习、TEE、区块链技术等实现多方数据核实、相关分析、安全数据查询以及联合建模等功能。数据开发利用环境是关键主要包括数据安全隔离域、联邦学习平台、可信硬件执行环境三个方案 3、交易流通技术数据要素交易流通技术框架数据要素交易平台包含运营支撑、交易结算、供应管理、用户中心和交易门户五大组成部分。 2、贵州数据基础设施实践案例数据运营平台加工框架二、数据定价数据定价的影响因素包括数据的生命周期、数据质量价值、市场流通过程、售卖方式以及数据的成本结构等方面。数据商品的价格受到数据来源、数据规模、数据种类、数据采集方式、数据实时性等多种因素的影响。数据共享交易1.0共享交易数据本身类似于传统商品的买卖。数据经过处理、清洗、脱敏等组合成完整的数据集并且可以被分为不同版本。在数据需求方支付了一定费用后数据按照一定方式开放给数据需求方主要提供数据浏览、下载以Excel或CSV等格式等功能包括数字、文本、表格、图片、图像、地图等各类实时与非实时的数据。在法律允许的范围内不限定数据下载量和数据用途。数据共享交易2.0共享交易数据的查询服务在此过程中数据本身不可见。在不改变数据所有权、管理权的前提下仅涉及使用权、安全访问控制等问题更容易设计和实现数据共享交易机制。数据共享交易3.0共享交易数据的智能服务主要通过联邦学习、多方计算等方法提供服务在此过程中数据不可见。这种方式的优点在于可以定制数据集以及相关智能服务产品特别是对数据服务工具和应用进行定制。充分利用机器学习、数据挖掘等技术将数据中隐含的信息提取到模型服务中。数据使用场景作为数据交易流程的最终端对数据的价值起到了决定性的作用。不同种类的数据对应不同的数据使用场景会展现不同的数据价值。数据场景的不同导致数据类型和数据效用的不同从而影响数据的价值。如数据类型、数据精度、数据效用数据效用在不同的应用场景下消费者都采用不同的机器学习模型这导致了数据对不同黑盒模型的贡献也是不同且模糊的。举例来说在训练人脸识别机器学习模型的使用场景中人脸数据对模型的训练有正向贡献。如果混入低质量的模糊图片、动物图片甚至恶意的对抗样本那么这样的数据是没有价值的甚至对模型的训练有负面影响导致模型失效。但是数据效用只能在数据交易完成后才能得到验证难以应用于交易之前的定价方法。所以我们需要尽可能地在数据交易前估计数据对相应机器学习模型的效用。基于数据要素的定价方法 1、基于效用的定价方法价格效用理论认为决定数据价格的是其使用价值即在具体应用场景中使用数据前后决策者的预期收益或损失的差值是相应数据的价格。将数据价值评估建模为合作博弈问题通过计算数据对模型预测的影响来量化数据的贡献度以达到价值评估的目的从而可以设计基于数据效用的定价技术。 2、基于隐私量化的定价方法当涉及敏感隐私或者机密数据时由于数据提供者的隐私需求隐私风险则代替数据价值成为衡量数据价格的重要指标。基于博弈论和微观经济学的定价方法 1、基于拍卖机制的定价方法由于数据应用场景的多样性数据价值存在极大的不确定性与差异性直接对大数据给出一个合理的价格是困难的特别是在数据交易的前期数据的市场价值不明确。采取拍卖机制可以激励数据卖方诚实地揭示数据价值并保证数据卖方利益同时兼顾市场原则。 2、基于信息设计的定价技术上述基于拍卖理论的定价技术都假设了买家对于商品有明确、具体的估值这在数据交易市场中不完全符合实际情况。在没有买到具体的数据之前数据消费者无法对数据商品做出有效的估值我们称该现象为非对称信息市场环境。在非对称信息数据市场下数据的交易双方很难对数据商品有准确的估值。然而数据卖家可以巧妙地设计数据商品的售卖形式来打破这一非对称信息壁垒通过释放数据商品信号比如发布免费数据、提供数据展示data demonstration等方式让数据消费者了解部分数据信息辅助其准确地对数据估值。数据卖家还可以将数据商品划分为不同版本每个版本拥有不同的质量和价格。在确定数据售卖形式之后数据卖家通过和数据消费者交互以学习并探索其数据估值分布函数同时数据卖家也会利用已经学习到的信息动态调整价格保证交易收益。 3、基于机器学习的定价技术在基于机器学习服务的数据市场中数据的价值体现在机器学习模型的训练过程的上下文中。基于数据特定类型的定价方法 1、基于查询的定价方法受到传统电子产品“多版本”销售策略的启发他们将数据库视为不同版本数据产品的合成每个版本的数据产品对应一个具体的数据库视图。通过确定每个视图的价格并结合数据库查询的关联规则即可实现任意视图组合查询的自动定价。面向区块链数据交易市场的数据定价技术借助区块链技术数据交易中的数据权益保障、数据隐私保护、可信安全交易等问题会找到相应的解决方案。基于区块链构建的数据交易市场将形成无中心或者多中心的分布式数据交易模式如何在分布式数据交易的模式下进行数据定价是未来需要探索的方向。区块链技术的引入也为数据定价方法提供了设计上的便利。比如我们可以将定价算法直接嵌入智能合约由智能合约来保证算法的正确运行自动检测套利行为是否存在区块链技术还能更好地实现数据共享中的收益分成数据定价产生的收益以夏普利值等公平性指标为指导结合区块链安全可信的数据追溯技术完成数据价值链条上的公平收益分配。面向联邦学习数据共享系统的数据定价技术联邦学习是数据共享的一种新范式在不共享原始本地数据的情况下通过分布式机器学习技术共享本地模型参数聚合更新全局模型从而完成多终端的数据共享与知识传递。如何在联邦学习的框架下进行数据定价与收益分成也是未来重要的研究方向。在联邦学习中终端数据来源多样分布各异在无法访问终端本地数据的情况下如何制定个性化的数据定价技术衡量数据源数据价值是联邦学习中的基本问题。联邦学习中的数据定价技术还需要进一步克服数据终端可能存在的恶意攻击行为数据终端可能通过修改本地数据来获得更多的数据报酬或者通过“搭便车”的方式只利用全局模型而不共享数据。因此我们需要进一步考虑具有鲁棒性抗攻击的数据定价技术。三、数据管理 1、数据模型常见的数据模型包括关系模型、三元组模型、文档模型、XML以及JSON。关系模型为了保证数据的正确有效关系模型规定了三类完整性包括实体完整性、参照完整性和用户定义的完整性分别保证实体的唯一性、关系之间引用的正确一致性以及符合业务逻辑的数据正确性。关系模型对数据的操作可以用数学语言精确定义即关系代数。关系代数的基础是集合论包含常见的并、交、差、补等集合运算以及选择、投影、连接等特殊的关系运算。三元组模型三元组模型采用简单的主语谓语宾语来描述数据比如数据治理之法属于书籍这个三元组描述了“数据治理之法”这个实体属于“书籍”这个概念类型。文档模型文档模型将文档视为信息的基本单位一个文档类似于关系数据库中的一条记录。与关系模型不同文档可以是无结构的数据也可以是半结构的数据如XML、JSON等。文档模型可以看作键值的特例每个键对应一个文档。 XML 和 JSON XMLextensible markup language即可扩展标记语言。设计XML的初衷是为了克服HTML的缺陷如数据描述性差、可读性差、难以搜索等从而为不同组织之间的数据交换提供一个标准的数据格式。 JSON本质上是一个序列化的对象数组。 1、元数据管理元数据meta-data是描述数据的数据包括数据资源的各种属性如名称、类型、含义、来源、规模、存放地等。元数据在组织内部不同信息系统之间充当了纽带和桥梁的作用便于数据跨系统正确、高效流动。元数据生命周期根据用途元数据一般可以分为三类即技术元数据、业务元数据和管理元数据。 2、主数据管理主数据master data指组织内部各信息系统之间共享的核心业务数据例如客户数据、订单数据、产品数据等。主数据在整个组织范围内要保持一致、完整和可控。 3、数据质量管理数据质量评估标准的六个维度 1、数据质量评估框架 DQAF DQAFData Quality Assessment Framework是由国际货币基金组织IMF于2001年提出的通用的数据质量评估框架。该框架包括一套共48种通用测量类型这些类型基于数据质量的五个方面即完备性、及时性、有效性、一致性和完整性。 AIMQ AIMQ是多位美国学者于2001年提出的质量评估框架它由 PSP/IQ 模型、IQA 工具、质量差距分析技术 3个部分组成。 PSP/IQ 模型包含两个方面一是产品质量产品应提供有效的、有用的信息应没有错误、简明表达、保持完整、一致表达二是服务质量应提供可靠的、有用的信息应注意及时性和安全性。 IQA 工具是一套测量数据质量的调查问卷方法。质量差距分析技术结合PSP/IQ模型根据问卷调查数据对组织数据质量管理状况予以评估并聚焦可改进的部分 2、数据质量评估标准 ISO 8000系列标准和ISO 19100 四、数据清洗与集成数据准备是使用数据的基础包括数据清洗和数据集成。目前主流的数据集成工具是ETLextracttransformload如 Kettle、Datatage 、Talend 等 ETL 工具/软件其目标是从不同的数据源中抽取数据并转换成规定的格式。五、数据互操作互操作本质上就是多个主体例如软件、软件的构件间对他方资源例如数据、功能的互相使用而互操作性就是进行上述互操作行为的能力。数据互操作是以数据为中心的互操作其将数据作为系统内的基本资源通过数据标识、数据发现、数据传输、数据处理等技术手段实现系统间的相互协作。数据访问是数据互操作的基础即数据所有者能够提取其希望互操作的数据并通过特定的数据访问API以特定的格式提供给外界。 1、主流互操作技术框架 1、内联网下的互操作技术框架在内联网Intranet环境下互操作的范围往往局限在企业内部互操作技术也以传统的中间件技术为主。主流的中间件技术CORBA、RMI以及DCOM。 1、CORBA CORBA曾是分布式中间件的主流。CORBA是典型的代理总线Broker模式。 CORBA 互操作框架 2、RMI RMIremote method invocation远程方法调用是Java在JDK 1.2中实现的互操作技术框架。 RMI 互操作框架 3、COM/DCOM 微软分布式组件对象模型DCOM是对组件对象模型COM的扩展使其能够支持在局域网、广域网甚至互联网中不同计算机的对象之间的通信。DCOM面向Windows平台提供一系列微软的概念和程序接口利用这个接口客户端程序对象能够请求来自网络中另一台计算机上的服务器程序对象。 DCOM 互操作框架 2、互联网下的互操作技术框架面向互联网环境的互操作技术框架主要包括以SOAP、REST为代表的Web Services以及数字对象体系结构DOA。 1、SOAP 以SOAP为代表的Web Services是典型的SOA架构基于服务提供者、服务注册表、服务请求者三种角色之间的交互包括发布、查找、绑定三种操作。典型的应用流程为一个服务提供者拥有一个可通过网络访问的软件模块Web Services的实现体服务提供者制定该服务的描述并将其发布给服务请求者或服务注册器。服务请求者通过本地或远程的服务注册器查找到所需服务的描述根据其中包含的信息绑定服务提供者后就可与Web Services的实现交互。服务提供者与请求者是一种逻辑关系换言之任何一方都可作为服务提供者或请求者。基于SOAP的Web Services互操作框架 SOAP是一种基于XML的轻载协议用于在松散的分布环境中对等地交换结构化和类型化的信息。 2、RESTful 表现层状态转换REST是Roy T. Fielding在其博士论文中提出的一种面向Web的体系结构风格是Fielding对其HTTP 1.1协议研究工作的理论性总结。 RESTful Web Services互操作框架 3、主流互操作框架主流互操作框架 4、数据互操作代表性技术用于解决“数据孤岛”问题的数据互操作开放技术包括抽取–转换–加载ETL技术、基于企业服务总线ESB的交换技术、机器人流程自动化RPA技术以及基于内存数据的反射技术。 1、抽取-转换-加载ETL技术 ETLextracttransformload是指数据从来源端经过抽取extract、交互转换transform、加载load至目的端的过程。 ETL的概念是随着数据仓库的产生而产生的在整个数据仓库设计工作中ETL占到了60%70%的工作量是整个数据仓库体系的关键一环。数据仓库的 ETL 框架 ETL 工具 ETL技术的优势主要包括 ①简化了用户操作。ETL通常采用图形化的配置方式简单、灵活使得用户无须过分关心数据库的各种内部细节专注于功能。 ②支持各种数据源特别是平面数据源。ETL除了支持所有常见的数据源如Oracle、Sqlserver、DB2、Mysql、Access、Vf等还提供了对各种平面数据源的支持如txt、excel、csv、xml等。 ③支持各种硬件和软件平台。支持软件平台如Windows、Linux以及国产操作系统同时支持各种硬件平台如x86、龙芯等。 ④功能更为强大数据处理组件非常丰富通用性更强组件很容易复用。 ⑤提供灵活的定制规则能更好地控制数据质量。 ⑥提供强大的管理功能如权限管理、日志管理。 ETL技术也存在一定的局限性ETL一般被设计为“批量进行工作”即采集数据、上传数据、采集更多数据、再上传之。这种批量加载数据在某些情况下的确适用但是面对越来越多的数据流和其他类型的数据源时尤其是在需要尽快提供最新数据的需求下这些批处理的工具集就不适合了。当然目前产业界、学术界都对流式ETL技术进行了研究与应用已经能够在一定程度上解决上述问题。 2、企业服务总线ESB ESB全称为Enterprise Service Bus即企业服务总线是构建面向服务架SOA解决方案时常用的一种基础架构包括一系列中间件技术实现并支持SOA的基础架构功能。ESB支持异构环境中的服务、消息以及基于事件的交互并且具有适当的服务级别和可管理性。 ESB 的典型模型 ESB的技术框架通常由ESB服务器和管理中心两个核心部分组成。 ESB 的技术框架 ESB的主要优点之一就是处理消息。 ESB的另一个优点是性能。ESB在设计上能够处理大量的消息。 3、机器人流程自动化RPA技术机器人流程自动化robotic process automationRPA又可以称为数字化劳动力digital labor是一种在系统交互及过程自动化中以“机器人”充当人类的软件代理的软件解决方案通过模拟并增强人类与计算机的交互实现工作流程中的自动化。在RPA中“机器人”对应软件程序而不是硬件机器人。 RPA的目的是用软件“机器人”代替业务流程中的人工任务并且该软件与前端系统的交互方式类似于人工用户。在使用RPA方案的业务流程中称为“机器人”的软件代理会模仿人类通过一系列计算机应用程序所采取的手动路径。软件机器人执行的任务通常是基于规则、结构合理且重复的例如自动电子邮件查询处理以及来自不同来源的薪资数据整理等。此外也可以对软件机器人进行数据培训从而可以适应更多复杂、灵活的情况。通常RPA产品包括三个主要组成部分图形建模工具、管理机器人执行的协调器以及机器人本身涵盖开发、测试、过渡和生产生命周期阶段。其他组成部分可能包括调度程序、协作工具、审计跟踪和绩效分析工具。通常RPA产品包括三个主要组成部分图形建模工具、管理机器人执行的协调器以及机器人本身涵盖开发、测试、过渡和生产生命周期阶段。其他组成部分可能包括调度程序、协作工具、审计跟踪和绩效分析工具。 RPA采用的技术有机器学习、自然语言处理、自然语言生成和计算机视觉等。RPA允许机器人以与人类相同的方式和任何应用程序交互。RPA与传统自动化的区别是它使用的是说明性步骤剥离代码层因此具有少量编程经验的人员也能将复杂的过程自动化。RPA部署可以带来的收益主要包括提高运营效率、提高服务质量、降低成本以及改进风险管理和合规性。 RPA 也有依赖型强RPA在运行时大多需要连接外部显示器以操作鼠标、键盘来点击或敲击图形显示环境中的屏幕指定位置或者应用控件、并发性弱由于RPA的基础原理是模拟鼠标键盘点击和敲击导致即使在CPU多核的某个操作系统环境中也无法在同一时刻点击屏幕的不同位置或不同应用的控件、鲁棒性差RPA提供的集成不如本质上嵌入核心系统的集成健壮。、失败率高RPA难以处理细微的业务流程并需要依赖复杂的数据和应用程序集成方案。等缺点。 4、数据反射DR技术概括来说数据反射data reflectionDR技术就是基于内存数据重建软件体系结构进而构建反射系统以计算反射的方式实现数据互操作的一系列技术。该技术可以生成API来访问系统内部可用的特定数据而无须访问系统的源代码或干扰系统的正常运行。与现有的数据访问方法相比使用数据反射技术进行数据互操作的用户只需考虑现有系统的输入和输出而无须了解其内部工作原理即可以以黑盒的方式实现数据互操作。 1、运行时软件体系结构运行时软件体系结构runtime software architectureRSA是数据反射技术的核心它可以提供理解软件系统的结构知识并支持运行时系统的演化。软件体系结构SA通过描述包含构件、连接器和约束的软件系统的总体结构在软件开发中扮演重要角色。通常SA可以充当软件需求和实现之间的桥梁为系统构建和组成提供蓝图。SA有助于全面了解大型系统。在数据反射技术中为了应对不断增长的复杂性和高成本的发展进一步将SA的概念扩展到整个生命周期尤其是在运行时即运行时软件体系结构简称RSA。RSA对软件系统的运行时结构和行为进行建模以帮助系统维护人员了解和推理运行时系统。从概念上讲RSA可以帮助派生出设计阶段SA中描述的完整信息例如类图、设计结构、构件和连接器。计算反射计算反射可用于在运行时观察和修改程序执行。在系统级别计算反射可以提供其自身的准确表示称为自我表示要求系统的状态和行为始终与该表示相符称为因果关联对表示所做的任何更改都可以立即反映在系统实际状态和行为的更改中。 Maes对相关概念进行了总结归纳并对计算系统、因果联系给出了如下定义计算系统对某个领域进行推理的一个系统并且基于此可以执行一些动作。因果关联计算系统与领域任意一方的改变将影响另一方。由此引出了元系统meta system和反射式系统reflective system的定义元系统以另一个计算系统作为领域的计算系统。反射式系统一个与本身具有因果关联的元系统。 Maes根据上述定义给出了将计算系统变成反射系统的三个步骤如下图所示 ①建立一个自描述的系统即元层实体的描述并将基层实体具化reify为元层实体 ②提供一种可以操纵manipulate这种自描述系统的方式 ③确保这种操作能够真正立即反映reflect至基层并对基层系统产生影响。其中第三点加强了这种所谓的因果关联需求。计算反射的三个步骤一个反射系统的特征在于具有操作和推理本身的能力。特别地所谓操作和推理既可以是操作和推理实现系统的静态程序也可以是系统的动态行为。而当对一个计算系统定义反射时需要回答三个基本问题①计算系统中的哪些实体需要被映射为可以被操作的元层实体②元层实体支持的操作有哪些③元层实体与基层实体的因果关联如何实现。数据反射技术是一种针对黑盒应用实现数据互操作的技术其遵循上述反射理论通过扩展其运行时环境将该运行时环境实现为一个反射系统从而对黑盒系统的运行时状态进行操作和推理。为了实现数据反射技术一个具有挑战性的目标是全面涵盖运行时系统的状态和行为。但是从数据访问的角度来看反射过程只需要关注用户感兴趣的数据而不是了解整个系统的信息。例如当用户想要比较两个购物网站之间同一商品的价格时他需要的是每个购物网站中该商品价格的数据而不是这些网站上列出的所有信息。因此数据反射只需要恢复能够反映感兴趣数据的处理逻辑的RSA片段即可。构造RSA需要反射软件系统的运行时状态。为此数据反射技术利用计算反射设计双向转换引擎以指定运行系统及其RSA之间基于状态的关系。为了维持RSA与运行系统之间的因果关系数据反射技术中还设计了RSA高层表示与运行时机制的映射从而使得底层运行系统的更改可以反映在RSA上反之亦然。在数据反射技术中RSA充当运行系统和具有数据互操作性要求的系统开发人员之间的控制平面。基于恢复的RSA原始开发人员、系统管理员和其他外部开发人员等利益相关者可以定义API来访问感兴趣的数据而无须知道源代码。通过检索或更改RSA上感兴趣的数据的值可以实现“读取”或“写入”数据访问。在生成数据访问API之后开发人员可以选择使用API通常在中间件上来为创新的新应用程序实现数据互操作性。此外RSA还可以帮助降低维护和改进API实施的成本。数据反射技术从应用程序的内存状态入手其效果类似于RPA技术具有RPA技术的大部分优势。同时数据反射技术避免了对人机交互界面的依赖因此能够更好地支撑具有高并发需求的数据化操作场景。数据反射技术的局限性主要在于其需要复杂且完善的开发工具的支撑对于不同的操作系统与编程语言通常需要不同的定制化开发平台并且对于开发人员也有较高的技术要求。六、数据安全与隐私保护技术 1、数据安全技术 1、密码学基于密码算法的数据保护通过加密算法将明文数据变换成密文数据实现数据存储、传输等过程的安全机密。在访问数据的时候又可以通过解密算法将密文数据恢复成明文数据实现数据的计算分析。现代密码体制包括明文plaintext、密文ciphertext、加密算法encryption、解密算法decryption和密钥key五个要素简称PCKED五元组。加密算法和解密算法又可简称加密和解密这两个过程分别涉及加密密钥和解密密钥。加密和解密过程密码算法主要分为两大类一类是对称密码算法另一类是非对称密码算法又称公钥密码算法。对称密码算法的特点是加密密钥和解密密钥完全相同数据收发双方需要事先交换受保护的加解密密钥才能实现数据的有效传输。非对称密码算法的特点是加密密钥和解密密钥互不相同任意数据发送方只需使用公开的加密密钥进行加密数据加密接收方即可基于私有的解密密钥实现数据解密接收。对称密码有两种主要形式一种是将明文按照字符逐位加密称为序列密码也称“流密码”stream cipher另一种是将明文分组逐组进行加密称为分组密码也称“块密码”block cipher。 2、身份认证基于用户名和口令的认证、基于生物特征的认证、基于数字证书的认证、多因子认证结合两种或两种以上的认证技术 3、访问控制基于角色的访问控制等 4、密文检索大数据场景下数据多集中存储在数据中心的服务器上为保证云数据的安全性一种通用的方法是用户首先使用安全的加密机制如DES、AES、RSA等对数据进行加密然后将密文数据上传至云服务器。由于只有用户知道解密密钥而云存储服务提供商得到的信息是完全随机化的所以此时数据的安全性掌握在用户手中。数据加密导致的直接后果就是云服务器无法支持一些常见的功能例如当用户需要对数据进行检索时只能把全部密文下载到本地将其解密后再执行查询操作。因此如何保证在数据安全存储如密文存储的情况下进行高效、安全的数据检索是当今的研究热点之一。密文检索的目的是使服务器无法获得用户的敏感数据和查询信息以保护数据和查询信息的机密性。它支持在密文存储的场景下对用户数据进行检索然后将满足检索条件的密文数据返回给用户。用户可在本地将检索结果解密从而获得数据的明文。根据应用场景和实现技术的不同密文检索主要分为对称可搜索加密symmetric searchable encryptionSSE和非对称可搜索加密asymmetric searchable encryptionASE两大类。 5、数据传输如 IPSec和 SSL 两种安全传输协议。 6、隐私保护技术数据共享阶段的K–匿名技术及其变种集中式差分隐私技术数据利用阶段的同态加密技术安全多方计算技术数据获取阶段的匿名通信技术本地差分隐私技术等。 1、K-匿名及变种 K–匿名模型的核心思想是通过将每条个人记录信息隐藏在一组具有相似属性值的人群记录中来达到隐藏当前个人隐私的目的避免当前记录所对应的个人被攻击者唯一识别出来。 K–匿名模型首先将用户属性划分为三大类 1唯一标识属性表示能够唯一识别出个人身份的属性信息包括身份证号、社保号、校园一卡通号等。 2准标识属性单独使用该信息不足以唯一确定个人身份但是可以通过关联其他准标识信息实现个人身份范围的快速缩小与最终锁定。例如邮政编码、行政区、出生日期、年龄、性别等。 3敏感属性也称为隐私信息是指不希望被别人所知的信息包括个人健康状况信息、个人工资信息、个人信仰、政治党派、家庭成员状况信息等。 2、集中式差分隐私技术、本地差分隐私技术差分隐私技术根据应用场景的不同分为集中式差分隐私以及本地差分隐私两大类。通过使用随机算法向用户查询结果中添加随机噪声的方式集中式差分隐私技术能够保证任意个人的数据信息不被泄露。更形式化地说假设我们将已有的数据库集合记为D将与D集合仅相差一条数据记录的数据集记为D’这里的单条数据记录差异可以由D集合中针对任一数据记录的增删改操作产生称D’为D的邻近数据集合。如果随机算法针对D和D’所产生的带噪输出结果拥有相近的概率分布那么攻击者就难以判断当前获得的查询结果来自哪个具体的数据集合。集中式差分隐私技术主要关注在拥有可信数据管理第三方的场景下如何针对汇聚数据添加相应的噪声扰动再进行共享与发布以防止个人信息泄露。本地差分隐私的应用场景则拥有更加苛刻的条件该场景假定拥有隐私信息的用户在没有可信数据管理第三方或者不相信除自身以外任何第三方的前提条件下仍然能够在自身数据被收集时确保个人隐私信息安全。 3、同态加密技术同态加密技术与传统加密技术的最大区别在于同态加密技术允许直接在加密结果上直接进行相关计算密文计算结果与直接针对明文数据进行计算之后再进行加密的结果完全相同。这就意味着用户能够放心地将自己拥有的隐私数据加密后再提交给云端服务商服务商在不知晓用户隐私数据的前提下直接对密文数据进行计算、分析并将密文计算结果以及提供的相应服务返回给终端用户用户在终端解密数据后即可获得正确的数据计算结果而在整个数据流动过程中用户的个人隐私信息却完全没有泄露给第三方服务提供商。同态加密应用场景示意图 4、安全多方计算安全多方计算概念的提出最早可以追溯到姚期智院士首位华人图灵奖获得者在1982年提出的百万富翁问题。姚式百万富翁问题描述了两位在街头偶然相遇的富翁希望能够在互相不泄露自身财产隐私的前提下获知究竟谁的财产更多。由此衍生开来安全多方计算问题可以概述为相互之间不信任的一组计算参与方各自持有自身私密数据在缺少绝对可信第三方机构的前提下如何协商出一个既定函数使得任一计算参与方只能获得对应于自身的既定函数计算结果输出而无法获知其他计算参与方的计算结果或输入私密信息。该既定函数实际上模拟了一个理想化的完全保持中立的可信第三方的作用使得各计算参与方能够在不透露自身私密信息的前提条件下获得各自希望得到的计算分析结论。 7、安全与隐私保护工具如安全与隐私保护操作系统、安全与隐私保护通信工具、安全与隐私保护邮件工具、安全与隐私保护浏览器工具等。如腾讯云数盾方案、阿里云安全解决方案、区块链技术等腾讯云数盾功能概览阿里云数据安全解决方案典型的区块链系统可以从整体上划分为网络层、共识层、数据层、合约层、应用层共五个层次。区块链层次结构七、数据治理标准体系数据治理标准体系框架

查看全文

http://www.zqtcl.cn/news/832872/