一、多源异构数据到空间数据仓库的转换方法(论文文献综述)
李茵[1](2021)在《面向医院管理的数据驱动决策研究》文中研究说明信息技术的快速发展与应用以及大数据战略的深入实施,使得大数据成为科技创新引领与决策支撑的重要战略资源,科学研究与实践正在完成“假设驱动”到“数据驱动”的巨大转变,大数据的深度挖掘与利用能够为社会发展、政府治理、国家安全等提供新的动能。围绕国家大数据战略,丰富和拓展大数据应用创新领域,推动管理升级,给学术界、产业界以及政府部门带来许多新的重要课题。其中面向健康服务供给侧的决策支持、决策引导和决策创新中的数据驱动、数据价值转换问题即是管理学、数据科学的核心科学问题之一,更是情报学应对大数据环境开展智慧型情报服务必须解决的关键问题之一。健康医疗大数据时代的到来,促使医院管理和医院管理者的观念都随之变化。数据驱动对医院精细化、智慧化管理决策具有重要意义。本研究从提升医疗管理决策质量的角度出发,构建数据驱动医院管理决策过程模型,分析数据驱动医院管理决策的影响因素,进而提出面向医院管理的数据驱动决策模型,并展开实证研究,为数据驱动决策领域的研究理论基础和实证研究提供参考依据,为促进医院精细化管理提供对策及建议。基于此,通过界定“数据驱动”、“医院管理”、“医院管理评价”与“数据驱动决策”等相关概念,以回顾数据驱动决策、面向医疗健康领域的数据驱动决策、面向医院管理的数据驱动决策以及数据驱动决策的影响因素研究现状为基础,综合运用文献调研法、半结构访谈法、问卷调查法、扎根理论法、结构方程法、统计分析法、机器学习法分析了面向医院管理的数据驱动决策的过程模型和影响因素模型,并构建了面向医院管理的数据驱动决策模型。围绕面向医院管理的数据驱动决策模型这一核心研究内容,本文第三章在已有BASM模型研究过程的基础上,结合医院管理决策场景的特殊性,探索面向医院管理的数据驱动决策的运行机理,构建面向医院管理的数据驱动决策过程模型,以梳理驱动的路径,理清其中的内在逻辑。该模型由处理过程模型及支持过程模型两部分构成,旨在分别回答面向医院管理的数据驱动决策过程中两个核心问题,一是数据本身如何转化并如何嵌入到医院管理决策过程中,二是医院中能够支持并且推动数据驱动决策的途径是什么。第四章采用扎根理论进行了面向医疗管理领域数据驱动决策的影响因素识别研究,编码面向医院管理者的半结构化访谈资料,经过饱和度测试,最终识别出了四个维度的影响因素。第五章在对影响因素定性研究的基础上利用结构方程模型方法进一步验证影响因素,探讨相关变量的权重和关系。阐述各个因素对医院管理决策的影响关系,验证数据驱动医院管理决策影响因素模型。第六章整合数据驱动医院管理决策过程模型和影响因素模型,构建支持医院管理决策全过程的数据驱动决策模型,探讨过程模型与影响因素模型的内在联系。第七章根据已构建的面向医院管理的数据驱动决策模型,进行基于DRGs分组的医疗服务能力评价和医生绩效评价管理工作的实证研究,修正和完善已构建的模型。具体内容如下:(1)构建面向医院管理的数据驱动决策过程模型。基于现有的数据驱动决策机制模型,结合医院管理实践,构建面向医院管理的数据驱动决策过程模型,该模型由处理过程模型及支持过程模型两部分构成,处理过程模型包括面向医院管理决策的数据处理过程和数据驱动的医院管理决策处理过程。决策处理过程既是数据处理过程的最后阶段,对数据处理的结果进行展示与应用,又会不断地产生新的数据,前推已有数据的老化和错误,补充和修正数据处理过程。而数据处理过程以决策处理过程中的阶段性需求为导向,能嵌入到决策处理过程的所有阶段,为决策处理的全流程服务。支持过程模型主要涉及两用户一技术。两用户包括数据分析人员和管理者,使能技术是创建和改进能够嵌入到操作系统的分析工具,这三个主体不能割裂独立,而可以互相转化并可能同时存在,共同对数据和决策进行处理,支持处理过程模型运转。(2)系统分析了面向医院管理的数据驱动决策影响因素。对主观及客观上影响管理者数据驱动决策的因素进行整合和相关分析,确定四个核心影响因素范畴分别是医疗数据质量,信息技术,医院组织管理和管理者信息素养,构建了影响因素模型,发现数据驱动医院管理决策能受到管理者信息素养、医院组织管理和信息技术的正向影响,其中管理者信息素养最强,其次是医院组织管理和信息技术;医院组织管理对医疗数据质量、管理者信息素养、决策目标均有影响,对医疗数据质量的影响要强于管理者信息素养;医疗数据质量能够对信息技术产生正向影响;信息技术对决策目标具有正向影响。(3)构建了面向医院管理的数据驱动决策模型。将过程模型与影响因素模型有机结合在一起,构成了面向医院管理的数据驱动决策模型。打造数据驱动决策模型,将医院数据质量标准化管理贯穿于医院管理全流程、智能化管理提升医务人员的信息技术、高效化管理增效医院组织三个方面分析模型的实现,提出模型优化建议。(4)基于DRGs的肺癌医疗服务绩效分析实证研究。模拟医院管理中运用DRGs分组工具解决绩效问题的真实场景,应用数据驱动医院管理决策模型,优化DRGs分组,优化绩效管理。研究最终确定性别、年龄、入院途径、离院方式、住院次数、医保付费方式、是否手术、合并症严重情况八个因素为影响肺癌医疗服务费用的因素,构建了8个DRGs分组,其中合并症严重程度、是否手术、住院次数是决策树分组的分类结点变量。选用医疗服务能力的指标(DRGs总权重、CMI)根据获取的数据进行比较,完成绩效评价工作,实现基于数据驱动决策的绩效管理。
车思阳[2](2021)在《基于Kafka的大容量实时预警数据汇集分发技术研究》文中提出随着信息化战争的快速发展,获取预警数据的手段和能力得到了提升,我国预警领域的数据建设得到广泛关注。当前面临的主要问题包括:传统的情报数据的传输已经不满足现在预警数据的数据量大、数据类型多样、数据传输效率高等特点;各部门分别建立的预警信息系统,形成了数据壁垒,大量预警数据资源难以进行高效集成共享。因此,需要建立数据资源统一汇集、分发的基础平台。本文结合联合培养单位的实际项目需求,开展了基于Kafka的大容量实时预警数据汇集分发技术研究,主要工作概括如下:(1)在分析预警数据汇集分发系统实际应用需求的基础上,构建了基于Kafka的预警数据汇集分发系统架构,重点对系统中的核心模块—安全管理、数据采集、数据汇集分发、数据存储、汇集分发管理、数据检索进行了设计。(2)针对Kafka集群原生负载均衡存在的问题,提出了一种动态负载均衡算法,利用采集各代理节点运行时的负载指标计算负载值,给出Leader迁移和副本迁移的负载均衡策略,通过负载值测试和流量监控验证了所提方法的有效性。针对海量数据查询效率低的问题,提出了一种基于Elastic Search的数据检索优化方法,通过Elastic Search构建二级索引,提高数据检索效率。通过数据写入和检索测试,能够很好地满足预警数据存储和检索的要求。(3)根据预警数据汇集分发系统的架构,对安全管理模块、数据采集模块、数据汇集分发模块、数据存储模块、汇集分发管理模块、数据检索模块给出了具体实现。在此基础上,搭建了基于Kafka的预警数据汇集分发系统的测试环境,对功能要求、性能指标进行测试,验证了系统设计的正确性。
彭玉婷[3](2021)在《基于模型的多源异构数据自适应可视化技术研究》文中研究指明随着新兴信息技术的快速迭代,各应用领域产生了大量的多源异构数据。如何对这些数据统一整合和处理,挖掘出有价值的信息,引起了学术界的大量关注与研究。数据可视化将数据转化为不同类型的可视化元素直观展示,是数据处理与分析流程的重要环节。本文针对多源异构数据可视化存在的问题,研究了可视化流程中的组件生成技术和基于可视化组件的大屏构建技术。主要内容如下:(1)实现了一种基于模型的组件可重构生成技术。根据可视化组件的生成原理,本文提出一种通过可视化界面配置快速生成组件的方法。首先,本文分析了传统组件库生成组件的流程与存在的缺点。接着,本文提出一种组件快速生成框架,并构建了基于Echarts的图表模板,以模型化的方式生成组件。最后,引入可重构的概念,实现组件可重构配置。实验结果证明,本框架集成的可重构的组件模板达36例,在集成组件的种类和数量上优于大部分同类工具,且框架具有可扩展的特点。此外,与主流组件库的对比实验表明,本方法构建的组件在性能上具有更短的初始化时间和更高的动画帧率。(2)实现了一种基于页面自适应的大屏敏捷构建技术。针对可视化大屏构建流程复杂的问题,本文提出一种基于组件动态构建自适应大屏的方法。首先,本文对比了主流的大屏构建方式的优缺点,分析了基于商业智能工具构建大屏的灵活性。接着,在研究大屏动态构建的机制上,本文提出了一种基于可视化组件的大屏敏捷构建框架,并设计了三种大屏页面的自适应方案,以实现可视化结果的自适应展现。最后,开发了构建敏捷大屏的通用工具。测试结果显示,基于本工具构建的大屏,在功能上具有较好的易用性与交互性,在性能上也表现良好,满足实际应用的可视化需求。(3)实现了多源异构数据可视化的案例研究基于上述的研究成果,本文面向多源异构数据可视化的需求,使用开发的工具,快速搭建联合作战电磁态势数据可视化分析平台。实现对复杂多源的电磁态势关键指标数据进行实时可视化展示与分析。案例实现结果表明,基于本文提出的组件快速生成方法和大屏敏捷构建方法可以面向多样的可视化需求,快速构建相应的数据分析平台。因此本文的研究成果对于不同领域的数据可视化分析具有较高的应用价值。此外,本文提出的大屏敏捷构建工具已在实际项目中获得了较好的反响。
马超童[4](2021)在《面向科技咨询的知识图谱构建与管理平台的设计与实现》文中指出面向科技咨询的知识图谱构建与管理平台是为领域专家、科技咨询专家和知识图谱研究人员提供的,从结构化、半结构化、非结构化数据源中获取高质量知识体系的工具。该平台应具备以下三个特性:构建流程的各环节衔接顺畅,全生命周期工程化;以大数据技术融合海量、多源、异构的领域数据,以人工智能技术驱动大规模知识获取,平衡自动化方式与人工方式的矛盾;可操作性强,实现多领域复用。目前知识图谱相关产品虽然取得了一些显着成果,但仍存在领域数据层次化不明确且跨域连接难、准确性与效率难以兼顾、构建全流程各环节分散且知识挖掘不充分等问题与挑战:1)传统的跨数据库扫描方式已逐渐无法适用于海量、多源、异构数据的知识获取与分析需求;2)领域知识图谱构建面临着准确性与效率之间的矛盾,自顶向下方法保证了知识的准确性,但过程繁琐、知识规模受限,自底向上方法适用于大规模知识获取,但图谱结构松散、缺乏严格的模式约束;3)现有平台的各步骤需要投入大量的时间与人力,以完成分散环节的衔接。针对上述问题与挑战,本文重点围绕科技咨询大数据统一信息模型、领域知识图谱本体和数据的构建方法、面向科技咨询的知识图谱构建与管理平台的设计与实现等开展研究,主要内容分为以下三项:1)设计并实现了一套面向数据跨域融合的“主题化—层级化—关联化”的科技咨询大数据统一信息模型。以横向主题域划分、纵向多层次建模、业务标签组织关联的方式,打通了当前科技咨询领域的多主题、多来源、异构数据,为科技咨询领域资源体系标准规范的制定提供了依据;同时,对于其他领域的数据资源统一管理与本体建模产生了一定的参考价值。2)设计并实现了一种基于混合模式的领域知识图谱本体和数据的构建方法。以自顶向下的人工过程为主线,定义本体的标签概念层级体系和关系集合,保证了领域知识图谱的专业性;以自底向上的数据驱动过程为辅线,借助自然语言处理模型获取知识,实现了图谱规模在本体框架的严格约束下扩展。3)设计并实现了松耦合模式、可自由编排任务流的领域知识图谱构建与管理平台。通过“大数据平台+AI开放平台+知识图谱平台”三者互相支撑,平衡了自动化流程与人工参与的关系,提高了现有资源的利用率,增强了平台的环节流畅性和拓展复用能力。最后,该平台应用于国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,在科技咨询背景下构建了人工智能、大数据、量子通信等九个前沿领域的技术链和产业链知识图谱,验证了本文理论方法及平台的有效性与实际应用价值。
朱永波[5](2021)在《大数据集成开发平台的研究与实现》文中指出随着移动互联网技术的发展,网络中的数据量呈爆发式增长。海量数据中蕴藏了巨大的价值,如何更好更快地挖掘这些价值逐渐成为数据拥有者们普遍关注的焦点。如今大数据处理技术蓬勃发展,很多优秀的大数据计算框架被推出,为海量数据的计算处理提供了众多可靠的解决方案,从海量数据中提取数据价值已经不再是难事。但是,传统的数据开发模式却影响了数据开发与价值提取的效率。经过前期的技术调研与分析,发现传统的数据开发模式中主要存在以下问题:1)数据开发过程相对繁琐,在开发过程中开发人员需要通过命令行与集群进行交互,导致开发效率低下。2)多源数据同步方式不统一,且单机数据同步容易达到性能瓶颈,导致数据互通难,亟需一种统一的分布式数据同步方案;3)大数据处理流程中存在过多人工干预,无法实现大数据处理流程的自动化,严重地影响了数据的生产效率以及生产质量;针对上述问题,本文重点围绕大数据混合任务流编排优化以及分布式数据同步技术展开研究与分析,完成了大数据集成开发平台的研究与实现,主要研究内容有以下三项:1)提出并实现了基于DataX的分布式数据同步方案:基于对开源数据同步工具DataX的研究与改进构建了分布式数据同步工具,实现了多源异构数据同步方案的统一化,同时避免了单机数据同步容易达到性能瓶颈的问题;2)提出了一种大数据混合任务流编排及优化方法:旨在将复杂大数据处理流程中的多个不同类型的任务编排成基于有向无环图的混合任务流,从而通过对大数据混合任务流的自动化调度实现大数据处理流程的自动化;3)设计并实现了一站式大数据集成开发平台:构建了一个基于Web的大数据集成开发平台,针对不同大数据技术及处理框架提供统一的开发环境,面向大数据开发人员提供一站式数据开发能力,从而促进大数据开发的流程化与标准化。本文最终实现一个大数据集成开发平台,平台可以面向开发人员提供从数据产生到数据同步、数据存储、数据处理,最终到数据消费的全链路解决方案。平台应用到了国家重点研发计划项目“基于大数据的科技咨询技术与服务平台研发”中,验证了本文平台与方案的有效性及实用性。
高元照[6](2021)在《面向监管的大数据世系关键技术研究》文中提出大数据是经济发展的新动能,社会发展的新引擎,塑造国家竞争力的战略制高点,对人民生活具有重大影响。然而,大数据在蓬勃发展的同时,其面临的安全威胁也日益严重。近年来,大数据安全事件频发,大数据安全监管能力与其所处的重要地位不相适应。数据世系描述了数据的起源以及数据到达当前状态所经历的操作与处理过程,是实现数据安全监管的一种有效方法。然而,面向大数据与大数据系统的大规模、多样化、分布式和多用户等特点,将世系应用于大数据安全监管面临世系理论模型构建和世系追踪、融合、质量分析等技术挑战,亟待深入研究。本文围绕上述挑战性问题对面向监管的大数据世系关键技术展开研究,为大数据安全监管提供理论、技术与数据支撑。本文的主要工作及取得的成果如下:1.大数据系统广泛集成了多源异构数据并提供了多种数据存储与处理框架。为支持对多样化数据对象及其操作与处理过程的监管,首先需要构建能够有效表达多样化数据类型以及多样化数据存储与处理模式世系信息的大数据世系模型。针对现有世系模型难以应用于大数据场景的问题,提出了一种面向监管的大数据世系模型(Big Data Provenance Model,BDPM)。首先,分析大数据的主要特点、典型大数据系统技术框架的组成结构与数据安全监管需求,归纳了大数据世系模型的构建需求。然后,采用子类细化和新关系定义等方式对当前被广泛应用的通用世系模型PROV-DM进行扩展构建了BDPM模型。该模型以有向无环图的方式表示世系信息,根据大数据的主要数据类型和大数据系统的主要组成细化世系节点类型、扩充世系关系类型以提升世系的表达能力与监管效能,同时具有可扩展性以适应不断演化的大数据系统。最后,根据提出的大数据世系建模需求,对BDPM模型的有效性进行了理论评估。结果表明,BDPM模型能够有效表达多样化、多层级、多粒度数据对象在大数据系统多种存储、处理或通信等组件共同作用下的完整流转演化过程。2.在大数据系统中,数据安全监管所需的世系信息通常涉及多个用户、应用与工作节点。当前,仅基于多日志分析的世系追踪方法具备获取完整表达数据对象在大数据系统中操作与处理过程所需世系信息的能力,但实际能够获取的世系信息受到日志固有信息的限制。该类方法的理论可行性,也即基于现有日志能够完整获取所需世系信息需要在构建世系生成方法之前进行证明。鉴于世系与日志类型的多样性以及数据操作与处理过程的复杂性,提出专门的可行性证明方法。首先,提出了世系完整性的形式化定义与证明方法。然后,针对基于Hadoop的大数据系统,为证明基于多日志分析的Hadoop世系追踪可行性,根据BDPM模型与Hadoop数据监管需求指定了所需获取的世系信息,在此基础上对21种Hadoop日志与一种操作系统级世系追踪工具Progger日志的内容进行了调查。最后,采用提出的世系完整性证明方法证明了对于给定的世系类型,基于上述日志能够完整获取所需世系信息,为进一步研究基于多日志分析的Hadoop世系生成方法进而促进数据安全监管建立了基础。3.针对多用户、多应用与分布式场景下基于多日志分析的大数据世系实时生成问题,提出了一种基于辅助数据结构与多线程的多源异构日志联合分析方法。首先,选用了10种日志并采用各日志并行分析的方式获取Hadoop数据监管所需的世系信息。其次,构建了4种辅助数据结构与2种辅助文件并提出了4种子线程创建场景以提升日志分析效率并保障日志分析的正确性。然后,在上述日志分析架构下,提出了不同日志分析范畴内各类操作在不同操作执行模式、参数与结束状态,不同文件类型、大小与数量,以及不同类型的操作执行者等条件下的分析方法以及各日志分析进程的协同方法,并将一种基于世系不变量的Map Reduce任务工作者异常行为的检测方法融合到日志分析过程中。最后对所提方法的效率、正确性以及在异常检测上的有效性进行了实验评估。结果表明所提方法的日志分析速率高于日志记录的最高生成速率,通过正确设置在进行操作类型、对象等判断时所依赖的时间阈值,分析方法正确率能达到100%,可支持近实时的世系信息正确生成,为数据安全威胁快速发现与数据安全态势准确掌控提供有力数据支撑。提出的异常检测方法能够有效检测由Map Reduce任务工作者执行的异常操作。4.由于世系追踪环境与世系生成方法的复杂性,获取的世系信息在对数据状态演化过程的描述上难免存在冲突或矛盾,即存在不一致问题,影响世系的数据监管效用。针对在分布式、多日志场景下获取的世系数据的一致性检验问题,提出了一种基于世系图查询与世系节点/关系有序序列分析的世系一致性检验方法。首先,基于BDPM模型,提出了一个有效世系图在结构与属性上应当满足的17条一致性规则。然后,以图数据库Neo4j作为世系存储基础,提出了两种基于世系图查询的检验方法。一种通过将世系一致性规则的违反表现转化为数据库查询条件,直接采用世系图查询对一致性规则进行检验。另一种则是在仅凭世系图查询难以准确检验世系数据是否违反一致性规则时,首先通过世系图查询将待检验的世系节点或关系输出为一个有序序列,然后利用序列记录的多维属性比较做进一步检验。在公开与人工生成世系数据集上的实验结果表明,所提方法能够有效检测世系图在结构与属性上的不一致,方法执行效率较高,可扩展性良好,为世系监管效用的发挥提供了保障。
周俊武[7](2021)在《基于多源异构的海洋要素数据服务平台研究与实现》文中指出近年来随着计算机科学与大数据技术的不断发展,人类社会逐渐迈入数据科学迅猛发展的新时代。在这一时代背景下,基于大数据技术的海洋数据科学能够实现对现有资源的整合和再利用,提高行业运行效率,挖掘产业巨大潜力。但是海洋环境要素数据多源异构的特性使其很难实现有效组织和管理,传统海洋要素数据共享方式也存在可视化度较低、用户交互方式单一等问题,无法充分发挥数据所包含的经济与社会价值,极大地影响了远洋渔业等海洋数据相关产业的发展。本文针对异构海洋要素数据的特点,结合现有的数据集成技术,提出一种基于ETL(Extract-Transform-Load)的海洋要素数据集成方案,并对预处理过程中的异常数据检测算法进行分析和改进,实现了基于Web GIS技术的海洋要素数据可视化服务。本文的主要工作如下:(1)针对海洋环境要素异构数据源做了详细的分析,设计了一种兼容性强的数据标准,提出一种多源异构海洋环境要素数据集成服务方案。基于数据集成的需求设计实现了异构海洋要素数据集成模块,可以通过统一的数据访问接口完成数据采集、转换、上报作业的工作。此外,通过后台管理模块的Web界面实现对数据集成任务、基础元数据、映射元数据、ETL元数据的实时监控和管理。模块通过源数据结构与数据标准结构的映射实现不同数据源于目标数据间的统一格式转换。最后利用图像重采样算法对海洋要素数据集成的结果做了验证。(2)传统异常数据检测算法存在对全局孤立点不敏感,最佳初始聚类中心不易选择等缺陷,无法适应海洋要素数据量日益剧增的特点。为了提高算法对海洋要素数据异常点检测的效率,首先使用自适应步长因子以及禁忌表对狼群算法作出改进,然后使用改进后的狼群算法选择出最优的初始聚类中心,从而改进K-means算法的性能。经过实验证明,改进后的算法能够更好地对海洋要素数据集进行处理,在异常点检测的全面性上有了较大提高。(3)通过对系统的实际需求分析,结合数据服务平台的基础架构研究,设计并实现了基于多源异构的海洋要素数据服务平台,平台基于JAVA语言以及Web GIS、Redis、Spring Boot等技术开发,包括海洋要素数据集成模块、海洋数据后管模块(后台管理模块)、海洋要素展示模块。实现了多源异构海洋要素数据集成、数据集成任务管理、海洋环境要素数据可视化研究,满足了不同用户的实际业务需求。
周攀[8](2021)在《物流系统数据实时集成平台设计与实现》文中研究指明随着互联网技术的高速进步,传统工业领域应用互联网技术的情况越来越普遍。工业系统中数据的重要性不言而喻,而传统行业中的企业在数据管理方面能力的欠缺以及数据管理工具的缺失,加之数据来源多样化且异构性高,导致大量工业数据或是质量不高、或是同一企业分布在不同业务系统中的数据之间形成信息孤岛等等,使得数据中的信息得不到有效利用,这其中蕴藏的大量宝贵财富被浪费。针对上述场景,如何高效地集成及清洗多源异构数据,将来自不同数据源以及不同结构的数据抽取并按统一的结构存储是工业界数据管理所面对并需要解决的问题。本文研究并设计了一款物流系统数据实时集成平台,该平台基于Kettle开发,采用B/S架构进行改造,提高了平台灵活性,同时为用户省去下载安装等步骤所花费的时间。结合基于变动数据捕获技术和元数据驱动实现实时抽取功能,弥补Kettle在实时性方面的不足和欠缺。本平台支持对多种关系型数据库、非关系型数据库以及文件存储形式的数据集成及清洗。除此之外,本平台提供了便利的清洗、集成作业设计界面以及完善的数据集成作业调度功能,以及完备的权限认证能力,提高了系统和数据安全性。最后,本文还实现了一套客户数据分析系统,数据来源为使用物流系统数据实时集成平台所集成的某物流公司业务数据,该系统前端基于Echarts图表库开发,为数据分析提供了便利。本文从软件工程研发流程的角度出发,首先将物流系统数据实时集成平台划分为实时抽取模块、任务管理模块、权限认证模块、客户分析系统等子模块和子系统。合理地对各模块进行需求分析以及功能介绍,设计各模块的具体功能、属性以及逻辑。随后对系统整体架构进行设计,包括其软件架构、模块结构等。接着介绍了各功能模块的具体实现过程和功能流程以及部分核心功能实现原理,并对Kettle进行B/S架构改造,摒弃其原有的C/S架构,提高其使用灵活度。最后对物流系统数据实时集成平台和客户分析系统进行了性能测试和功能测试,验证了平台的可用性和并发能力。
韩海涛[9](2020)在《基于ETL的遥感数据集成工具集的研究与实现》文中认为随着航天、成像、通讯等相关技术的飞速发展,遥感数据的生产能力和生产质量都得到全面提升,这吸引了全球范围内越来越多的来自不同背景的研究者和数据使用者。为了使遥感技术更好地服务于各个学科领域,对遥感和空间数据共享与集成的相关技术的研究已成为遥感学科的重要研究方向。本文以实现一个多源遥感数据共享与集成工具为研究目的,首先在深入研究了数据共享和集成实现技术的基础上,总结和分析了各种技术的优缺点和适用场景,并提出了基于ETL技术的共享与集成工具设计思路。其次,根据共享平台的基本功能,在需求分析的基础上,提出了面向不同用户群体的数据访问、业务定义、数据处理以及系统管理等方面功能和性能上的需求要点和设计目标。最后,根据需求分析的结果,结合共享平台的基础架构,将系统划分了四大模块并完成了各模块的实现。通用访问模块提供统一的数据访问接口实现了数据的集成访问。工作流管理模块用来定义和控制工作流,实现业务流程的定义。具有高扩展性的数据工程工具集依托业务流程具体实现了全生命周期的数据处理操作。元数据库为系统管理和数据的检索提供了数据支持。最终实现了一个基于ETL技术面向云计算平台的用于遥感数据共享与集成工具集中间件。图[39]表[12]参[54]
王小健[10](2020)在《石化企业多源知识发现与管理方法研究》文中认为企业知识管理,即企业灵活运用先进的现代技术,对企业的显性和隐性知识进行有效地识别、融合和利用的活动。在知识管理过程中合理利用知识挖掘方法,能够帮助石化企业更好地做出指标预测、风险分析和企业决策,提高企业客户的忠诚度和服务体验度,进而从根本上提升我国石化企业的核心竞争力。然而,如果没有有效的多源信息处理手段,企业的知识管理系统只能处理单一来源的数据,将不可避免地局限了石化企业的发展空间。因此,本文探索建立一套高效的知识管理系统,通过深入研究网络行为建模和多源数据融合的方法,从而建立一套合理有效的体制机制对企业员工的性格、偏好、行为模式等方面进行全面深入地分析,更好地帮助石化企业提升其知识管理水平。本文的主要贡献是:第一,提出了一种基于多源信息融合的信息表示和行为建模方法;第二,提出了一种基于多源信息融合的指标相关性建模方法;第三,提出了一种基于多源信息融合的员工社群分析方法;第四,通过大数据分析技术和自然语言处理技术,提出一种基于多源信息融合的石化企业客户指标相关性分析方法和基于层次化聚类的石化企业垂直分类方法。基于上述方法,本文对石化企业知识管理的效果进行了分组实验和对比评估。实验结果表明,在利用了本文所提出的基于多源异构大数据融合分析的知识管理新方法的情况下,企业知识管理水平有了较为显着的提升。本文的研究成果为未来的企业知识管理方法研究提供了一条可行之道。
二、多源异构数据到空间数据仓库的转换方法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、多源异构数据到空间数据仓库的转换方法(论文提纲范文)
(1)面向医院管理的数据驱动决策研究(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景 |
1.2 研究目的与意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 数据驱动决策的研究现状 |
1.3.2 数据驱动医疗健康领域决策的研究现状 |
1.3.3 数据驱动医院管理决策的研究现状 |
1.3.4 数据驱动决策的影响因素研究现状 |
1.3.5 研究现状述评 |
1.4 研究框架与研究内容 |
1.4.1 研究框架 |
1.4.2 主要研究内容 |
1.4.3 拟解决的关键问题 |
1.5 研究方法和技术路线 |
1.5.1 研究方法 |
1.5.2 技术路线 |
第2章 相关基础理论和方法 |
2.1 医院管理相关概念 |
2.1.1 医院管理 |
2.1.2 医院管理评价 |
2.1.3 医院管理者 |
2.2 决策支持相关理论 |
2.2.1 西蒙决策理论 |
2.2.2 数据驱动决策相关理论 |
2.3 信息链理论 |
2.3.1 信息链与信息技术 |
2.3.2 “信息”上溯到“数据”带来的变化 |
2.3.3 信息链视域下的数据驱动医院管理决策 |
2.4 BASM模型 |
2.4.1 BASM模型的产生 |
2.4.2 BASM模型的研究现状 |
2.4.3 基于BASM模型的数据驱动医院管理决策研究 |
2.5 相关研究方法 |
2.5.1 扎根理论 |
2.5.2 结构方程模型 |
2.5.3 决策树算法--CHAID |
2.6 相关应用场景 |
2.6.1 医疗服务绩效 |
2.6.2 DRG在医疗服务绩效管理中的应用 |
2.7 本章小结 |
第3章 面向医院管理的数据驱动决策过程模型构建 |
3.1 面向医院管理决策的数据驱动过程模型 |
3.1.1 数据驱动决策模式运行机制 |
3.1.2 BASM的过程模型 |
3.1.3 基于BASM过程模型的数据驱动医院管理决策过程模型构建 |
3.2 面向医院管理的数据驱动决策过程模型要素分析 |
3.2.1 驱动要素 |
3.2.2 需求要素 |
3.2.3 支持要素 |
3.2.4 要素间关系 |
3.3 数据驱动的医院管理决策中数据处理过程 |
3.3.1 医疗数据存在的问题 |
3.3.2 面向医院管理决策的数据处理原则 |
3.3.3 面向医院管理决策的数据处理过程 |
3.4 面向医院管理的数据驱动决策过程模型运行机制 |
3.4.1 面向医院管理决策的信息链转化过程 |
3.4.2 数据驱动的医院管理决策制定过程 |
3.5 本章小结 |
第4章 基于扎根理论的数据驱动医院管理决策的影响因素分析 |
4.1 研究问题与研究程序 |
4.1.1 研究问题 |
4.1.2 研究方法 |
4.1.3 研究程序 |
4.2 研究设计 |
4.2.1 研究对象选取 |
4.2.2 资料收集 |
4.2.3 信效度检验 |
4.3 编码分析 |
4.3.1 开放式编码 |
4.3.2 主轴编码 |
4.3.3 选择性编码 |
4.3.4 理论饱和度检验 |
4.4 数据驱动医院管理决策影响因素理论模型与阐释 |
4.4.1 影响因素理论模型构建 |
4.4.2 影响因素分析 |
4.4.3 影响因素关系分析 |
4.5 本章小结 |
第5章 数据驱动医院管理决策的影响因素模型构建 |
5.1 数据驱动医院管理决策影响因素变量选择与界定 |
5.1.1 医疗数据质量维度 |
5.1.2 信息技术维度 |
5.1.3 医院组织管理维度 |
5.1.4 管理者信息素养维度 |
5.1.5 数据驱动医院管理决策维度 |
5.2 相关研究假设 |
5.2.1 医疗数据质量 |
5.2.2 信息技术 |
5.2.3 医院组织管理 |
5.2.4 管理者信息素养 |
5.3 调查问卷的编制与问卷修正 |
5.4 数据获取与统计分析 |
5.4.1 研究对象 |
5.4.2 样本量的选择 |
5.4.3 信度分析 |
5.4.4 样本分布 |
5.4.5 样本数据相关性 |
5.5 效度分析 |
5.5.1 探索性因子分析 |
5.5.2 验证性因子分析 |
5.6 基于结构方程的影响因素模型构建与检验修正 |
5.6.1 影响因素模型构建 |
5.6.2 模型基本适配评估 |
5.6.3 假设检验的结果 |
5.7 结构方程模型检验结果分析 |
5.7.1 影响因素强度分析 |
5.7.2 医疗数据质量对信息技术影响的验证结果分析 |
5.7.3 信息技术对数据驱动医院管理决策影响的验证结果分析 |
5.7.4 医院组织管理对医疗数据质量影响的验证结果分析 |
5.7.5 医院组织管理对管理者信息素养影响的验证结果分析 |
5.7.6 医院组织管理对数据驱动医院管理决策影响的验证结果分析 |
5.7.7 管理者信息素养对医疗数据质量影响的验证结果分析 |
5.7.8 管理者信息素养对信息技术影响的验证结果分析 |
5.7.9 管理者信息素养对数据驱动医院管理决策影响的验证结果分析 |
5.8 本章小结 |
第6章 面向医院管理的数据驱动决策模型研究 |
6.1 数据驱动医院管理决策模型构建 |
6.2 面向医院管理的数据驱动决策模型的驱动机制 |
6.2.1 面向医院管理的数据驱动决策模型的驱动目标 |
6.2.2 面向医院管理的数据驱动决策模型的驱动特征 |
6.2.3 面向医院管理的数据驱动决策模型的驱动过程 |
6.3 数据驱动医院管理决策模型影响因素的作用机制 |
6.3.1 医疗数据质量在数据驱动决策模型中的影响机制 |
6.3.2 信息技术在数据驱动决策模型中的影响机制 |
6.3.3 医院组织管理在数据驱动决策模型中的影响机制 |
6.3.4 管理人员素养在数据驱动决策模型中的影响机制 |
6.4 数据驱动医院管理决策模型对医院管理的提升策略 |
6.4.1 提升医疗数据质量 |
6.4.2 发挥信息技术使能作用 |
6.4.3 发挥医院组织管理支持作用 |
6.4.4 提高管理人员信息素养 |
6.5 本章小结 |
第7章 面向医院管理的数据驱动决策的实证研究 |
7.1 资料来源与研究对象 |
7.2 原发性肺癌患者的DRGS分组 |
7.2.1 数据基础 |
7.2.2 数据纳入 |
7.2.3 术语映射 |
7.2.4 DRGs分组结果对比 |
7.3 基于DRGS细分组的医疗服务绩效评估 |
7.3.1 基于决策树的原发性肺癌患者DRGs细分组模型 |
7.3.2 基于DRGs细分组的医疗服务绩效评估指标 |
7.3.3 医生医疗服务绩效指标统计结果 |
7.3.4 科室医疗服务绩效指标统计结果 |
7.4 讨论 |
7.4.1 数据驱动医院管理决策过程 |
7.4.2 数据驱动医院管理决策影响因素 |
7.5 本章小结 |
第8章 结论与创新 |
8.1 结论 |
8.2 研究创新点 |
8.3 研究局限 |
参考文献 |
附录1 病案组DRGS分组情况 |
附录2 医生组DRGS分组情况 |
附录3 访谈提纲 |
附录4 调查问卷 |
作者简介及在学期间所取得的科研成果 |
后记与致谢 |
(2)基于Kafka的大容量实时预警数据汇集分发技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 预警领域数据建设情况 |
1.2.2 数据集成技术 |
1.2.3 消息中间件 |
1.3 现有系统存在的问题 |
1.4 论文研究主要内容 |
1.5 本论文结构安排 |
第二章 相关理论及技术 |
2.1 消息中间件 |
2.1.1 分布式消息中间件 |
2.1.2 Kafka架构设计 |
2.2 HBase数据库 |
2.3 其他关键技术介绍 |
2.3.1 Elastic Search搜索引擎 |
2.3.2 Zookeeper分布式服务框架 |
2.3.3 JMX技术 |
2.4 本章小结 |
第三章 基于Kafka的预警数据汇集分发系统分析与设计 |
3.1 需求分析 |
3.1.1 功能需求 |
3.1.2 非功能性需求 |
3.2 系统架构设计 |
3.3 系统核心模块设计 |
3.3.1 安全管理模块 |
3.3.2 数据采集模块 |
3.3.3 数据汇集分发模块 |
3.3.4 数据存储模块 |
3.3.5 汇集分发管理模块 |
3.3.6 数据检索模块 |
3.4 数据库表设计 |
3.5 本章小结 |
第四章 基于Kafka的预警数据汇集分发系统中关键技术研究 |
4.1 Kafka集群动态负载均衡算法研究 |
4.1.1 原生负载均衡存在的问题 |
4.1.2 动态负载算法 |
4.1.3 模块设计与实现 |
4.1.4 实验与结果分析 |
4.2 海量预警数据存储检索优化研究 |
4.2.1 海量数据存储 |
4.2.2 海量预警数据检索 |
4.2.3 实验与结果分析 |
4.3 本章小结 |
第五章 基于Kafka的预警数据汇集分发系统实现与测试 |
5.1 系统功能实现 |
5.1.1 安全管理模块 |
5.1.2 数据采集模块 |
5.1.3 数据汇集分发模块 |
5.1.4 数据存储模块 |
5.1.5 汇集分发管理模块 |
5.1.6 数据检索模块 |
5.2 系统测试 |
5.2.1 系统部署环境 |
5.2.2 功能测试 |
5.2.3 性能测试 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(3)基于模型的多源异构数据自适应可视化技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文研究内容与结构安排 |
第二章 多源异构数据可视化及其关键技术概述 |
2.1 多源异构数据可视化相关理论 |
2.2 数据采集技术 |
2.3 数据处理技术 |
2.4 异构数据整合技术 |
2.5 组件生成技术 |
2.6 大屏展现技术 |
2.7 本章小结 |
第三章 基于模型的组件可重构生成技术研究 |
3.1 组件生成原理 |
3.2 传统组件库的研究 |
3.2.1 基于矢量绘制的组件库 |
3.2.2 基于像素渲染的组件库 |
3.2.3 不同组件库的对比分析 |
3.3 基于模型的组件可重构生成技术 |
3.3.1 总体流程 |
3.3.2 组件快速生成框架 |
3.3.3 模型构建 |
3.3.4 组件可重构实现 |
3.3.5 扩展组件库方案 |
3.4 实验及结果分析 |
3.4.1 扩展组件库实验结果 |
3.4.2 组件库的功能测试 |
3.4.3 组件库的性能测试 |
3.4.4 与同类组件库的比较 |
3.5 本章小结 |
第四章 基于页面自适应的大屏敏捷构建技术研究 |
4.1 传统大屏构建方式 |
4.1.1 基于前端技术构建大屏 |
4.1.2 基于BI报表动态构建大屏 |
4.1.3 分析小结 |
4.2 基于页面自适应的大屏敏捷构建技术 |
4.2.1 敏捷构建系统总体设计 |
4.2.2 大屏动态构建 |
4.2.3 自适应策略 |
4.2.4 大屏管理机制 |
4.2.5 大屏交互 |
4.3 实验及结果分析 |
4.3.1 功能测试 |
4.3.2 性能测试 |
4.4 本章小结 |
第五章 面向多源异构数据的可视化案例展示 |
5.1 案例需求分析 |
5.1.1 电磁设备可视化 |
5.1.2 电磁行动可视化 |
5.1.3 电磁态势四域分布可视化 |
5.2 电磁态势数据处理 |
5.3 电磁态势可视化分析场景实现 |
5.3.1 电磁数据查询集合 |
5.3.2 组件设计与生成 |
5.3.3 可视化分析场景实现 |
5.3.4 结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 未来展望 |
致谢 |
参考文献 |
攻读硕士学位期间研究成果 |
(4)面向科技咨询的知识图谱构建与管理平台的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景和意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状及分析 |
1.2.1 领域知识图谱构建技术研究现状 |
1.2.2 领域知识图谱构建平台研究现状 |
1.2.3 国内外研究现状小结 |
1.3 主要研究内容及创新点 |
1.4 硕士在读期间主要工作 |
1.5 论文组织结构 |
第二章 相关理论与技术研究 |
2.1 统一信息模型相关研究 |
2.1.1 共享信息与数据模型理论 |
2.1.2 元数据定义理论 |
2.1.3 数据中台理论 |
2.2 领域知识图谱构建相关技术 |
2.2.1 领域数据资源获取方法 |
2.2.2 概念图谱构建技术 |
2.2.3 知识抽取技术 |
2.2.4 知识融合技术 |
2.2.5 知识图谱可视化技术 |
2.2.6 图存储技术 |
2.3 本章小结 |
第三章 科技咨询大数据统一信息模型的设计实现 |
3.1 研究挑战 |
3.2 科技咨询大数据统一信息模型的设计方法 |
3.2.1 全域数据层次化定义 |
3.2.2 全域数据关联化组织 |
3.2.3 统一信息模型的图谱化 |
3.3 本章小结 |
第四章 领域知识图谱本体和数据的构建方法研究 |
4.1 研究挑战 |
4.2 领域知识图谱本体和数据的构建方法 |
4.2.1 大数据平台、AI开放平台、领域知识图谱构建工具的松耦合支撑模式 |
4.2.2 自顶向下为主、自底向上为辅的领域知识图谱本体和数据构建流程 |
4.2.3 多层级标签体系的领域知识图谱模式约束方法 |
4.2.4 自底向上数据驱动的知识获取方法 |
4.3 本章小结 |
第五章 面向科技咨询的知识图谱构建与管理平台的设计与实现 |
5.1 面向科技咨询的知识图谱构建与管理平台需求分析 |
5.1.1 平台业务需求 |
5.1.2 平台功能需求 |
5.2 面向科技咨询的知识图谱构建与管理平台总体设计 |
5.2.1 平台整体架构设计 |
5.2.2 平台功能及流程设计 |
5.3 数据库设计 |
5.4 核心功能模块设计与开发实现 |
5.4.1 数据资源管理子系统 |
5.4.2 图谱本体建模子系统 |
5.4.3 知识图谱构建子系统 |
5.4.4 知识图谱应用子系统 |
5.5 本章小结 |
第六章 面向科技咨询的知识图谱构建与管理平台的部署与测试 |
6.1 平台环境部署 |
6.2 平台核心功能测试 |
6.2.1 爬虫配置功能测试 |
6.2.2 图谱本体建模功能测试 |
6.2.3 知识图谱构建功能测试 |
6.2.4 知识图谱应用功能测试 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 研究展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(5)大数据集成开发平台的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 选题背景与研究意义 |
1.1.1 选题背景 |
1.1.2 研究意义 |
1.2 国内外研究现状 |
1.3 研究内容与论文工作 |
1.4 硕士在读期间主要工作 |
1.5 论文组织结构 |
第二章 相关技术与理论研究 |
2.1 大数据交互式开发技术研究 |
2.1.1 Apache Livy |
2.1.2 WebIDE |
2.2 分布式数据同步技术研究 |
2.2.1 数据同步技术调研 |
2.2.2 Master-Worker分布式架构 |
2.3 大数据任务流调度技术的研究 |
2.3.1 大数据处理流程 |
2.3.2 有向无环图 |
2.3.3 可视化编排技术 |
2.3.4 Apache Airflow |
2.4 本章小结 |
第三章 基于DATAX的分布式数据同步方案的研究与实现 |
3.1 研究背景与挑战 |
3.2 研究方案 |
3.2.1 整体架构设计 |
3.2.2 基于权重的多任务分发机制 |
3.3 同步任务的执行过程 |
3.3.1 解析及验证 |
3.3.2 任务构建 |
3.3.3 任务分发及执行 |
3.4 实验分析 |
3.4.1 实验数据与实验环境 |
3.4.2 实验设计 |
3.4.3 实验结果 |
3.5 本章小结 |
第四章 大数据混合任务流编排及优化方法的研究与实现 |
4.1 研究背景与挑战 |
4.2 大数据混合任务流 |
4.3 混合任务流的构建 |
4.3.1 混合任务流验证 |
4.3.2 混合任务流压缩 |
4.4 混合任务流调度 |
4.5 实验分析 |
4.5.1 实验数据与实验环境 |
4.5.2 实验设计 |
4.5.3 实验结果 |
4.6 本章小结 |
第五章 一站式大数据集成开发平台的设计与实现 |
5.1 需求分析 |
5.1.1 平台业务需求分析 |
5.1.2 平台功能需求分析 |
5.2 大数据集成开发平台总体设计 |
5.2.1 平台整体架构设计 |
5.2.2 平台交互流程设计 |
5.3 核心数据库表设计 |
5.4 核心功能模块详细设计与实现 |
5.4.1 任务开发模块的设计与实现 |
5.4.2 调度模块的设计与实现 |
5.4.3 任务提交模块的设计与实现 |
5.4.4 资源管理模块的设计与实现 |
5.4.5 任务执行模块的设计与实现 |
5.5 本章小结 |
第六章 一站式大数据集成开发平台的部署与测试 |
6.1 平台部署环境 |
6.2 平台核心功能测试 |
6.2.1 资源管理功能测试 |
6.2.2 项目管理功能测试 |
6.2.3 大数据任务开发功能测试 |
6.2.4 数据同步功能测试 |
6.2.5 任务提交及执行功能测试 |
6.2.6 任务流编排及调度测试 |
6.3 本章小结 |
第七章 总结与展望 |
7.1 工作总结 |
7.2 未来展望 |
参考文献 |
致谢 |
攻读学位期间取得的研究成果 |
(6)面向监管的大数据世系关键技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 数据世系定义 |
1.2.2 世系模型研究现状 |
1.2.3 世系追踪方法研究现状 |
1.2.4 世系质量分析研究现状 |
1.3 论文研究内容 |
1.4 论文结构安排 |
第二章 面向监管的大数据世系模型 |
2.1 引言 |
2.2 大数据世系模型构建需求 |
2.2.1 大数据与大数据系统技术框架 |
2.2.2 世系模型构建需求 |
2.3 BDPM模型 |
2.3.1 世系节点 |
2.3.2 世系关系 |
2.3.3 世系图定义与分析 |
2.4 世系模型评估 |
2.5 本章小结 |
第三章 基于多日志分析的大数据世系追踪可行性证明 |
3.1 引言 |
3.2 世系完整性证明方法 |
3.2.1 世系完整性定义 |
3.2.2 完整性证明过程 |
3.3 世系信息指定 |
3.4 Hadoop与 Progger日志调查结果 |
3.4.1 Hadoop日志调查结果 |
3.4.2 Progger日志调查结果 |
3.5 世系完整性证明 |
3.5.1 HDFSFile相关的世系类型 |
3.5.2 作业/任务相关的世系类型 |
3.6 本章小结 |
第四章 面向大数据世系生成的多源异构日志联合分析方法 |
4.1 引言 |
4.2 选用日志与分析范畴划分 |
4.3 辅助数据结构与文件 |
4.3.1 HDFSFile哈希表 |
4.3.2 HDFSFile数据块与层级关系文件 |
4.3.3 已分析记录链表 |
4.3.4 HTA-Log与 JNN-Log链表 |
4.3.5 Container进程文件 |
4.3.6 作业哈希表 |
4.4 子线程创建场景 |
4.5 Edit Log分析 |
4.5.1 文件夹创建 |
4.5.2 文件创建 |
4.6 HA-Log分析 |
4.6.1 分析对象识别 |
4.6.2 操作类型判断 |
4.6.3 文件操作分析 |
4.7 Yarn日志分析 |
4.8 P-Log分析 |
4.8.1 SYS_MKDIR |
4.8.2 SYS_CREATE |
4.8.3 SYS_OPEN |
4.8.4 SYS_UNLINK 与 SYS_RMDIR |
4.8.5 SYS_LSTAT |
4.8.6 SYS_CLOSE |
4.8.7 SYS_CHMOD |
4.8.8 SYS_WAIT4与SYS_KILL |
4.8.9 其它类型系统调用 |
4.9 世系生成框架 |
4.9.1 整体框架 |
4.9.2 日志采集与传输 |
4.9.3 日志分析 |
4.9.4 世系存储 |
4.10 实验与分析 |
4.10.1 实验设置 |
4.10.2 分析方法效率评估 |
4.10.3 分析方法正确性评估 |
4.10.4 Container异常行为检测有效性评估 |
4.11 本章小结 |
第五章 大数据世系一致性检验方法 |
5.1 引言 |
5.2 问题描述 |
5.3 世系一致性规则 |
5.3.1 结构一致性规则 |
5.3.2 属性一致性规则 |
5.4 一致性检验方法 |
5.4.1 基本一致性检验方法 |
5.4.2 组合一致性检验方法 |
5.5 实验与分析 |
5.5.1 实验设置 |
5.5.2 检验方法有效性评估 |
5.5.3 检验方法效率评估 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
作者简历 |
(7)基于多源异构的海洋要素数据服务平台研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究目的和意义 |
1.2 国内外研究现状及发展趋势 |
1.3 主要研究内容 |
1.4 论文组织结构 |
第2章 相关技术及工具 |
2.1 数据集成 |
2.1.1 数据集成概述 |
2.1.2 数据集成方法 |
2.2 ETL技术 |
2.2.1 数据抽取 |
2.2.2 数据转换 |
2.2.3 数据加载 |
2.3 Web GIS技术 |
2.3.1 Web GIS基本原理 |
2.3.2 Open Layers |
2.3.3 基于Web GIS技术的海洋要素数据可视化表达特点 |
2.4 本章小结 |
第3章 基于ETL的异构海洋要素数据集成方案研究 |
3.1 数据集成方案架构 |
3.2 数据标准化流程 |
3.2.1 数据采集 |
3.2.2 数据转换 |
3.2.3 数据加载 |
3.3 异构数据源介绍 |
3.4 实验及分析 |
3.5 本章小结 |
第4章 海洋要素数据异常数据检测方法的研究和改进 |
4.1 基于K-means算法的异常数据检测方法研究 |
4.1.1 K-means算法简介 |
4.1.2 基于K-means的异常数据点检测 |
4.2 传统狼群算法简介(WPA) |
4.3 基于禁忌搜索和自适应步长因子的改进狼群算法(IWPA) |
4.3.1 禁忌表 |
4.3.2 自适应步长因子 |
4.3.3 IWPA算法步骤 |
4.4 基于改进狼群算法的K-means算法(IWPA-KMS) |
4.5 实验分析与仿真 |
4.5.1 实验设备 |
4.5.2 IWPA算法性能测试 |
4.5.3 IWPA-KMS算法性能测试 |
4.6 本章小结 |
第5章 多源异构海洋要素数据服务平台 |
5.1 系统需求分析 |
5.1.1 系统功能需求分析 |
5.1.2 用户角色及权限 |
5.1.3 扩展性需求 |
5.1.4 安全需求 |
5.2 系统架构设计 |
5.3 数据库设计与实现 |
5.4 系统实现 |
5.4.1 系统环境 |
5.4.2 功能实现 |
5.5 本章小结 |
第6章 总结和展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
附录1 |
申请学位期间的研究成果 |
致谢 |
(8)物流系统数据实时集成平台设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题背景及意义 |
1.2 国内外研究现状 |
1.3 本文主要工作内容 |
1.4 论文结构安排 |
第二章 课题与相关技术支持 |
2.1 数据集成方法 |
2.1.1 模式集成法 |
2.1.2 数据复制法-数据仓库 |
2.1.3 综合集成法 |
2.2 元数据 |
2.3 实时数据抽取 |
2.3.1 全表扫描对比 |
2.3.2 触发器捕获 |
2.3.3 时间戳获取 |
2.3.4 基于DBMS日志获取 |
2.4 Quartz框架 |
2.5 Spring Boot框架 |
2.6 Canal组件 |
2.7 本章小结 |
第三章 物流数据实时集成平台与客户分析系统需求及设计 |
3.1 系统整体需求分析 |
3.2 各模块需求分析 |
3.2.1 实时抽取模块需求分析 |
3.2.2 任务管理模块需求分析 |
3.2.3 权限管理模块需求分析 |
3.2.4 客户分析系统需求分析 |
3.3 Kettle架构与改造 |
3.3.1 Kettle核心 |
3.3.2 Carte及 Kettle集群 |
3.3.3 Kettle图形界面 |
3.3.4 Kettle架构改造设计 |
3.4 系统总体设计 |
3.4.1 系统软件架构 |
3.4.2 系统模块结构 |
3.4.3 系统部署结构 |
3.4.4 系统数据流程 |
3.5 各模块设计 |
3.5.1 元数据设计 |
3.5.2 实时抽取模块设计 |
3.5.3 任务管理模块设计 |
3.5.4 权限管理模块设计 |
3.5.5 客户分析系统设计 |
3.6 本章小结 |
第四章 物流数据实时集成平台与客户分析系统实现及测试 |
4.1 系统实现 |
4.1.1 开发环境 |
4.1.2 实时抽取模块实现 |
4.1.3 权限认证模块实现 |
4.1.4 B/S架构Kettle实现 |
4.1.5 任务管理模块实现 |
4.1.6 客户分析系统实现 |
4.2 系统测试 |
4.2.1 测试环境 |
4.2.2 功能测试 |
4.2.3 性能测试 |
4.3 本章小结 |
第五章 总结与展望 |
5.1 总结 |
5.2 进一步工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(9)基于ETL的遥感数据集成工具集的研究与实现(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题研究背景与意义 |
1.2 研究概况 |
1.3 论文研究内容 |
1.4 论文组织结构 |
2 数据共享与集成技术 |
2.1 数据共享技术 |
2.2 多源异构数据集成 |
2.2.1 多源异构数据集成的概念和目标 |
2.2.2 联邦数据库系统 |
2.2.3 应用插件 |
2.2.4 数据访问中间件 |
2.2.5 数据仓库 |
2.3 ETL技术 |
2.3.1 ETL技术概念 |
2.3.2 数据抽取 |
2.3.3 数据转换和清洗 |
2.3.4 数据加载 |
2.3.5 工作流管理 |
2.4 本章小结 |
3 系统需求分析 |
3.1 平台基础 |
3.2 功能性需求 |
3.2.1 流程管理功能 |
3.2.2 运行监控功能需求 |
3.2.3 数据管理功能需求 |
3.3 非功能性需求 |
3.3.1 集成性需求 |
3.3.2 扩展性需求 |
3.3.3 安全性需求 |
3.4 系统角色与用户角色 |
3.4.1 系统角色 |
3.4.2 用户角色 |
3.5 本章小结 |
4 系统设计与实现 |
4.1 系统总体架构设计 |
4.2 通用数据访问模块的设计与实现 |
4.2.1 数据源分类 |
4.2.2 类图与实现结构 |
4.3 工作流管理模块的设计与实现 |
4.3.1 工作流模型 |
4.3.2 模型解析器 |
4.3.3 流程引擎 |
4.3.4 扩展接口 |
4.4 数据工程工具集的设计与实现 |
4.4.1 全生命周期数据工具 |
4.4.2 工具集管理工具 |
4.5 元数据库的设计 |
4.6 本章小结 |
5 结论 |
5.1 全文总结 |
5.2 展望 |
参考文献 |
致谢 |
作者筒介及读研期间主要科研成果 |
(10)石化企业多源知识发现与管理方法研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景 |
1.1.1 知识管理的必要性 |
1.1.2 知识管理的经济价值 |
1.1.3 石化企业的知识管理 |
1.2 研究意义 |
1.2.1 理论价值 |
1.2.2 现实意义 |
1.3 研究内容与结构安排 |
1.3.1 研究内容 |
1.3.2 结构安排 |
1.4 主要贡献和创新点 |
2 理论与方法综述 |
2.1 企业知识管理理论与方法 |
2.1.1 背景介绍 |
2.1.2 企业知识管理相关概念 |
2.1.3 国外主流知识管理思想 |
2.1.4 利用知识挖掘提高组织资本和企业竞争力 |
2.2 国内石化企业知识管理研究现状 |
2.2.1 石化企业知识管理的进展 |
2.2.2 基于多源知识发现实施石化企业知识管理的必要性 |
2.3 基于大数据分析的知识管理方法 |
2.3.1 多特征融合统计学习方法 |
2.3.2 多源异构数据知识发现方法 |
2.3.3 基于大数据分析的社会化管理方法 |
2.4 文本语料分析基本方法 |
2.4.1 技术挑战 |
2.4.2 文档处理和分词 |
2.4.3 数据降维及语义分析 |
2.4.4 文本语料分类和聚类 |
2.5 小结 |
3 石化企业知识管理的影响因素分析 |
3.1 石化企业知识管理的要求与方法 |
3.1.1 石化企业创新发展要求与创新要素 |
3.1.2 提升石化企业知识管理水平的方法 |
3.2 石化企业知识管理的影响因素 |
3.2.1 企业知识管理的影响因素 |
3.2.2 石化企业知识管理方法的基本要素 |
3.3 基于多源信息的石化企业知识管理实施框架与检验方法 |
3.3.1 知识管理方法实施框架 |
3.3.2 研究维度、效度及其检验方法 |
3.4 小结 |
4 基于多源信息融合的石化企业员工行为建模 |
4.1 网络社会化行为建模面临的挑战 |
4.2 网络社会化行为的特点与数据维度 |
4.3 问题研究的准备工作和总体思路 |
4.3.1 词汇范畴分析 |
4.3.2 数据收集 |
4.3.3 总体框架 |
4.4 员工行为建模方法 |
4.4.1 员工属性信息建模 |
4.4.2 工作行为建模 |
4.4.3 网络行为建模 |
4.5 指标相关性预测模型与知识管理 |
4.5.1 指标相关性预测模型和求解 |
4.5.2 指标分析和知识管理 |
4.5.3 指标相关性预测模型研究小结 |
4.6 企业员工的社群分析 |
4.6.1 企业员工社群分析的研究背景 |
4.6.2 企业员工行为的时间分布建模 |
4.6.3 社群发现 |
4.6.4 相似度学习及特征权重学习 |
4.6.5 企业员工社群分析研究小结 |
5 基于多源大数据分析的企业客户关系管理 |
5.1 客户关系管理(CRM) |
5.2 石化企业客户管理的必要性和基本管理思路 |
5.3 指标相关性建模方法 |
5.4 基于商业行为分析的企业客户分类方法 |
5.5 小结 |
6 实验研究与算例分析 |
6.1 多源信息融合实验 |
6.2 员工社群发现 |
6.3 员工社群类型的知识发现及讨论 |
6.4 企业客户信息搜集和指标相关性建模 |
6.5 企业分类实验评测 |
6.6 知识管理效果评估-以企业员工管理为例 |
6.7 实验讨论和小结 |
7 研究结论与讨论 |
7.1 基本结论 |
7.2 研究展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
四、多源异构数据到空间数据仓库的转换方法(论文参考文献)
- [1]面向医院管理的数据驱动决策研究[D]. 李茵. 吉林大学, 2021(01)
- [2]基于Kafka的大容量实时预警数据汇集分发技术研究[D]. 车思阳. 电子科技大学, 2021(01)
- [3]基于模型的多源异构数据自适应可视化技术研究[D]. 彭玉婷. 电子科技大学, 2021(01)
- [4]面向科技咨询的知识图谱构建与管理平台的设计与实现[D]. 马超童. 北京邮电大学, 2021(01)
- [5]大数据集成开发平台的研究与实现[D]. 朱永波. 北京邮电大学, 2021(01)
- [6]面向监管的大数据世系关键技术研究[D]. 高元照. 战略支援部队信息工程大学, 2021(01)
- [7]基于多源异构的海洋要素数据服务平台研究与实现[D]. 周俊武. 桂林理工大学, 2021(01)
- [8]物流系统数据实时集成平台设计与实现[D]. 周攀. 电子科技大学, 2021(01)
- [9]基于ETL的遥感数据集成工具集的研究与实现[D]. 韩海涛. 安徽理工大学, 2020(04)
- [10]石化企业多源知识发现与管理方法研究[D]. 王小健. 北京交通大学, 2020(03)