一、“海量”硬盘需要合理分区(论文文献综述)
孙浩[1](2021)在《一种分布式对象存储系统的设计与实现》文中研究表明在新数据时代,各种新型技术开始广泛应用到各行各业,引起了建设“新基建”的热潮,而数据存储作为新基建的数字基石,成为未来经济发展的重要因素。据统计,全球信息量正在以59%以上的年增长率快速增长,在这些数据中80%都是以文件形式存在的非结构化数据,传统的SAN存储和NAS存储已很难满足企业的存储需求,对象存储应运而生,因低成本、大容量和高扩展性的特点成为下一代存储技术的标杆。本文以非结构化数据为研究对象,设计并实现了一种轻量级分布式对象存储系统,并详细地阐述了系统所涉及的理论基础、设计思路、实现方案以及测试分析。本文的主要完成的工作如下:(1)本文对分布式存储系统的相关理论技术进行了深入地研究,对当前主流的存储系统进行对比分析,并总结各自的架构和优缺点,决定采用去中心化的无共享架构,以解决中心节点的单点故障问题。应用程序开发人员可以使用它与上层应用进行交互,为海量数据存储、人工智能、大数据分析提供高性能的存储服务。(2)设计并实现分布式存储系统。提出了一种分布式锁组件,使系统具备了有限拓展性,并降低了系统的复杂度。其次,该对象存储系统无需元数据数据库,对象的元数据存放于文件中,并将该文件视为对象进行存储管理,使得所有的操作都是对象级别的粒度,实现了高效的元数据管理。最后使用常见的存储技术完善系统:使用纠删码来防止硬件故障,节省了存储成本;基于BRPC框架实现了节点间的通信,将文件系统扩展为后端存储引擎,为分布式系统的实现打下坚实的基础。(3)本文对实现的分布式存储系统进行了详细的功能测试以及性能测试,测试项目包括了数据分布,数据上传和节点变更等情况,并对测试结果进行了详细的分析。
吴晓斌[2](2021)在《多读多写的小对象存储系统的设计与实现》文中进行了进一步梳理随着AI技术的不断发展,它对数据的需求也越来越大。但在海量小文件场景下,现有的分布式存储系统并不能很好地满足AI训练的需求。而AI训练过程中所使用的GPU成本高昂,若分布式存储系统不能提供与之匹配的I/O速度,将无法充分发挥GPU的计算能力,这将浪费宝贵的计算资源。因此,本文基于海量小文件的场景,针对AI训练过程多读多写的特性,设计与实现了一个多读多写的小对象存储系统。具体的研究内容如下:(1)针对小对象的写性能问题和范围查找的需求,本文参考已有的K/V分离的LSM-Tree方案,以解决小对象的写性能问题,并重新设计垃圾回收的过程,使数据能够保证有序性,以满足范围查找的需求;同时,为垃圾回收设计高低水位来衡量空间利用率,以此判断垃圾回收的时机,来提高垃圾回收的收益,并延缓非必要的垃圾回收,避免影响系统的正常业务。(2)针对小对象的数据分布问题,本文基于现有的哈希槽的方法,设计出自动化哈希槽的方法,以解决其需要人工分配哈希槽的问题,实现在初始时能够自动进行初始调度,在负载不均衡和节点宕机时进行平衡调度。(3)针对小对象读性能问题和元数据存储问题,本文结合自动化哈希槽的方法,将小对象的元数据分散到各个节点,避免因在一个节点上管理小对象的元数据而限制系统的可扩展性,并借助小对象的元数据,提高数据读取效率。(4)针对云存储平台在本系统的应用问题,本文设计延后确认机制,以此来提高数据存储的效率,并提高客户端数据的传输效率,同时借助客户端缓存的数据,避免了因分区迁移而导致内部节点需要进行数据迁移的麻烦,简化了分区迁移的过程。(5)针对存储系统单点故障的问题,本文采用一主多从的架构,由主节点进行资源管理和任务调度,从节点作为主节点的备用机;同时,为了减轻主节点的压力,主节点通过云存储平台将关键的元数据实时同步给从节点,让从节点承担关键元数据分发的任务,实现客户端的分流。
刘长红[3](2021)在《面向分布式图数据库图查询和图计算混合引擎》文中进行了进一步梳理互联网的快速发展已经渗透到各个行业,海量的非结构化数据逐渐增多,产生了大量分析数据之间关系的需求,例如知识图谱、社交网络等领域。相比传统的关系型数据库、以及传统的大数据处理系统,图系统处理海量的关联数据优势巨大。而图系统又分为两种类型,一是图数据库,查询图中的部分数据,要求查询响应快速,在低延迟下返回查询结果。二是图计算系统,对全图进行多次迭代计算,计算量巨大,耗时较长。在目前的研究中,大多数研究者对图数据库与图计算系统分别进行研究,但是在实际应用中,图查询和图计算是相互的,并拥有大量的相同特征,例如图存储、图分区、图索引等。本文针对上述问题,设计并实现了一个面向分布式图数据库图查询和图计算的混合引擎图系统HCQ-GDB。本文针对图存储空间的浪费、数据传输的成本、维护数据一致性的代价、缓存和索引的利用率等一系列问题进行了探讨,并通过结合图查询的图计算能够完成更高级、更复杂的计算任务。本文的主要工作内容以及创新点如下:1.图查询和图计算执行模式的统一和混合引擎图系统的整体设计:为了图查询和图计算执行模式的统一,高效利用系统资源,本文通过设计一系列分布式图计算算子,将它们的计算逻辑转化为DAG(有向无环图)物理执行计划,来进行任务调度,并给出了混合图系统的整体设计。2.图存储模型和缓存机制:针对复杂的非结构化图数据,本文设计了一个图存储模型,优化了空间开销、加速图的查询和计算等。由于图查询和图计算的不同IO请求,本文设计了一套缓存机制来同时满足图查询和图计算对资源的读写需求。3.图分区算法的改进和任务调度优化模型:因为图数据具有关联性,在分布式环境下,为了减少因为图的关联性而带来任务之间的网络通信开销,以及保证图数据的邻近性原则,本文设计并实现了一套优化的图分区算法。因为图查询对时延敏感,而图计算的计算量大,本文实现了一个分布式任务调度优化模型对任务进行调度,提高了系统整体性能。4.图计算同步和异步混合模型:不同的图算法在同步和异步模式的执行条件下,数据一致性、算法收敛以及执行开销都有所差别。在保证数据一致性的前提下,本文设计与实现了一套同步和异步混合执行模型,系统图计算的性能得到了提升。在测试中,本文对混合引擎图系统进行完整的基准功能测试以及基准性能测试。功能测试结果表明系统能够支撑大部分的图查询请求以及图计算请求,系统的相关算法以及核心技术能够完全正常执行并得到正确的结果。通过与其他图数据库和图计算系统进行性能对比,性能有明显的提升。
谢文康[4](2020)在《Kafka流式计算性能优化算法研究》文中进行了进一步梳理大数据时代,Kafka作为高吞吐、低延时、高容错的消息队列系统,在实时数据处理、数据广播、数据持久化和系统解耦都有广泛的应用。但是Kafka在对接大规模物联网传感器时,可能会导致的数据倾斜,即采用分区机制的分布式系统中,大量数据集中在少数分区中,使得少数节点的系统资源占用过高,进而导致热点问题,使得数据发送缓慢,资源占用异常,甚至宕机等问题。本文重点针对Kafka在对接大规模生产者时的热点问题,做了以下三方面的工作:(1)首先,针对Kafka对接大规模生产者时的数据分配不均衡问题,分析了聚类算法存在的计算复杂、集群资源利用不充分的缺陷,提出基于SDG(Sensor Dependency Graph,传感器依赖图)的传感器分布式二次聚类算法DASDG。首先根据传感器元数据,按照信息熵和信息增益将传感器一次聚集为大类,在大类内部构建SDG并以此为依据进行聚类,减少了大类与大类之间的相似度计算,降低了SDG构建复杂度。仿真结果表明,与经典SDG和传统的层次聚类算法相比,DASDG提高了Kafka的吞吐率,并且降低了Kafka服务器的资源消耗,并且在聚类时间上相比SDG聚类也有了提高。(2)其次,针对Kafka在分布式集群中的调优问题,提出基于抽样的Kafka自适应性能调优算法ENLHS,首先使用拉丁超立方抽样生成数据集,再用这一数据集进行性能模型训练,用弹性网络模型对数据集进行拟合,以此改进拉丁超立方抽样,进行最优解迭代,进而求得性能最优解的结果。实验结果表明,ENLHS算法得到的配置集能更好的提升Kafka的吞吐性能,降低了时延,并且具有更小的误差。(3)设计并实现了基于Kafka的中间件原型系统。在系统对接大规模生产者时,可以做到有效将生产者数据进行分配,并且通过自适应的性能优化,让Kafka在集群中保持高效和稳定的运行。通过对比默认情况下系统的数据不均衡情况,以及默认配置环境下的Kafka性能,本文提出的原型系统在部署后,相对于开源版本的Kafka,能在吞吐性能、时延、以及数据不均衡度上有更好的表现。
马世松[5](2020)在《面型多为指标的视频点播数据分析子系统设计与实现》文中提出随着通信技术的发展以及互联网的普及,越来越多的家庭在收看电视节目时选择了点播的方式进行观看。而制片方和广告投放者也越来越关注用户的点播数据,以便正确调整节目结构和广告植入。传统的用户点播数据采集使用较为简陋的样本统计方法,准确率低且不具有及时性。随着数据科学的发展,使用大数据技术进行全样本分析正逐步成为点播数据分析的主流方法。因此,建立一个扩展性强、灵活性高的点播数据分析系统至关重要。现有的一些点播数据分析系统往往借助于数据仓库引擎进行数据聚合,分析结果的可复用性不高。诸如Kylin之类的开源数据分析工具虽然在多维数据聚合的灵活性方面表现出色,但时间性能则有所不足,且对长时段指标的计算能力也有所欠缺。通过对现有的大数据分析技术进行调研,本文针对用户的分析需求,确定采用Spark框架进行用户记录的离线分析。系统后端采取分布式架构,采用Hive存储用户记录,并使用数据库存储分析结果。此外,该系统利用了面向对象建模的方法,将核心功能分解成五大模块,并设计了相应的接口。本文将点播数据分析的过程划分为生成含有多维信息的中间结果以及指标汇聚两阶段,并详细设计了各个阶段的输入输出及执行过程。该设计增加了结果生成的灵活性,减少了重复计算带来的资源浪费,使整个系统工作更有效率。本文还设计实现了基于布隆过滤器的分布式数据去重算法,以较低的内存占用解决了长时间段去重类指标的计算问题。通过详细的需求分析和模块设计,本文最终编码实现了视频点播数据分析子系统。经过一系列的实验测试,本系统在长时段指标分析的时间和空间性能上均有出色的表现;同时在指标分析方面具有良好的扩展性,达到了系统构建的目的。
孙青[6](2020)在《分布式数据库多级缓存系统设计与实现》文中提出在基于计算与存储分离架构的分布式数据库中,计算节点和存储节点的本地缓存容量对数据库系统的整体性能均有着极大的影响。为了应对因海量数据引起的缓存容量不足的问题,有必要为计算节点和存储节点提供容量大、成本低的多级缓存系统,以此来支持数据信息的快速获取,从而提高数据库系统应对海量数据处理的能力。针对计算节点和存储节点中对数据页高速获取的要求,设计了集缓存分区管理机制、多级缓存机制和监控调节机制于一体的多级缓存系统架构,并给出了相关策略。多级缓存系统主要包含5个模块,分别是一级缓存模块,二级缓存模块,分区管理模块,过滤层模块和监控调整模块,其中二级缓存模块建立在NVMe固态硬盘上。给出了计算与存储分离架构的分布式数据库多级缓存系统的分区管理策略,获取数据页策略,添加缓存页策略和监控调整策略。其中,多级缓存系统的分区管理策略采用对缓存进行分区的方式来减少操作之间对锁资源的争抢;获取数据页策略和添加缓存页策略共同规定了多级缓存在工作过程中对数据页的处理方式;监控调整策略则是根据数据库系统的真实负载情况对多级缓存系统的二级缓存容量进行适应性调整。为了在充分利用NVMe固态硬盘高速读写优点的同时尽可能规避其写放大的问题及耐擦写性较差的问题,多级缓存系统采用了定长存储以及限定写入二级缓存数据页数量的方式。采取了多种方案对所实现的多级缓存系统的性能进行了测试。测试结果表明,计算节点和存储节点多级缓存系统均能提升系统整体性能,但存储节点的多级缓存系统对系统整体处理数据的性能提升较小,计算节点的多级缓存系统对系统整体处理数据的性能提升较大;在计算节点与存储节点之间的网络传输速率越低,二级缓存数据存储介质读写速率越快的情况下,计算节点的多级缓存系统的能效越大。
李茂林[7](2020)在《负载均衡下的混合存储数据迁移方法研究》文中研究指明随着信息技术的飞速发展,传统的集中式数据存储方式以及由单一存储介质构成的存储系统已经不能满足用户的存储需求,而逐渐被分布式混合存储系统所取代。但大数据时代的到来促使用户对存储系统容量、成本和性能提出了越来越高的要求。在分布式混合存储系统中,为使数据更好地匹配存储介质的特性,充分利用系统资源,数据迁移发挥着关键的作用。合理的迁移方案能够根据文件的属性和存储介质的特性在系统中找到合适的位置存储文件,在充分发挥存储介质优势的同时使系统达到更好的负载均衡状态,进而提升存储系统的整体性能。本文以分布式混合存储系统的数据迁移为研究对象,从迁移对象的确定和迁移过程的实现两方面展开研究。针对迁移对象的确定,本文提出了一种基于数据价值的冷热数据识别方法。鉴于传统识别方法存在主观性强、准确率低等缺陷,首先,本文通过文献梳理和实验分析更为全面地探究影响数据价值的因素;然后,采用熵权法为各因素分配权重以区分不同因素对数据价值的影响程度,从而更为客观地评估文件的数据价值,提高冷热数据识别的准确性。在实现数据迁移的过程中,本文基于冷热数据集合提出了一种兼顾存储介质特性和存储系统负载均衡的数据迁移模型,并采用改进蚁群算法来求解该模型,从而为各存储文件找到最为合适的存储位置,既有效提高了系统的性能,又满足了负载均衡的需求。实验分析表明,本文所提出的数据迁移方案不仅能够提高迁移对象选取的准确性,并且能够在迁移的过程中根据各个节点的负载状态来动态调整文件的目标迁移位置,提升存储系统的访问性能和稳定性。与现有的数据迁移算法(贪心算法、遗传算法)和未考虑负载状态的数据迁移算法(传统蚁群算法)相比,本文所设计的数据迁移算法(改进蚁群算法)在系统带宽利用率、系统延迟和系统负载均衡度等方面都有明显的效果。
李兴菊[8](2020)在《基于云平台的城镇居民用水数据的实时存储与查询》文中认为与城镇居民用水相关的各类数据的实时、智能化存储及管理是目前城镇用水管理系统迫切需要解决的问题之一。本论文设计了一种借助云计算平台,通过网络将居民用户端(前端)智能水表获取的用水数据实时地汇聚到数据中心(云端)的存储系统。该系统能实时且准确地将数据存储到云端,解决用水数据的海量存储问题,方便后期进行数据分析处理,为供水部门提供决策支撑,实现用户的收费管理和供水调度。本文为居民用水数据设计了一个数据存储表,包含有用水量,位置,住户等相关信息。这些信息将以文本的形式生成,为保证生成的文件可进行跨平台读取,增加数据可读性,同时保证获取的用水数据不受字符长度限制,选用了文本文件中以TXT为后缀名的文件存储形式。对此类数据的存储与检索方式进行研究,目的是实现把智能水表中的数据实时的存储到该系统中,提供后期的数据分析需求。本论文基于云平台,使用flume数据采集技术,非结构化数据库HBase、数据缓存技术Kafka以及实时流处理技术Spark Streaming等技术进行存储系统设计。针对来自于前端的居民用水数据,设计实现的实时存储与查询系统经过逐步的优化,该系统不仅实现了用水数据的海量存储,达到了本文的数据存储需求,而且整个系统的检索效率也得到了进一步提高。
陈天宇[9](2020)在《基于Spark的缓存优化策略及CNN在列车故障图像中的识别应用》文中认为随着大数据技术的迅猛发展,全球范围内掀起了大数据技术研究的热潮。车站的货车运行故障动态图像检测系统(TFDS)用于检测货运列车部件状态,使用传统技术难以处理TFDS产生的海量数据,需要使用机器学习等基于迭代计算算法的技术提取海量数据中有价值的信息。而迭代计算任务需要消耗大量的内存空间,当迭代计算任务所需的内存空间不足时,大数据平台需要替换内存中已有的中间结果。目前应用较为广泛的大数据平台有Spark等,Spark默认使用最近最少替换算法(LRU)在处理列车故障图像识别任务时,内存利用率不高,导致列车故障图像识别任务效率低下。基于以上背景,本文研究大数据平台缓存替换策略,提出了Spark平台中弹性分布式数据集(RDD)计算成本的缓存替换策略,通过优化缓存策略的平台缩短列车故障图像识别模型训练的时间。本文主要的工作如下:首先,本文根据RDD权重值优化并提出缓存权重替换(CWS)算法。列车图像数据量巨大,Spark默认的LRU缓存替换策略频繁淘汰RDD分区,CWS算法优化了选择策略,并在替换阶段充分考虑了历史访问次数与计算成本。通过使用斯坦福大学提供的公开数据集进行测试,实验结果表明CWS算法在内存充足的条件下处理较小数据的内存占用率要低于其它算法,在内存有限条件下处理数据的时间要少于其它算法。其次,本文通过卷积神经网络(CNN)方法实现列车故障图像识别,使用Tensor Flow机器学习计算库设计模型,提出了多类货运列车(MFT)故障图像识别模型。同时,采用Tensor Flow On Spark技术优化Tensor Flow的资源管理并改进其任务调度策略。通过以株洲车辆段货运列车故障图像识别为例进行实验测试,实验结果表明CWS算法能够缩短MFT模型的训练时间并提升Spark平台的资源管理与任务调度性能,MFT模型能够有效地识别货运列车的故障,为设备故障检修提供便利。
周伟琴[10](2020)在《基于图计算的并行海量数据处理平台》文中研究表明互联网的发展产生了大量数据,基于大数据的数据分析和数据挖掘技术逐渐发展。传统的数据数据量小,数据格式单一,一般采用单台服务器进行数据的挖掘或计算。而随着互联网数据量的和数据格式的迅速增多,传统数据处理系统并不能高效快速针对多种数据进行处理,缺乏一个较为通用的分布式数据处理平台。因此如何设计一个针对不同的数据格式进行海量数据处理并包含计算和存储功能的基础分布式数据处理平台成为一个值得研究的问题。本文设计了一个基于图计算的分布式海量数据计算平台,能够针对包含图数据在内的多种格式的数据进行分布式计算和存储,能完成用户自定义的多种数据和任务的抽象和处理,完成任务解析,任务执行,任务调度,数据存储等功能。主要工作如下:(1)设计并实现了分布式并行海量数据处理平台,GraphMaster节点负责系统任务调度和资源管理,GraphSlave执行节点和GraphWorker计算节点负责任务执行和资源统计。(2)设计了一种分布式系统的控制信息数据管理模型,通过用户自定义编写的动态链接库和图数据执行流拓扑结构文件定义整个图计算过程,将具体的业务代码和计算平台系统解耦,实现数据处理平台通用化。设计一致性哈希磁盘存储协议模型为系统提供一个高效通用的分布式存储引擎。设计主备节点一致性协议提高系统GraphMaster节点可靠性。(3)设计了一种资源分配调度算法模型,该模型包含系统初始化资源感知调度算法,系统运行中资源重新配置调度算法以及系统灾备调度算法等重要调度算法。该算法模型能根据系统硬件资源使用情况进行任务动态调度,检测系统服务器或任务执行异常并进行系统灾备调度。(4)对整个分布式系统进行系统搭建和测试,对整个系统所有关键模块进行功能测试和性能测试,并对测试结果进行详细分析。本文提供了一个包含图数据在内的通用的多种类型数据分布式处理平台,具有容错性能好,资源调度合理,网络吞吐量大和通用性强等特点,为多种类型海量数据的计算和存储提供了一种设计方案和解决思路。
二、“海量”硬盘需要合理分区(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、“海量”硬盘需要合理分区(论文提纲范文)
(1)一种分布式对象存储系统的设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文的研究内容 |
1.4 本文结构 |
第二章 相关技术研究综述 |
2.1 对象存储简介 |
2.1.1 对象存储的结构组成 |
2.1.2 对象存储的优势 |
2.2 典型的对象存储系统 |
2.2.1 Ceph |
2.2.2 Minio |
2.2.3 Swift |
2.3 纠删码 |
2.4 本章小结 |
第三章 系统需求分析 |
3.1 可行性分析 |
3.2 功能需求与非功能需求 |
3.2.1 功能需求 |
3.2.2 非功能需求 |
3.3 本章小结 |
第四章 对象存储系统的概要设计 |
4.1 系统架构设计 |
4.1.1 数据分布策略 |
4.1.2 负载均衡策略 |
4.1.3 分布式锁 |
4.2 系统模块设计 |
4.2.1 核心控制模块设计 |
4.2.2 数据存储模块设计 |
4.2.3 系统接口设计 |
4.3 本章小结 |
第五章 对象存储系统的实现 |
5.1 系统实现环境 |
5.2 数据存储模块的实现 |
5.2.1 RPC服务子模块 |
5.2.2 请求处理子模块 |
5.3 核心控制模块的实现 |
5.3.1 HTTP请求处理模块 |
5.3.2 权限认证模块 |
5.3.3 元数据管理模块 |
5.3.4 分布式锁模块 |
5.3.5 纠删码管理模块 |
5.3.6 存储节点管理模块 |
5.3.7 缓存管理模块 |
5.4 客户端的实现 |
5.5 系统关键流程 |
5.5.1 对象写入流程 |
5.5.2 对象读取流程 |
5.6 本章小结 |
第六章 系统测试与分析 |
6.1 测试环境 |
6.2 功能测试 |
6.2.1 bucket相关操作测试 |
6.2.2 对象相关操作测试 |
6.2.3 数据分布测试 |
6.2.4 节点异常测试 |
6.3 性能测试 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 工作展望 |
参考文献 |
致谢 |
(2)多读多写的小对象存储系统的设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究历史与现状 |
1.3 本文的主要贡献与创新 |
1.4 本文的结构安排 |
第二章 理论基础及相关技术 |
2.1 数据分布算法 |
2.1.1 哈希取模法 |
2.1.2 哈希槽 |
2.2 LSM-Tree原理 |
2.2.1 LevelDb的整体架构 |
2.2.2 LevelDb的写操作 |
2.2.3 LevelDb的读操作 |
2.3 本章小结 |
第三章 多读多写的小对象存储系统的设计 |
3.1 VBSM背景介绍 |
3.1.1 SOSS与 VBSM的层次关系 |
3.1.2 VBSM的架构 |
3.2 系统架构设计 |
3.2.1 中心节点 |
3.2.2 缓冲节点 |
3.2.3 虚拟块存储系统 |
3.2.4 客户端 |
3.3 中心节点 |
3.3.1 资源管理模块 |
3.3.2 主从模块 |
3.3.3 任务模块 |
3.4 缓冲节点 |
3.4.1 本地存储优化 |
3.4.2 数据I/O模块 |
3.4.3 资源管理模块 |
3.4.4 任务管理模块 |
3.5 客户端 |
3.5.1 任务管理模块 |
3.5.2 数据I/O模块 |
3.6 本章小结 |
第四章 多读多写的小对象存储系统的实现 |
4.1 VBSM接口介绍 |
4.2 网络通信框架的实现 |
4.3 中心管理节点的实现 |
4.3.1 资源管理模块的实现 |
4.3.2 任务模块的实现 |
4.3.3 主从模块的实现 |
4.4 缓冲节点的实现 |
4.4.1 数据I/O模块的实现 |
4.4.2 资源管理模块的实现 |
4.4.3 任务管理模块的实现 |
4.5 客户端的实现 |
4.5.1 数据I/O模块的实现 |
4.5.2 任务管理模块的实现 |
4.6 系统关键流程 |
4.6.1 系统负载信息更新 |
4.6.2 任务调度 |
4.6.3 元数据同步 |
4.6.4 数据迁移 |
4.6.5 分配空闲块号 |
4.6.6 数据写入 |
4.6.7 数据读取 |
4.7 本章小结 |
第五章 系统测试与结果分析 |
5.1 测试环境 |
5.1.1 硬件环境与网络部署 |
5.1.2 节点部署 |
5.2 功能测试 |
5.2.1 选举测试 |
5.2.2 调度测试 |
5.2.3 元数据分发测试 |
5.2.4 数据读写测试测试 |
5.3 性能测试 |
5.3.1 写性能测试 |
5.3.2 随机读性能测试 |
5.3.3 范围读性能测试 |
5.4 本章小结 |
第六章 总结与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(3)面向分布式图数据库图查询和图计算混合引擎(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究的背景与意义 |
1.2 国内外研究历史与现状 |
1.3 本文的主要贡献与创新 |
1.4 本文的组织结构 |
第二章 相关技术与理论知识 |
2.1 图数据模型 |
2.2 图切分算法 |
2.2.1 点切算法 |
2.2.2 边切算法 |
2.3 图查询 |
2.3.1 图查询语言 |
2.3.2 遍历查询操作 |
2.3.3 元数据 |
2.4 图计算 |
2.4.1 图计算编程 |
2.4.2 计算迭代操作 |
2.5 DAG任务调度算法 |
2.6 本章小结 |
第三章 系统的整体架构设计 |
3.1 图混合引擎系统的挑战和目标 |
3.1.1 系统设计需求以及目标 |
3.1.2 系统设计的挑战 |
3.2 系统的整体架构设计 |
3.3 客户端API设计 |
3.4 QC查询控制器 |
3.4.1 架构概述 |
3.4.2 物理执行计划的生成 |
3.4.3 DAG任务调度算法 |
3.4.4 计算监控服务 |
3.5 GCQE图计算查询引擎 |
3.5.1 架构概述 |
3.5.2 算子设计 |
3.5.3 分布式图查询设计 |
3.5.4 分布式图计算设计 |
3.5.5 缓存机制 |
3.5.6 流式计算模型 |
3.6 存储引擎 |
3.7 GDIP图数据导入分区器 |
3.7.1 Partition图分区算法 |
3.7.2 RePartition动态图分区算法 |
3.8 本章小结 |
第四章 系统详细设计与实现 |
4.1 基础工具的详细设计与实现 |
4.1.1 网络连接池 |
4.1.2 线程池 |
4.2 查询控制器的详细设计与实现 |
4.2.1 查询计算解析模块 |
4.2.2 元数据管理模块 |
4.2.3 可靠容错模块 |
4.2.4 任务资源调度模块 |
4.3 计算查询引擎的详细设计与实现 |
4.3.1 用户任务管理模块 |
4.3.2 图数据的计算与存储内存模型 |
4.3.3 图查询遍历器模块 |
4.3.4 图计算迭代器模块 |
4.3.5 查询计算流程时序类图 |
4.3.6 算子间通信模块 |
4.4 导入分区器的详细设计与实现 |
4.5 本章小结 |
第五章 系统测试与分析 |
5.1 系统测试环境 |
5.2 系统功能测试 |
5.2.1 物理执行计划的生成 |
5.2.2 图查询功能测试 |
5.2.3 图计算功能测试 |
5.3 系统性能测试 |
5.3.1 图分区算法测试 |
5.3.2 图数据库查询性能对比 |
5.3.3 图计算系统性能对比 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)Kafka流式计算性能优化算法研究(论文提纲范文)
摘要 |
abstract |
专用术语注释表 |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 主要研究内容 |
1.4 论文结构安排 |
第二章 相关理论知识 |
2.1 Kafka原理 |
2.2 流式计算介绍 |
2.3 Kafka热点问题介绍 |
2.4 Kafka性能优化技术 |
2.4.1 数据聚类技术 |
2.4.2 自适应性能调优技术 |
2.5 本章小结 |
第三章 基于Kafka的生产者端性能优化算法研究 |
3.1 研究背景 |
3.2 生产者端聚类算法构建 |
3.2.1 算法总体设计 |
3.2.2 传感器依赖图生成算法 |
3.2.3 SDG聚类阶段 |
3.2.4 聚类结果分配阶段 |
3.3 实验与结果分析 |
3.3.1 实验环境设置 |
3.3.2 实验结果对比 |
3.4 本章小结 |
第四章 基于Kafka的自适应性能调优算法研究 |
4.1 研究背景 |
4.2 自适应性能调优算法设计 |
4.2.1 问题建模 |
4.2.2 数据预处理 |
4.2.3 算法设计 |
4.3 自适应性能调优方法具体实现 |
4.3.1 高维数据加权采样技术 |
4.3.2 性能预测模型 |
4.3.3 ENLHS性能调优算法 |
4.4 实验与结果分析 |
4.4.1 实验环境设置 |
4.4.2 实验结果分析 |
4.5 本章小结 |
第五章 基于Kafka的消息队列原型系统设计 |
5.1 应用场景描述 |
5.2 原型系统设计 |
5.2.1 总体架构设计 |
5.2.2 架构组件分析 |
5.2.3 主要模块设计 |
5.3 实验与结果分析 |
5.3.1 实验环境与设置 |
5.3.2 实验结果与分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间参加的科研项目 |
致谢 |
(5)面型多为指标的视频点播数据分析子系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究现状 |
1.3 研究内容 |
1.4 研究意义 |
1.5 研究生期间工作 |
1.6 论文结构 |
第二章 相关技术综述 |
2.1 Spark相关技术简介 |
2.1.1 Spark分布式计算框架概述 |
2.1.2 RDD简介 |
2.1.3 Hive简介 |
2.2 海量数据去重技术 |
2.2.1 海量数据去重概述 |
2.2.2 布隆过滤器算法简介 |
2.3 Kryo序列化框架 |
2.3.1 序列化技术介绍 |
2.3.2 Kryo框架使用简介 |
2.4 本章总结 |
第三章 需求分析 |
3.1 系统概览 |
3.2 用户业务需求分析 |
3.3 系统各功能详细需求分析 |
3.3.1 用户记录管理功能 |
3.3.2 用户记录预处理功能 |
3.3.3 指标分析功能 |
3.3.4 数据汇聚功能 |
3.3.5 任务管理功能 |
3.4 本章总结 |
第四章 系统关键技术设计 |
4.1 面向多维信息的中间结果模型 |
4.1.1 视频点播数据分析概述 |
4.1.2 中间结果模型的设计 |
4.1.3 含有多维信息的中间结果的生成 |
4.2 长时段下海量数据的去重算法 |
4.2.1 常见数据去重算法概述 |
4.2.2 基于布隆过滤器的分布式多段聚合去重算法的设计 |
4.2.3 多段聚合去重算法性能测试 |
4.3 本章总结 |
第五章 系统设计 |
5.1 系统总体框架设计 |
5.1.1 系统硬件体系架构 |
5.1.2 系统逻辑功能设计 |
5.2 系统核心功能模块详细设计 |
5.2.1 用户记录管理模块设计 |
5.2.2 数据预处理模块设计 |
5.2.3 指标分析模块设计 |
5.2.4 数据汇聚模块设计 |
5.2.5 任务管理模块设计 |
5.3 数据库设计 |
5.3.1 数据库模块设计概述 |
5.3.2 数据库表设计 |
5.4 本章总结 |
第六章 系统实现及测试 |
6.1 系统功能实现 |
6.1.1 开发环境 |
6.1.2 系统功能模块实现 |
6.2 系统性能测试 |
6.2.1 系统核心模块性能测试 |
6.2.2 系统其他模块性能测试 |
6.3 本章总结 |
第七章 总结与展望 |
7.1 论文总结 |
7.2 展望 |
参考文献 |
致谢 |
(6)分布式数据库多级缓存系统设计与实现(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 课题来源目的及意义 |
1.2 国内外研究概况 |
1.3 课题主要研究工作 |
2 分布式数据库多级缓存系统总体设计 |
2.1 分布式数据库多级缓存系统的设计目标 |
2.2 分布式数据库多级缓存系统的架构设计 |
2.3 分布式数据库多级缓存系统策略设计 |
2.4 本章总结 |
3 分布式数据库多级缓存系统实现 |
3.1 分区管理模块实现 |
3.2 过滤层模块实现 |
3.3 二级存模块实现 |
3.4 监控调整模块实现 |
3.5 本章总结 |
4 实验结果与分析 |
4.1 分区管理模块测试 |
4.2 过滤层模块测试 |
4.3 存储节点多级缓存系统测试 |
4.4 计算节点多级缓存系统测试 |
4.5 本章小结 |
5 总结与展望 |
5.1 全文总结 |
5.2 展望 |
致谢 |
参考文献 |
(7)负载均衡下的混合存储数据迁移方法研究(论文提纲范文)
摘要 |
abstract |
1 绪论 |
1.1 研究背景、目的及意义 |
1.1.1 研究背景 |
1.1.2 研究目的及意义 |
1.2 国内外研究现状 |
1.2.1 冷热数据识别技术研究现状 |
1.2.2 混合存储系统数据迁移方法研究现状 |
1.2.3 存储系统负载均衡研究现状 |
1.3 研究内容、方法和技术路线 |
1.3.1 研究内容 |
1.3.2 研究方法及技术路线 |
1.4 论文组织结构 |
2 相关理论基础 |
2.1 存储介质及其特性 |
2.1.1 机械硬盘(HDD)及其特性 |
2.1.2 固态硬盘(SSD)及其特性 |
2.1.3 机械硬盘与固态硬盘特性对比 |
2.2 基于HDD与 SSD的混合存储系统 |
2.2.1 缓存分层结构的混合存储系统 |
2.2.2 设备同层结构的混合存储系统 |
2.2.3 基于HDD与 SSD的混合存储模型 |
2.3 数据迁移相关理论 |
2.3.1 冷热数据识别 |
2.3.2 数据迁移问题 |
2.4 存储系统的负载均衡 |
2.5 本章小结 |
3 混合存储系统中基于数据价值的冷热数据识别 |
3.1 混合存储系统中数据价值的评估指标选取 |
3.1.1 数据价值定义 |
3.1.2 基于存储介质访问特性测试分析的数据价值评估指标选取 |
3.1.3 基于文献梳理的数据价值评估指标的选取 |
3.2 数据价值评估指标的定义及指标值的保存 |
3.2.1 数据价值评估指标的定义 |
3.2.2 数据访问历史记录的保存 |
3.3 基于数据价值的冷热数据识别方法 |
3.3.1 熵权法在数据价值评估中的适用性分析 |
3.3.2 基于熵权法的数据价值计算 |
3.3.3 基于数据价值大小的冷热数据识别 |
3.4 本章小结 |
4 兼顾负载均衡与文件热度的数据迁移算法 |
4.1 兼顾负载均衡与文件热度的数据迁移问题描述 |
4.2 混合存储系统数据迁移架构 |
4.3 蚁群算法 |
4.3.1 蚁群算法的基本思想 |
4.3.2 蚁群算法的基本模型及流程 |
4.3.3 蚁群算法的特点 |
4.3.4 蚁群算法的适用性分析 |
4.4 兼顾负载均衡与文件热度的改进蚁群算法的设计 |
4.4.1 信息素浓度τ_(ij)(t)的改进 |
4.4.2 启发函数η_(ij)(t)的改进 |
4.4.3 兼顾负载均衡与文件热度的改进蚁群算法的实现过程 |
4.5 本章小结 |
5 实验及结果分析 |
5.1 实验目标与实验方法 |
5.1.1 实验目标 |
5.1.2 实验方法 |
5.2 实验环境搭建与配置 |
5.2.1 实验环境 |
5.2.2 实验环境搭建与实验参数设置 |
5.2.3 实验数据 |
5.3 实验测试及结果分析 |
5.3.1 系统带宽利用率对比 |
5.3.2 系统访问延迟对比 |
5.3.3 系统负载均衡度对比 |
5.4 本章小结 |
6 结论与展望 |
6.1 结论 |
6.2 展望 |
参考文献 |
攻读硕士研究生阶段发表论文及其它成果 |
致谢 |
(8)基于云平台的城镇居民用水数据的实时存储与查询(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 云计算 |
1.2.2 数据存储 |
1.2.2.1 分布式文件系统HDFS |
1.2.2.2 非结构化数据库HBase |
1.2.2.3 数据采集技术 |
1.2.2.4 数据缓存技术 |
1.3 论文研究内容 |
1.4 论文组织结构 |
2 相关概念及技术 |
2.1 云计算平台 |
2.1.1 云计算 |
2.1.2 云存储 |
2.2 Hadoop生态系统 |
2.2.1 分布式文件系统HDFS |
2.3 数据采集技术Flume |
2.4 数据缓存技术Kafka |
2.4.1 主题与分区 |
2.4.2 生产者与消费者 |
2.5 Spark Streaming实时流处理技术 |
2.5.1 分布式计算框架Spark |
2.5.2 实时流计算框架Spark Streaming |
2.6 分布式数据库HBase |
2.6.1 HBase模型架构 |
2.6.2 数据存储 |
2.6.3 数据检索 |
2.7 本章小结 |
3 城镇居民用水数据存储与查询系统总体设计 |
3.1 系统需求分析 |
3.2 海量数据存储系统设计 |
3.2.1 HBase自身机制问题及应对策略 |
3.2.2 海量数据整体存储性能设计 |
3.2.3 数据存储系统流程设计 |
3.3 海量数据索引系统设计 |
3.3.1 基于HBase数据模型的检索方案 |
3.3.2 基于二级索引的检索方案 |
3.4 整体架构优化设计 |
3.5 本章小结 |
4 城镇居民用水数据存储与查询系统实现 |
4.1 环境搭建 |
4.1.1 实验环境 |
4.1.2 版本选择及节点规划 |
4.2 存储与查询系统实现 |
4.2.1 数据表设计 |
4.2.2 HBase集群搭建 |
4.2.3 flume数据采集配置 |
4.2.4 kafka数据缓存配置 |
4.2.5 Spark数据清洗 |
4.2.6 数据查询模块实现 |
4.3 系统实现及结果测试 |
4.3.1 存储和检索系统实现 |
4.3.2 数据可视化 |
4.4 本章小结 |
5 总结与展望 |
5.1 总结 |
5.2 展望未来 |
致谢 |
参考文献 |
附录 攻读硕士期间发表及取得的研究成果 |
(9)基于Spark的缓存优化策略及CNN在列车故障图像中的识别应用(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 大数据技术研究现状 |
1.2.2 货运列车故障图像识别研究现状 |
1.3 存在的问题 |
1.4 本文的主要内容 |
1.5 本文的组织结构 |
第二章 大数据平台与图像识别理论基础 |
2.1 大数据技术相关理论基础 |
2.1.1 Hadoop平台 |
2.1.2 Spark平台 |
2.2 列车图像识别相关理论基础 |
2.2.1 机器学习方法提取图像特征 |
2.2.2 深度学习卷积神经网络 |
2.2.3 数据流计算库TensorFlow |
2.3 本章小结 |
第三章 Spark平台缓存替换策略优化 |
3.1 大数据研究基础 |
3.2 Spark默认缓存策略概述 |
3.3 改进的RDD缓存替换策略 |
3.4 实验结果和分析 |
3.4.1 内存充足条件下的算法对比 |
3.4.2 有限内存条件下的算法对比 |
3.5 本章小结 |
第四章 基于卷积神经网络的列车故障图像识别 |
4.1 列车故障图像识别研究基础 |
4.2 改进的列车故障图像识别模型 |
4.3 MFT故障图像识别模型算法 |
4.4 实验结果与分析 |
4.4.1 MFT故障图像识别模型识别准确率 |
4.4.2 机器学习算法对比 |
4.5 Tensor Flow On Spark |
4.6 本章小结 |
第五章 总结与展望 |
5.1 本文的工作总结 |
5.2 研究展望 |
参考文献 |
攻读学位期间主要的研究成果 |
致谢 |
(10)基于图计算的并行海量数据处理平台(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景及意义 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 论文的主要贡献与创新 |
1.4 论文组织结构安排 |
第二章 相关理论以及技术基础 |
2.1 典型分布式计算系统 |
2.1.1 分布式批处理计算系统 |
2.1.2 分布式流处理计算系统 |
2.1.3 分布式图并行计算系统 |
2.2 控制信息数据管理模型 |
2.2.1 中心化控制信息数据管理模型 |
2.2.2 去中心化控制信息数据管理模型 |
2.3 常见资源感知调度算法模型 |
2.3.1 基于背包问题的资源感知调度算法模型 |
2.3.2 轮询资源调度算法模型 |
2.3.3 基于图并行计算的资源分配调度算法模型 |
2.4 开源框架的控制信息数据管理模型与资源感知调度算法 |
2.4.1 常见分布式系统控制信息数据管理模型与资源感知调度算法 |
2.4.2 图计算控制信息数据管理模型与资源感知调度算法 |
2.5 本章小结 |
第三章 系统关键技术设计 |
3.1 控制信息数据管理模型 |
3.1.1 主备节点一致性协议设计 |
3.1.2 一致性哈希磁盘存储协议设计 |
3.2 资源感知调度算法设计 |
3.2.1 资源调度问题概述 |
3.2.2 本系统设计的多种资源调度模型 |
3.3 系统存储引擎设计 |
3.4 本章小结 |
第四章 海量数据处理系统的设计 |
4.1 系统架构设计 |
4.1.1 GraphMaster节点架构设计 |
4.1.2 GraphSlave节点架构设计 |
4.1.3 GraphWorker节点架构设计 |
4.2 GraphMaster节点关键模块设计 |
4.2.1 任务管理模块设计 |
4.2.2 动态链接库调度模块设计 |
4.2.3 资源调度分配算法模块设计 |
4.2.4 主备节点容错算法模块设计 |
4.2.5 一致性哈希磁盘存储模块设计 |
4.3 系统运行流程设计 |
4.3.1 系统初始化 |
4.3.2 任务执行流程 |
4.3.3 任务终止 |
4.4 本章小结 |
第五章 海量数据处理系统的关键模块流程解析 |
5.1 控制信息数据管理模块实现解析 |
5.1.1 主备节点容错算法模块 |
5.1.2 一致性哈希磁盘存储协议模块 |
5.2 资源感知调度算法模块实现解析 |
5.3 网络库模块实现解析 |
5.4 其他模块实现解析 |
5.5 本章小结 |
第六章 系统测试与测试结果分析 |
6.1 测试环境搭建 |
6.1.1 测试环境配置 |
6.1.2 测试部署及测试项目 |
6.2 关键模块测试及系统功能测试 |
6.2.1 主备节点容错算法模块测试 |
6.2.2 一致性哈希磁盘存储协议测试 |
6.2.3 动态链接库调度模块测试 |
6.2.4 GraphSlave节点测试 |
6.2.5 资源感知调度分配算法模块测试 |
6.2.6 心跳保活模块测试 |
6.3 系统性能测试 |
6.4 系统测试结果分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 论文工作总结 |
7.2 后序工作展望和规划 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
四、“海量”硬盘需要合理分区(论文参考文献)
- [1]一种分布式对象存储系统的设计与实现[D]. 孙浩. 北京邮电大学, 2021(01)
- [2]多读多写的小对象存储系统的设计与实现[D]. 吴晓斌. 电子科技大学, 2021(01)
- [3]面向分布式图数据库图查询和图计算混合引擎[D]. 刘长红. 电子科技大学, 2021(01)
- [4]Kafka流式计算性能优化算法研究[D]. 谢文康. 南京邮电大学, 2020(02)
- [5]面型多为指标的视频点播数据分析子系统设计与实现[D]. 马世松. 北京邮电大学, 2020(04)
- [6]分布式数据库多级缓存系统设计与实现[D]. 孙青. 华中科技大学, 2020(01)
- [7]负载均衡下的混合存储数据迁移方法研究[D]. 李茂林. 西安建筑科技大学, 2020(07)
- [8]基于云平台的城镇居民用水数据的实时存储与查询[D]. 李兴菊. 昆明理工大学, 2020(04)
- [9]基于Spark的缓存优化策略及CNN在列车故障图像中的识别应用[D]. 陈天宇. 湖南工业大学, 2020(02)
- [10]基于图计算的并行海量数据处理平台[D]. 周伟琴. 电子科技大学, 2020(07)