一、在线新闻主题检测系统的设计与应用(论文文献综述)
胡尊天[1](2021)在《互联网虚假新闻检测关键技术的研究及应用》文中进行了进一步梳理随着互联网的快速发展,新闻的载体逐渐由报纸向网络新闻转变,人们也更倾向于使用电脑和手机去接收新闻消息,互联网给人们带来便捷的同时,也为虚假新闻滋生提供了温床。自媒体的发展,使互联网新闻内容的呈现方式愈发多样,常常包含文本、图片和评论等各种信息,如何有效利用这些信息进行虚假新闻检测,对维持社会稳定、净化网络空间有重要作用。虚假新闻是可被证假且故意传播的新闻报道,传统的虚假新闻检测方法往往只关注单一模态信息,基于多模态的虚假新闻检测研究还处于早期阶段。现阶段的检测方法大多从新闻文本分类或者社交网络传播的角度去建模,而多媒体新闻丰富的内容,使得基于单一模态的检测方法还存在提升的空间。基于此,本文以微博多模态数据集为例,提出了一种融合了多模态信息的虚假新闻检测框架,并在具体的数据集上展示建模过程和分析结果。本文的主要工作内容和贡献如下:提出了基于多模态虚假新闻检测框架MFND,分别从文本、图像和用户上下文三个模态进行特征的提取。文本特征提取基于BERT模型,通过全连接层对提取的文本特征进行微调使其更好表征新闻的语义;图像特征提取利用DenseNet预训练模型抽取图像内容卷积特征,同时使用DCT算法抽取图像的频域特征,用以表征图像的篡改、重复压缩信息;用户上下文统计特征基于特征工程,挖掘用户的行为特征和新闻统计特征。最后将不同模态的特征拼接后输入到前馈神经网络中训练,最终模型的准确率和F1值分别达到96.32%和95.85%。提出改进的融合注意力机制的多模态虚假新闻检测框架attention-MFND,在MFND的基础上,从挖掘图文相关性和图文特征交叉的角度出发,引入注意力机制,通过图像特征(query)与词向量(key)为文本中的词向量分配权值,加权平均后得到融合了图像和文本信息的特征向量,将其加入到多模态特征集后,模型检测效果得到了提升。最终模型的准确率和F1值分别达到97.91%和97.52%,验证了该框架的有效性,同时基于attention-MFND开发了虚假新闻检测的Web服务。
杜增文[2](2020)在《基于狄利克雷回归的微博主题检测模型研究》文中提出随着中国互联网的高速发展和普及,信息传递的成本被压缩到有史以来的最低。在当今的互联网时代,信息生成的速度要远远高于过去任何时候,而互联网的便捷又会使得信息可以随意散播,因此在世界范围内,各国政府对于网络舆论的监督和管控都十分重。作为社交网络应用代表的新浪微博,其应用内言论传播的活跃程度,在舆论监管方面具有十分重要的意义。而短文本形式的微博博文,在主题模型的应用中因为文本过于稀疏,常常会导致主题发现的效果欠佳。另外,由于微博的社交属性,使得微博上充斥着大量的营销、娱乐等信息,反而需要政府部门监管的公众舆情占比却很小。因此,如何在微博中发现公众舆情信息,并及时知晓舆情发展的态势,具有十分重要的意义。论文从公众舆情事件的数据特点出发,结合传统LDA(Latent Dirichlet Allocation)的优势,设计了一种基于狄利克雷回归的贝叶斯概率主题模型,以实现在微博数据中发现符合要求的主题。课题的主要工作如下:(1)介绍了概率主题模型的基本原理及基础数学理论,并详细分析了公众舆情事件中,微博数据和新闻数据之间的关系。(2)根据微博和新闻数据的特点,设计了多元狄利克雷多项回归方法,同时在新闻数据中学习主题作为先验知识,再作用在微博数据中,用来解决微博语义稀疏的特性。(3)论文详细介绍了模型的算法过程及参数推断过程,并从定性和定量的角度设计了实验评估方法,以实际案例数据进行测试,并分别从挖掘能力和聚类能力两个方面和传统LDA方法进行了对比评估。本文提出的方法将微博数据结合新闻文本特征后,使得微博数据的主题发现能力有了一定的提升。同时论文中还给出了一种实际应用的方案,在实际案例中应用本模型,可以发现并跟踪公众舆情事件的发生发展变化。本课题的实际应用,可以在微博中对公众舆情事件做到较好的发现及监督作用。
李春婕[3](2020)在《网络媒体舆情检测与分析系统设计与实现》文中研究表明网络舆情是互联网与社会发展相结合后而生成的特殊现象,公众针对公共问题及社会管理者形成的信念及价值观、社会的政治态度等都属于网络舆情的范畴。文章中主要研究的是针对网络媒体进行舆情的检测以及分析研究的系统,针对当前的舆论发展以及规范处理的问题所推出的。在这个系统中,能够明确的了解到不同的网站门户出现的网络新闻舆情消息,其中门户网站包括凤凰、腾讯、新华以及新浪等等,将针对一个问题的报道进行汇总,而且能够对此类的舆情信息进行进一步的跟踪报道,以此对此话题进行分析,对其发展的趋向进行研究,最终研究各种事件针对网络舆情中的发展以及变化的机制,最后给予决策人员准确的数据,以此能够掌握网络舆论的主动权,可以对网上的舆论进行明确的引导。在本次研究中对网络爬虫进行了有效整合,首先对舆情监测的实际情况做了介绍,阐述了研究现状,并介绍了目前市场上的相关商品。在网络爬虫技术的基础上,将信息过滤和抓取功能相结合,利用搜索引擎实现网页数据的采集;通过网页去噪技术、网页排重技术和特征选取技术完成对网页和信息的预处理,以信息检索算法为基础,结合话题追踪和情感挖掘两种方法对网络舆情进行分析,了解其需求以及发展的趋向,对当前商业产品的不足之处进行把握,以此推出事件情感追踪、话题追踪的舆情监测系统;对于网页中的舆情以及热点的分布和来源进行深层次挖掘,和用户做出进一步的交互,按照客户的反馈形成对应的用户舆情模型库。然后针对舆情监测的系统原型进行进一步的分解,确定技术重点;以上述理论和技术重点为基础框架,设计了一款网络舆情监测系统,该系统包括舆情采集、网页预处理、话题追踪、舆情分析几个模块,针对网页爬虫的性能和舆情文本的数据做了分析以及测定,最终结果表明,本文所设计的网络媒体舆情检测与分析系统精准性和实用性良好。
张强[4](2020)在《社交网络国民安全突发话题检测、挖掘与演进规律发现》文中研究表明伴随着互联网技术的日渐普及,越来越多的用户开始接触社交网络并养成了使用社交网络的习惯。人们关心的日常话题会在第一时间以最快的速度通过社交媒介传播开来,尤其是与人们生活密切相关的国民安全话题。突发话题出现时,大量的相关舆情信息会在以微博为代表的社交网站中传播。为了能够迅速准确地检出相关的突发话题,本论文实现了海量数据的实时采集和突发话题检测、挖掘与演进规律发现系统,采用自然语言处理技术等高效地检测突发话题,并基于检测出的突发话题实现话题挖掘与演进规律发现。本文完成的主要工作如下:(1)提出了社交网络国民安全信息的采集与深度特征提取方法。针对社交网络文本数据存在的语义稀疏性和二义性等问题,提出了基于文本相似度的短文本扩充算法(UCSE)。UCSE算法在对文本进行扩充的基础上利用双向长短期记忆网络,进一步提取了文本深度特征。(2)提出了基于社交网络突发特征识别和过滤的突发话题检测算法(BTDF)。BTDF算法利用微博文本中词的基本权重和突发权重,识别出突发特征。通过对微博文本的短时间和长时间前置信息的分析,过滤伪突发特征。结合识别出的突发特征和当前时间片话题发现的结果,检测出突发话题。实验结果表明提出的BTDF算法能够准确有效地检测出突发话题。(3)提出了突发话题挖掘与演进规律发现算法,实现了对突发话题不同时间片内话题特征的挖掘。话题的特征通常包含话题热度、关键词等特征。通过挖掘话题周期内微博的评论数、点赞数、博文数的变化,进行热度的演进规律发现。通过结合微博文本中词的语义相关性和共现关系,提取文本关键词。通过展示话题不同维度的话题特征随时间序列的变化,实现了演进规律发现。(4)设计并实现了社交网络国民安全突发话题检测、挖掘与演进规律发现系统。验证了所提出的算法的可行性和有效性。系统共包含四个模块:社交网络数据采集与深度特征提取模块、国民安全突发话题检测模块、突发话题挖掘与演进规律发现模块和系统展示模块。
盛泳潘[5](2020)在《面向知识图谱的学习算法研究与应用》文中研究表明随着认知智能技术的深入发展,知识图谱俨然成为了大数据时代的一种重要的知识表示形式。在多个垂直领域,以数据分析、智慧搜索、智能推荐、自然人机交互为主的实际应用场景中,皆对知识图谱提出了客观的使用需求。与此同时,知识图谱作为实现机器认知智能的重要基石,同样是现阶段人工智能领域的热门研究课题。本文面向知识图谱构建与智能应用中的若干关键理论问题开展学习算法研究与实证分析。其中,从开放域环境中自动获取关系实例是构建大规模知识图谱的基础,精准地识别概念间的上下位关系是在纵向层面上扩展知识层级体系结构的关键,通过知识图谱表示学习可实现知识图谱数值化表示,得以让机器更好地处理并应用知识图谱进行知识计算。立足于文本数据,构建一套完整的领域知识图谱模型是一个极富挑战性的任务。本文的研究内容与主要贡献可总结为:第一,针对开放域场景下的实体关系抽取问题,提出了一个基于句法分析的开放关系抽取模型。该模型采用一种规则增强的句法分析方法,提高了对句子结构的分析能力,从而得到了更多具有高质量关系短语的三元组。再者,通过一种关系强度度量方法,从中进一步筛选出显着且有良好关系强度的三元组作为最终的抽取结果。我们在四个真实世界的开放域数据集上进行了实证研究,实验结果表明:我们的方法具有无监督、自动化的特点,能够适应一定规模的异质文本语料。相比于多个具有代表性的基线方法,我们的模型在开放关系抽取任务上实现了性能的提升。第二,针对知识图谱中概念上下位语义关系的精准识别问题,我们充分利用WordNet和英文版维基百科这两个高质量的外部知识库,赋予候选上下位关系元组中的两个概念以文本定义的证据,提出了一个由概念定义驱动的上下位关系预测模型。一方面,通过引入高价值的文本知识,拓展了概念的语义上下文,弥补了现有方法从特征并不充分的,有着领域独立性的训练语料的上下文中学习概念嵌入表示的局限性。再者,有助于更好的解释领域相关的,或存在歧义的候选上下位关系元组;另一方面,模型能够将(概念,概念的定义)进行联合建模,有助于挖掘两者语义上下文中隐含的上下位关系特征。最后,通过端到端的训练,避免了传统预测模型先学习概念嵌入表示,再学习二元分类器的诸多局限,更为有效地利用了训练数据。在开放域与限定域数据集上的实验结果表明,我们的模型在性能与泛化能力上表现一致,且优于近年来表现较好的基线模型。第三,针对时序知识图谱上缺失链接的补全与纠正问题,我们基于该问题的先领性工作,提出了一个名为TKGFrame的两阶段时序知识图谱补全模型。TKGFrame在以下三个方面进行了扩展:第一方面,提出了一种改进的时序演化矩阵,使其能够更好地刻画同一个时序关系链条上时序顺序关系之间的演化强度。第二方面,基于时序知识图谱的嵌入结果,将其中缺失事实成立的合理性度量建模为一个带约束的优化问题,并采用整数线性规划方法对该问题进行求解,进一步过滤了候选结果中的不合理预测;第三方面,将上述两个模型无缝地整合在TKGFrame框架之下。在三个真实世界的时序知识图谱数据集上的实验结果表明,TKGFrame模型在实体预测和关系预测任务上的性能显着优于目前主流的相关工作。第四,新闻通常产生自特定的事件或者话题,如今已成为人们从互联网上获取信息的重要来源。在现实场景中,用户易于淹没在快速累积的、冗余的、多样的新闻报道之中,而无法有效感知并掌握其中重要的事实知识,从上述真实的用户诉求出发,我们提出了一套名为MuReX的概念知识图谱构建模型,该模型包括一种结合多种抽取器的抽取策略、一种改进自学习框架的两阶段候选关系实例过滤算法、一种关系实例兼容性度量、一种关系实例重要性度量、一种启发式知识图谱构造策略。这些完整且实用的技术被集成到了统一的MuReX框架,经过数据预处理、候选关系实例抽取、主题一致性估计、关系实例兼容性度量和概念知识图谱生成五个重要的建模过程,最终生成了包含显着事实的、高质量的概念知识图谱。据此,用户得以快速地洞察特定主题下的新闻事实、事件的发展脉络,以及探索其中潜在的、新的关系连接。
谢浩鑫[6](2020)在《基于字典学习的多任务单分类算法研究》文中指出单分类算法是基于样本中一类的监督学习,在机器学习和数据挖掘领域中得到越来越多的关注。单分类算法把样本中的一类作为目标类,把样本中的其它类作为非目标类,通过从目标类学习到单分类器,进而预测新样本属于目标类还是非目标类。单分类算法广泛应用于入侵检测、图像检索、文本检索和遥感。因此,深入研究单分类算法极为重要。随着商业数据的崛起,具有相似分布的数据集越来越多。多任务算法适用于处理分布相似但不相同的数据集,得到越来越多的关注。同时,在多个任务中,多个源任务的标记数据量可能远远大于目标任务的数据量。然而,大部分现有的单分类算法属于单任务算法,并不适用于多任务单分类算法。故而,需要深入研究单任务单分类算法,改进并扩展出多任务单分类算法。在本文中,我们提出了一种称为基于字典学习的多任务单分类算法(MTD-OC)。该方法将字典学习加入到多任务单分类算法中。首先,给每个任务一个字典,确保不同任务的字典是独立的,并且尽可能地区分。字典学习包含三个项,l2,1-范数约束项、字典不连贯项和稀疏编码提取项。l2,1-范数约束项提高表示准确性,字典不连贯项促进任务间数据表示不连贯,投影矩阵提取项提高编码效率。然后,通过从多个源任务中学习到的迁移知识,来构造目标任务的单分类器。同时,单分类器提高了字典的表示性能,而字典则提高了单分类器的分类性能。在基于字典学习的多任务单分类算法中,优化函数同时优化单分类器和字典学习。为此,我们提出一个迭代框架来求解优化函数,从而获得目标类的分类器。在实验中,先分割三个实际文本数据集,产生多个子数据集,这些子数据集的分布相似。然后通过对比其它单分类器,从而表明,基于字典学习的多任务单分类算法可以通过学习每个任务的字典来构造迁移分类器,从而提高单分类器的准确性。
韩浩[7](2020)在《基于多任务学习的假新闻检测》文中研究表明随着互联网的普及,越来越多的人选择在网络上阅读新闻。不同于传统新闻媒体,互联网新闻有许多新特点,如获取成本低、时效性高等特点。然而,大量包含虚假信息的新闻得以在各种社交媒体上肆意传播,其大量涌入给互联网新闻这一领域带来了严重的负面影响。因此,如何识别假新闻,并及时停止其传播,对构造一个良好的互联网氛围至关重要。假新闻检测并非易事,其甄别过程往往需要专业的背景知识。现阶段检测假新闻的主要方式是人工审核,考虑到互联网上新闻的数据量之大、传播范围之广,人工审核的方式很难解决效率低、时延性高等不可避免的问题。随着人工智能的发展,研究者们期望通过人工智能技术自动地检测假新闻。然而,互联网上传播的新闻其文本内容的长度较短,这使得传统的基于文本的假新闻检测方法难以取得满意的效果。本文研究了基于多任务学习的假新闻检测问题。互联网新闻往往会在多个社交媒体上发布与传播,这些新闻涵盖了大量不同的主题,传统的基于手工设计特征的机器学习方法很难保证设计特征集的泛化能力。考虑到在一些主题下假新闻出现的概率更大,本文挖掘了新闻的真实性和新闻的主题之间的内在关联,并提出了一个基于多任务学习的假新闻检测模型(Fake news Detection via Multi-task Learning,FDML)。FDML模型基于深度神经网络,可以自动地从新闻内容中学习到相应的特征,同时处理假新闻检测任务和主题分类任务,在学习过程中挖掘新闻真实性和新闻主题之间的内在关联,从而提升假新闻检测和主题分类的效果。互联网上新闻的文本内容普遍较短,并且假新闻通常是作者有意误导读者而撰写的,所以仅依靠新闻文本内容的假新闻检测很难取得令人满意的效果。考虑到新闻在发布时会伴随一系列上下文信息,例如新闻作者、作者历史信用表现等,这些信息可以有效的提升假新闻检测的效果。因此,FDML模型综合考虑了新闻的文本内容和新闻的上下文信息,通过结合多个特征进一步提高假新闻检测和主题分类的效果,在来自真实世界的数据集上的相关实验验证了本文提出模型的有效性。此外,本文实现了一个假新闻可视化与检测系统,提供数据收集、数据分析、假新闻检测模型部署等功能。
刘小军[8](2016)在《基于LDA模型和AP聚类算法的主题演化研究》文中认为随着互联网的高速发展,网络信息都呈现爆炸性增长趋势,而互联网新闻由于覆盖面广、传播速度快和亲和力强等特点,成为人们获取信息的主要途径。因此,建立新闻的主题演化分析体系可以帮助用户从海量的互联网新闻数据中获取更有价值的信息。分析新闻事件的演化发展轨迹,对于政府进行舆情监控以及企业进行商情挖掘都有着十分重要的作用。论文首先分析了新闻主题演化的背景意义,对目前的主题检测及演化模型研究现状进行了深入的探讨与研究;其次探讨了基于共现词理论的主题建模分析和LDA主题模型在新闻演化检测上的应用;然后针对LDA主题演化模型中的单主题演化和阈值设定的缺点,结合主题演化理论和聚类思想,构建ILDA-AP主题演化模型。最后介绍了自适应主题演化模型的背景和目前的研究情况,结合时间衰减的自适应调整策略提出基于时间衰减的LDA-AP模型,并利用此模型来挖掘不同时间窗口内的新闻主题之间的演化关系。在此基础上,从新浪、网易等网站中搜集新闻数据完成主题演化实验,通过与基准方法的实验对比,验证了基于时间衰减的LDA-AP模型在主题演化上的可行性。通过本文的实验研究发现,基于时间衰减的LDA-AP模型的主题演化分析方法,不仅可以挖掘多个新闻主题事件随时间的演化趋势,而且提高了主题演化的准确率,有效改善了主题演化的性能。
李斅葳[9](2013)在《基于敏感信息挖掘的网络舆情监测系统研究》文中提出随着网络媒体的不断发展以及网民数量的日趋增加,越来越多的人愿意在网络上参政议政、表达观点,互联网已逐步成为舆情产生和传播的重要场所。网络舆情也在社会生活中发挥着越来越重要的作用。能够及时、全面的掌握网络舆情信息不但能够有效的防止突发性的网络恶性事件,同时也能够为政府部门科学化、民主化的决策提供参考依据。加强管理,开展网络舆情信息的监测与预警,已经成为目前各级政府部门急需解决的现实问题。因此,建立有效的网络舆情分析系统,对维护社会的稳定发展有重要意义。传统的监测系统采用“被动出击”的方式发掘网络舆情,在面对海量的网络信息时,不仅时效性、准确性较低,而且难以对舆情变化做出迅速响应。本文针对网络舆情形成迅速、相关信息量大、发展变化快的特点,在网络舆情信息监控系统研究中,重点放在了敏感信息的抓取、网络热点的自动发现以及网络舆情的主题追踪上,提出了有效的识别、追踪监控策略。本文针对实际应用需求,通过研究舆情热点自动发现及深入分析技术,建立基于数据挖掘的敏感信息分析框架,研究其中的各项关键技术,设计实现了敏感信息定义及敏感信息挖掘方法。敏感信息是由用户输入的敏感词、敏感词关联词、它们之间的相关程度及关联构成的集合,采用数据挖掘技术,进行关联分析和聚类分析等,可以为用户返回与敏感词相关联的信息。基于敏感信息的挖掘算法提出了网络热点自动发现以及主题追踪的有效解决方案。同时为了应对网络舆情数据量巨大的特点,加入文本信息预处理模块,对信息进行过滤,减少了后续处理过程中的干扰数据以及冗余运算,提高整个系统的效率以及准确性。应用本系统设计可以让用户了解到网络上正在发生的舆情事件,并且持续自动的追踪事件的发展,快速、完整且全面地了解事件全貌。本文所述设计有效弥补了传统舆情监控系统难以对舆情变化及时响应的缺点,增强了监测系统的实用性。
陈学昌,韩佳珍,魏桂英[10](2011)在《话题识别与跟踪技术发展研究》文中认为话题识别与跟踪以大规模新闻流为研究对象,通过监控新闻报道描述的话题,发现新的用户感兴趣的信息并将涉及某个话题的新闻报道组织起来以某种方式呈现给用户。本文首先介绍话题识别与跟踪的主要任务、相关概念和评价方法,然后对话题识别国内外研究现状进行详细论述,最后对话题识别的发展趋势和未来的研究方向进行分析。
二、在线新闻主题检测系统的设计与应用(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、在线新闻主题检测系统的设计与应用(论文提纲范文)
(1)互联网虚假新闻检测关键技术的研究及应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 主要工作内容 |
1.4 论文的组织结构 |
第二章 虚假新闻检测相关技术研究 |
2.1 文本表示方法 |
2.1.1 One-hot编码 |
2.1.2 LDA |
2.1.3 Word2vec |
2.2 卷积神经网络基础 |
2.2.1 卷积神经网络结构 |
2.2.2 CNN经典模型 |
2.3 自然语言处理基础 |
2.3.1 RNN及其变体 |
2.3.2 特征提取结构Transformer |
2.4 本章小结 |
第三章 数据分析与特征工程 |
3.1 数据集介绍与分析 |
3.1.1 数据集介绍 |
3.1.2 数据分布分析 |
3.2 数据预处理 |
3.2.1 样本去重 |
3.2.2 数据清洗 |
3.3 特征工程 |
3.3.1 文本向量表示 |
3.3.2 图像特征提取 |
3.3.3 用户侧和统计特征 |
3.3.4 特征选择 |
3.4 本章小结 |
第四章 基于多模态的虚假新闻检测框架 |
4.1 任务描述 |
4.2 基于多模态虚假新闻检测框架 |
4.3 改进的多模态虚假新闻检测框架attention-MFND |
4.4 虚假新闻检测原型系统 |
4.4.1 系统流程图 |
4.4.2 使用过程介绍 |
4.5 本章小节 |
第五章 模型验证与实验结果分析 |
5.1 实验环境及评价指标 |
5.1.1 实验环境 |
5.1.2 评价指标 |
5.2 实验设置 |
5.2.1 数据集划分 |
5.2.2 预训练模型设置 |
5.2.3 实验参数设置 |
5.3 对比实验与结果分析 |
5.3.1 特征向量维度的影响 |
5.3.2 注意机制中相似度计算方式的影响 |
5.3.3 用户态文本信息的影响 |
5.3.4 图文特征交叉的影响 |
5.3.5 不同模型的对比实验 |
5.4 本章小节 |
第六章 总结与展望 |
6.1 全文工作总结 |
6.2 未来展望 |
致谢 |
参考文献 |
(2)基于狄利克雷回归的微博主题检测模型研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.3 本文主要研究内容 |
第2章 主题检测模型的相关技术 |
2.1 文本向量化 |
2.2 文本聚类算法 |
2.2.1 基于划分的聚类算法 |
2.2.2 基于层次的聚类算法 |
2.2.3 基于增量式的聚类算法 |
2.3 狄利克雷分布 |
2.4 概率主题模型 |
2.4.1 潜在语义索引 |
2.4.2 潜在狄利克雷分配 |
2.4.3 狄利克雷多项回归 |
2.5 小结 |
第3章 基于狄利克雷回归的微博主题检测模型 |
3.1 微博事件的主题挖掘方案 |
3.2 多元狄利克雷多项回归模型 |
3.3 模型参数推断 |
3.4 小结 |
第4章 微博主题检测模型的实验与验证 |
4.1 数据集介绍和实验设置 |
4.1.1 实验数据的获取 |
4.1.2 数据预处理 |
4.1.3 模型参数设置 |
4.2 模型评价指标 |
4.2.1 主题挖掘能力评价 |
4.2.2 主题聚类能力评价 |
4.3 实验结果 |
4.3.1 模型对比测试结果 |
4.3.2 抗噪音性能测试 |
4.4 微博主题检测模型的应用 |
4.5 小结 |
第5章 结论与展望 |
5.1 论文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(3)网络媒体舆情检测与分析系统设计与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 研究内容 |
1.4 论文组织结构 |
第二章 网页数据采集及信息预处理 |
2.1 搜索引擎 |
2.1.1 搜索引擎的发展及原理分析 |
2.1.2 垂直搜索引擎 |
2.2 通用网络爬虫技术 |
2.2.1 网络爬虫工作原理 |
2.2.2 爬虫爬行策略 |
2.3 垂直元搜索采集技术 |
2.3.1 元搜索引擎 |
2.3.2 元搜索工作流程 |
2.4 网页去噪技术 |
2.4.1 编写网页的常用语言 |
2.4.2 HTML/XML文件树型逻辑结构 |
2.4.3 数据路径描述方法 |
2.5 网页排重技术 |
2.5.1 网页重复特点分析 |
2.5.2 网页文本特征的提取方式 |
2.5.3 网页去重的方法研究 |
2.6 文本形式化表示与特征选取技术 |
2.6.1 特征降维方法 |
2.6.2 权重计算方法 |
2.7 本章小结 |
第三章 舆情分析 |
3.1 信息检索模型 |
3.2 信息检索算法 |
3.2.1 基于内容的检索算法 |
3.2.2 基于超链分析的检索算法 |
3.2.3 k-means聚类算法的改进 |
3.3 话题追踪方法 |
3.3.1 Rocchio方法 |
3.3.2 朴素贝叶斯 |
3.3.3 最近邻算法 |
3.3.4 支持向量机(SVM) |
3.4 情感挖掘方法 |
3.4.1 情感倾向性计算 |
3.4.2 情感挖掘流程 |
3.5 本章小结 |
第四章 网络舆情信息系统应用 |
4.1 系统整体设计 |
4.1.1 系统体系结构设计 |
4.1.2 系统功能设计 |
4.1.3 系统功能用例分析 |
4.1.4 子系统功能用例分析 |
4.1.5 系统数据库设计 |
4.1.6 系统模块划分 |
4.1.7 系统部署图 |
4.2 舆情采集模块 |
4.3 网页预处理模块 |
4.3.1 网页去噪模块 |
4.3.2 网页排重模块 |
4.3.3 特征抽取模块 |
4.4 话题追踪模块 |
4.5 舆情分析模块 |
4.6 本章小结 |
第五章 系统测试结果分析 |
5.1 系统测试结果 |
5.2 本章小结 |
第六章 总结和展望 |
参考文献 |
(4)社交网络国民安全突发话题检测、挖掘与演进规律发现(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 社交网络数据采集 |
1.2.2 社交网络文本深度特征提取 |
1.2.3 社交网络突发话题检测 |
1.2.4 社交网络话题挖掘与演进规律发现 |
1.3 研究内容 |
1.3.1 社交网络国民安全信息采集与深度特征提取 |
1.3.2 社交网络国民安全突发话题检测 |
1.3.3 社交网络国民安全突发话题挖掘与演进规律发现 |
1.3.4 社交网络国民安全突发话题检测、挖掘与演进规律发现系统的实现 |
1.4 论文结构 |
第二章 相关技术 |
2.1 数据采集 |
2.1.1 信息采集 |
2.1.2 文本预处理 |
2.2 文本深度特征提取 |
2.2.1 词嵌入模型 |
2.2.2 长短期记忆网络 |
2.3 突发话题检测算法 |
2.3.1 LDA主题模型 |
2.3.2 BTM主题模型 |
2.4 关键词提取算法 |
2.4.1 基于TextRank算法的关键词提取 |
2.4.2 基于TF-IDF算法的关键词提取 |
2.5 本章小结 |
第三章 社交网络国民安全信息采集与深度特征提取 |
3.1 社交网络信息实时采集 |
3.2 社交网络文本数据深度特征提取算法(UCSE)的提出 |
3.2.1 基于用户交互行为特征的社交网络短文本扩充 |
3.2.2 基于双向长短期记忆网络进行文本深度特征提取 |
3.3 实验结果及分析 |
3.3.1 数据集描述 |
3.3.2 社交网络文本深度特征提取实验 |
3.4 本章小结 |
第四章 社交网络国民安全突发话题检测 |
4.1 社交网络国民安全突发话题检测(BTDF)算法总体框架 |
4.2 基于突发特征的突发话题检测算法(BTDF)的提出 |
4.2.1 突发特征的识别 |
4.2.2 伪突发特征过滤 |
4.3 突发话题突发度的计算 |
4.4 实验结果及分析 |
4.4.1 数据集描述 |
4.4.2 突发话题检测实验 |
4.4.3 话题突发度评估 |
4.5 本章小结 |
第五章 社交网络国民安全突发话题挖掘与演进规律发现 |
5.1 社交网络突发话题挖掘 |
5.2 基于文本语义关联的关键词提取算法(KEBT)的提出 |
5.3 实验结果及分析 |
5.3.1 数据集描述 |
5.3.2 社交网络短文本关键词提取实验 |
5.3.3 社交网络话题热度实验 |
5.4 本章小结 |
第六章 社交网络国民安全突发话题检测、挖掘与演进规律发现系统 |
6.1 系统描述 |
6.1.1 系统功能与目标 |
6.1.2 系统数据库设计 |
6.1.3 系统开发环境与运行环境 |
6.1.4 系统总体设计 |
6.2 系统实现 |
6.2.1 数据采集和特征提取模块的实现 |
6.2.2 国民安全突发话题检测模块的实现 |
6.2.3 话题挖掘与演进规律发现模块的实现 |
6.3 系统分析 |
6.3.1 系统测试环境 |
6.3.2 测试用例及结果 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
参考文献 |
致谢 |
攻读学位期间研究成果 |
(5)面向知识图谱的学习算法研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 研究意义 |
1.2 研究难点与挑战 |
1.2.1 实体关系抽取 |
1.2.2 概念上下位关系识别 |
1.2.3 基于时序知识图谱的表示学习 |
1.2.4 基于新闻文本语料的概念知识图谱构建 |
1.3 本文研究内容与贡献 |
1.4 本文组织结构 |
第二章 开放域实体关系抽取方法研究 |
2.1 引言 |
2.2 预备知识 |
2.2.1 依存句法树 |
2.2.2 最短依存路径 |
2.2.3 开放关系抽取的任务定义 |
2.3 相关工作 |
2.3.1 基于无监督学习的抽取方法 |
2.3.2 基于深度学习的抽取方法 |
2.4 基于句法分析的开放关系抽取方法 |
2.4.1 生成依存句法树 |
2.4.2 候选三元组抽取 |
2.4.3 实体关系强度度量 |
2.5 实验与分析 |
2.5.1 数据集 |
2.5.2 对比方法 |
2.5.3 评估指标 |
2.5.4 实验结果 |
2.6 本章小结 |
第三章 概念上下位关系识别方法研究 |
3.1 引言 |
3.2 任务定义 |
3.3 相关工作 |
3.3.1 基于语言模式的匹配方法 |
3.3.2 基于分布式表示的识别方法 |
3.4 概念定义驱动的上下位关系识别方法 |
3.4.1 语句输入层 |
3.4.2 语句编码层 |
3.4.3 交互层 |
3.4.4 上下位关系分类层 |
3.5 实验与分析 |
3.5.1 数据集构建 |
3.5.2 对比方法 |
3.5.3 评估指标 |
3.5.4 实现细节 |
3.5.5 实验结果 |
3.6 本章小结 |
第四章 时序知识图谱补全方法研究 |
4.1 引言 |
4.2 预备知识 |
4.2.1 静态知识图谱 |
4.2.2 时序知识图谱 |
4.2.3 时序知识图谱补全的任务定义 |
4.3 相关工作 |
4.3.1 基于静态知识图谱的表示学习模型 |
4.3.2 基于时序知识图谱的表示学习模型 |
4.4 基于两阶段框架的时序知识图谱补全方法 |
4.4.1 阶段一:时序演化增强的表示学习模型 |
4.4.2 阶段二:精细分析模型 |
4.5 实验与分析 |
4.5.1 数据集 |
4.5.2 对比方法 |
4.5.3 评估指标 |
4.5.4 实现细节 |
4.5.5 实验结果 |
4.6 本章小结 |
第五章 基于新闻数据的概念知识图谱构建方法研究 |
5.1 引言 |
5.2 任务定义 |
5.3 相关工作 |
5.3.1 新闻表示 |
5.3.2 主题检测与追踪 |
5.3.3 开放域关系抽取 |
5.3.4 抽取式文档摘要 |
5.3.5 基于多文档的语义挖掘系统 |
5.4 概念知识图谱构建模型 |
5.4.1 数据预处理 |
5.4.2 候选关系实例抽取 |
5.4.3 主题一致性估计 |
5.4.4 关系实例兼容性度量 |
5.4.5 生成概念知识图谱 |
5.5 实验与分析 |
5.5.1 数据集 |
5.5.2 实验准备工作 |
5.5.3 实验结果分析 |
5.6 系统概况 |
5.7 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 研究展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(6)基于字典学习的多任务单分类算法研究(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究的背景和意义 |
1.2 国内外研究现状 |
1.3 论文的主要研究内容 |
1.4 本章小结 |
第二章 现有的算法研究 |
2.1 单分类算法 |
2.2 迁移学习 |
2.3 字典学习 |
2.4 本章小结 |
第三章 基于字典学习的多任务单分类算法研究 |
3.1 扩展字典学习 |
3.2 扩展单分类算法和迁移学习 |
3.3 扩展多任务学习 |
3.4 优化算法 |
3.5 本章小结 |
第四章 实验设计与仿真 |
4.1 数据集 |
4.1.1 数据集简介 |
4.1.2 数据集操作 |
4.2 实验方法与设置 |
4.2.1 对比算法简介 |
4.2.2 参数设置 |
4.3 实验结果分析 |
4.3.1 性能比较 |
4.3.2 噪声影响 |
4.3.3 参数分析 |
4.3.4 训练时间分析 |
4.4 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间发表论文 |
致谢 |
(7)基于多任务学习的假新闻检测(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题研究背景及意义 |
1.2 国内外研究现状 |
1.3 本文研究内容 |
1.4 本文的结构安排 |
第2章 假新闻检测相关技术介绍 |
2.1 文本表示 |
2.1.1 离散表示 |
2.1.2 分布表示 |
2.2 深度神经网络模型介绍 |
2.2.1 卷积神经网络 |
2.2.2 长短期记忆网络 |
2.3 注意力机制 |
2.4 多任务学习 |
2.5 本章小结 |
第3章 基于多任务学习的假新闻检测模型 |
3.1 数据分析及发现 |
3.2 问题定义 |
3.3 假新闻检测模型 |
3.3.1 模型概览 |
3.3.2 嵌入层 |
3.3.3 表征层 |
3.3.4 多任务学习层 |
3.4 优化方法 |
3.5 本章小结 |
第4章 模型验证及分析 |
4.1 实验数据 |
4.2 实验设置 |
4.3 假新闻检测性能比较 |
4.4 主题分类性能比较 |
4.5 实验分析 |
4.5.1 多任务学习的有效性 |
4.5.2 上下文信息的有效性 |
4.6 本章小结 |
第5章 假新闻可视化与检测系统的实现 |
5.1 系统需求分析 |
5.2 系统实现方案 |
5.3 系统功能介绍 |
5.3.1 用户模块 |
5.3.2 可视化分析模块 |
5.3.3 假新闻检测模块 |
5.3.4 新闻分析模块 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其他成果 |
致谢 |
(8)基于LDA模型和AP聚类算法的主题演化研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.2 国内外相关研究综述 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文的组织结构 |
第二章 相关理论概述 |
2.1 主题建模概述 |
2.1.1 潜在语义索引 |
2.1.2 概率主题模型 |
2.2 LDA模型 |
2.2.1 LDA模型简介 |
2.2.2 参数估计 |
2.2.3 最优话题数目选择 |
2.3 主题聚类算法 |
2.3.1 共现主题词提取 |
2.3.2 常用的聚类算法 |
2.4 主题演化 |
2.4.1 主题演化简介 |
2.4.2 主题演化模式 |
2.4.3 自适应主题演化 |
第三章 基于LDA-AP的主题演化模型 |
3.1 主题演化模型框架 |
3.2 基于LDA-AP主题演化模型实施步骤 |
3.2.1 文本预处理 |
3.2.2 主题检测 |
3.2.3 主题演化分析方法 |
3.3 基于时间衰减的LDA-AP主题演化模型 |
3.3.1 权重调整 |
3.3.2 时间衰减函数 |
第四章 实验结果与分析 |
4.1 实验设计 |
4.1.1 数据采集 |
4.1.2 文本预处理 |
4.1.3 主题建模 |
4.1.4 参数选择 |
4.2 实验结果及对比 |
4.2.1 主题演化改进模型实验设计 |
4.2.2 主题内容演化结果对比 |
4.2.3 主题强度演化结果 |
4.2.4 主题演化评测结果对比 |
第五章 结论与展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
攻读硕士学位期间的学术活动及成果情况 |
(9)基于敏感信息挖掘的网络舆情监测系统研究(论文提纲范文)
摘要 |
Abstract |
第一章 、绪论 |
1.1 研究背景与意义 |
1.2 研究的主要内容 |
1.3 本文结构 |
第二章 、相关技术研究现状综述 |
2.1 网络舆情监测技术的研究进展 |
2.2 相关技术分析 |
2.2.1 web 挖掘 |
2.2.2 网络爬虫 |
2.2.3 语义技术 |
2.2.4 知识库 |
2.3 前期工作与局限 |
第三章 、敏感信息挖掘原理 |
3.1 敏感信息的要素 |
3.1.1 敏感信息定义 |
3.1.2 敏感信息知识库 |
3.2 敏感信息的挖掘算法 |
3.2.1 关联词以及关联规则 |
3.2.2 文本表示及特征提取 |
3.2.3 文本聚类分析 |
3.3 敏感信息挖掘流程原形 |
第四章 、基于敏感信息挖掘的实际应用 |
4.1 舆情信息热点发现 |
4.1.1 热点发现的设计 |
4.2 舆情信息主题追踪 |
4.2.1 主题追踪的设计 |
4.2.2 主题追踪程序实现 |
第五章 、网络舆情监测系统的分析与设计 |
5.1 网络舆情监控系统概述 |
5.1.1 系统设计思路 |
5.2 网络舆情监控系统设计 |
5.2.1 文本预处理模块 |
5.2.2 敏感信息分析模块 |
5.2.3 舆情分析模块 |
5.3 应用情况及评估 |
第六章 、总结 |
6.1 结论 |
6.2 展望 |
参考文献 |
致谢 |
(10)话题识别与跟踪技术发展研究(论文提纲范文)
1 引言 |
2 TDT简介 |
2.1 基本概念 |
2.2 TDT任务 |
2.3 测评技术 |
3 话题识别(TD)的研究及应用现状 |
3.1 基于聚类的TD算法 |
3.1.1 基于层次聚类的TD算法 |
3.1.2 基于在线增量式TD算法 |
3.1.3 基于双阈值的TD算法 |
3.2 基于语义和语法特征的TD算法 |
3.3 TDT技术的应用及发展趋势 |
4 总结 |
四、在线新闻主题检测系统的设计与应用(论文参考文献)
- [1]互联网虚假新闻检测关键技术的研究及应用[D]. 胡尊天. 电子科技大学, 2021(01)
- [2]基于狄利克雷回归的微博主题检测模型研究[D]. 杜增文. 中国科学院大学(中国科学院大学人工智能学院), 2020(04)
- [3]网络媒体舆情检测与分析系统设计与实现[D]. 李春婕. 内蒙古大学, 2020(04)
- [4]社交网络国民安全突发话题检测、挖掘与演进规律发现[D]. 张强. 北京邮电大学, 2020(04)
- [5]面向知识图谱的学习算法研究与应用[D]. 盛泳潘. 电子科技大学, 2020(01)
- [6]基于字典学习的多任务单分类算法研究[D]. 谢浩鑫. 广东工业大学, 2020(02)
- [7]基于多任务学习的假新闻检测[D]. 韩浩. 哈尔滨工业大学, 2020(02)
- [8]基于LDA模型和AP聚类算法的主题演化研究[D]. 刘小军. 合肥工业大学, 2016(02)
- [9]基于敏感信息挖掘的网络舆情监测系统研究[D]. 李斅葳. 复旦大学, 2013(03)
- [10]话题识别与跟踪技术发展研究[J]. 陈学昌,韩佳珍,魏桂英. 中国管理信息化, 2011(09)