数据分析与知识发现

所属栏目:科技期刊 热度: 时间:

数据分析与知识发现

数据分析与知识发现

关注()
期刊周期:周刊
期刊级别:南大核心
国内统一刊号:10-1478/G2
国际标准刊号:2096-3467
主办单位:中国科学院文献情报中心
主管单位:中国科学院
查看数据分析与知识发现近十年数据入口>>>
上一本期杂志:数字传媒研究杂志2018年05期论文目录
下一本期杂志:应用技术学报杂志2018年征收论文栏目要求

   《数据分析与知识发现》杂志简介

  《数据分析与知识发现》(月刊)创刊于1985年,是中国科学院主管、中国科学院文献情报中心主办的计算机信息管理技术方面的学术性刊物,是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类核心期刊。刊物设有“数字图书馆”、“知识组织与知识管理”、“情报分析与研究技术”、“应用实践”、“动态”等一系列固定类栏目以及“特邀专栏”、“企业技术之窗”等不定期栏目。

  《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法,研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等,尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决策的理论、方法和技术。

  《数据分析与知识发现》办刊宗旨是聚焦各行各业中以大数据为基础,依靠复杂挖掘分析方法,进行知识发现与预测、支持决策分析和政策制定的研究与应用,致力于提供理论指导、技术支持和最佳实践。

  《数据分析与知识发现》栏目设置

  数学图书馆、知识组织与知识管理、情报分析与研究、应用实践、动态、特邀专栏、金融证券管理、企业信息管理技术

  《数据分析与知识发现》杂志荣誉

  CSSCI 南大核心期刊(中文社会科学引文索引)(含扩展版)万方收录(中)上海图书馆馆藏国家图书馆馆藏知网收录(中)维普收录(中)中国期刊全文数据库(CJFD)中国核心期刊遴选数据库

  2018年《数据分析与知识发现》杂志08期投稿论文目录:

  基于t-SNE降维的科学基金资助项目可视化方法研究陈挺;李国鹏;王小梅;

  基于BRFSS数据库应用人工神经网络构建儿童哮喘预测模型马晓宇;张晗;赵玉虹;

  新一代知识问答平台中提问者付费意愿的影响因素探究赵宇翔;刘周颖;宋士杰;

  基于预警平台大数据的事件旅游客流时空分布研究王玲;代前进;吴晓隽;

  面向微博短文本分类的文本向量化方法比较研究李心蕾;王昊;刘小敏;邓三鸿;

  基于LDA和AdaBoost多特征组合的微博情感分析曾子明;杨倩雯;

  基于领域本体的产品网络口碑信息多层次细粒度情感挖掘何有世;何述芳;

  跨设备搜索中设备转移前后查询式语义变化研究吴丹;陆柳杏;

  等待感知对于移动信息产品用户满意度的影响研究——以数字小说书架为例马艳阳;刘玉磊;徐伯初;支锦亦;

  收录论文:面向微博短文本分类的文本向量化方法比较研究

  【摘要】:【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。

  数据分析与知识发现最新期刊目录

融合莱文斯坦距离算法的专利交易行为识别方法及实证研究————作者:冉从敬;丁群哲;宋永辉;王福新;

摘要:[目的] 针对专利转让数据中难以区分发生实质性专利交易问题,提出一种系统性方法,通过融合多种基于莱文斯坦距离算法,较为准确地识别出发生实质性交易的专利行为,并探讨其技术特征差异。 [方法] 针对不同专利转让场景,提出了一套筛选流程方法。其关键步骤之一是利用基于编辑距离算法的多种文本相似度方法,计算交易双方姓名和地址的相似度分值,并结合设定阈值剔除内部资源重新配置的非市场化交易记录。同时,通过实证...

嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成研究————作者:向博文;柴梦丹;向卓元;

摘要:[目的]鉴于司法裁判文书摘要要求与原文在案件事实、法律适用等要素保持一致,提出嵌入司法要素事实一致性评测的中文司法裁判文书摘要生成方法。[方法]首先定义司法裁判文书摘要事实一致性判定的原则和方法;其次,确定数据增加、事实一致性纠错和测评等预处理流程;然后,分别构建分段抽取模型和引入司法要素知识图的生成式摘要模型,并在CAIL2020数据集上进行实验。[结果] FC-JDSM模型生成的摘要在指标RO...

基于静态与动态异构图嵌入的全局引文推荐研究————作者:张晓娟;吉如意;

摘要:[目的] 提出一种基于静态与动态异构图嵌入的全局引文推荐框架,以期提高引文推荐的准确度。 [方法] 本文首先分别构建静态加权异构网络与时序异构网络。在静态异构网络中,利用混合随机游走和skip-gram模型生成能捕捉网络局部与全局信息的节点嵌入;基于所构建的时序异构网络,首先利用基于元路径的随机游走获得元路径实例,再建模异构图中的时态演化特征,以此获得图中节点的嵌入式表示。然后利用联合训练与独立...

基于图注意力网络的自适应社会化序列推荐方法研究————作者:徐建民;王力;张雄涛;

摘要:[目的]现有社会化序列推荐研究容易引入与用户兴趣不相似的好友信息,且未能考虑不同用户受社交影响的程度存在差异,致使推荐性能受限。为弥补现有研究不足,提出一种基于图注意力网络的自适应社会化序列推荐方法。[方法]首先,利用自注意力机制对用户行为序列建模,获取用户动态兴趣表示。其次,设计一种正则化限制的图注意力网络聚合好友特征,以准确建模用户社交兴趣表示。最后,提出一种基于注意力的自适应融合方法,准确融...

面向短文本-多领域科技实体抽取的提示工程构建研究————作者:孙蒙鸽;王燕鹏;付芸;刘细文;

摘要:[目的] 本文以科技情报短文本为实验数据,研究大语言模型在多领域科技知识实体抽取任务中提示工程的构建方法,旨在解决短文本语义不足和领域多样性对科技实体抽取的挑战。[方法] 针对科技情报短文本语义浓缩导致的上下文信息不足、知识实体领域跨度大、以及实体边界模糊等问题,本文提出一种基于知识提示学习的Scientific Prompt知识实体抽取策略。该策略结合BERTopic方法,将领域知识动态引入提示...

基于用户兴趣聚集性和层次性分布特征建模的序列推荐方法————作者:马莹雪;甘明鑫;胡磊;

摘要:【目的】为解决深度学习推荐方法缺乏对用户兴趣分布特征建模,不能充分刻画用户偏好的问题,提出一种基于用户兴趣聚集性和层次性分布特征建模的序列推荐方法。【方法】利用注意力网络和LSTM从行为序列获得用户和项目的向量表示,学习用户兴趣分布的位置中心和边界半径,通过双半径刻画兴趣分布的层次性和聚集性;通过拟合候选项目特征与用户兴趣分布中心的距离与交互概率预测用户偏好;融合基于神经网络的行为预测和基于兴趣模...

面向AI换脸诈骗的受骗风险识别研究————作者:周胜利;徐睿;陈庭贵;汪邵杰;

摘要:【目的】为解决AI换脸诈骗过程中多模态特征表征不足的问题,提出面向AI换脸诈骗的受骗风险识别模型FSFRI,有效融合多模态特征提升受骗风险识别效果。【方法】FSFRI综合欺诈信息的生成和传播过程,从中提取伪造人脸视频帧特征、流量描述特征、流量负载数据特征和流量时序特征,再通过特征融合模块实现跨模态特征的互补融合,最后通过风险识别模块实现受骗风险的识别。【结果】在模拟实验生成的数据集中,FSFRI取...

基于实体关系协同推理的零样本关系抽取模型————作者:谢威;夏鸿斌;刘渊;

摘要:[目的]运用深度学习与对比学习方法解决目前零样本关系抽取任务中完整实体信息与关系信息交互不够充分的问题。[方法]提出了一种基于对比学习的联合实体关系信息的零样本关系抽取模型(JCL)。首先,使用数据增强技术对原始的输入文本进行处理,增加模型得到的有效信息。其次,通过增强交叉注意力模块将实体对深度融合与关系联合处理,提取实体与实体间的交互信息和实体与关系语义间的交互信息,放大不同关系在嵌入空间内的细...

跨学科术语语义差异现象研究————作者:姚元璋;徐健;

摘要:[目的]分析跨学科领域的术语词在不同学科间存在的语义差异现象,挖掘语义差异现象的原因。[方法]使用预训练深度学习模型实现自动化地识别和量化术语的语义差异,设计构建语义差异程度指标定量衡量语义差异程度,并对术语所涉及学科进行共现分析。[结果]基于预训练模型的语义差异现象识别准确率达到0.8193,所构建度量指标能够对语义差异进行有效量化。[局限]研究局限于中文术语的语义差异,选取术语学科跨度范围有限...

基于交互式语义增强的中文文档级事件抽取模型研究————作者:张双宝;成全;曾艳;

摘要:[目的]为充分挖掘中文文档之间的语义关联信息,实现基于交互式语义增强的文档级事件抽取效果的提升。[方法]本研究提出了一种交互式语义增强的中文文档级事件抽取模型CSDEE,利用注意力机制构建跨文档的交互式语义网络,增强实体识别性能,再经由文档编码与事件抽取信息解码完成事件抽取任务。[结果]实验结果表明,CSDEE模型在事件抽取的精确率、召回率和F1值上分别达到80.7%、84.1%和82.3%,优于...

面向美国国会听证会的中国科技安全风险智能化识别——基于大语言模型等技术————作者:邓航宇;唐川;蒲云强;敖丽娟;王婉婧;

摘要:[目的]针对美国国会听证会文本数量大、涉及范围广、口语化表达多等特点,本文提出一个智能化识别中国科技安全风险的方法流程。[方法]本研究从听证会数据特征与情报分析人员实际需求出发,利用大语言模型等技术实现文本过滤、摘要生成以及智能问答等模块并将其有机结合在一起,从而达成高质量的智能化识别。[结果]本研究以第118届国会听证会文本为对象验证关键模块的有效性。文本过滤的F1值、摘要生成的ROUGE-Ls...

基于大语言模型的政策知识库构建与政策比较研究——以惠企政策为例————作者:段永康;赵广宇;耿骞;曹涵维;靳健;

摘要:[目的]现有政策分析方法依赖大量人工标注和对齐比较,导致效率低下且易出错。本研究旨在通过构建结构化政策知识库,提升政策信息检索效率,实现政策智能分析与对比,为政策制定提供精准决策支持。[方法]本研究以惠企政策为例,提出了一种基于大语言模型的框架,用于高效比较相关政策。该框架包括以下步骤:1)知识库构建;2)检索与存储;3)答案生成。[结果]通过对国家、北京、上海、深圳四地惠企政策数据集验证,本文提...

基于重叠社区的谣言抑制最大化研究————作者:徐梦瑶;孙斌;江涛;崔家豪;

摘要:[目的]针对谣言抑制中对节点位置与社区重叠特性考虑不足的问题,提出一种谣言抑制框架RSM-OC。[方法]该框架创新地提出使用信任中心值来精准识别关键节点,结合重叠节点构成候选种子集,最后利用遗传算法优化正种子节点集,并采用单向状态转换的线性阈值模型模拟谣言与真相的博弈。[结果]在四个真实数据集上的实验显示,RSM-OC方法相较于基线算法的谣言抑制率平均提升23.3%,真相传播范围平均扩大两倍,特别...

考虑样本语义特征与类簇结构特征的IDCCM文本深度聚类方法研究————作者:李婕;张智雄;

摘要:[目的]深度综合关联挖掘图像聚类方法DCCM局限于基于样本语义特征进行聚类,无法充分利用类簇结构特征中蕴含的具有高判别性的类间结构关系,制约了DCCM聚类性能的进一步提升。 [方法]本文提出融合类簇结构特征的改进模型Improved-DCCM。首先,以DCCM作为基础聚类模型,引入基于高斯分布的文本数据增强策略,继承DCCM的样本语义特征挖掘能力。在此基础上,通过样本变量与类簇变量之间的互信息损...

生成式AI对话中的提示词策略有效性探究————作者:周洁;王东毅;代沁泉;夏苏迪;

摘要:[目的]本研究旨在探索普适的生成式AI有效提示词策略,以提升用户的交互技能和优化使用体验。[方法]采用Q方法,邀请用户根据其在通用场景、跨任务及跨模型的生成式AI使用经验,对不同提示词策略的有效性进行排序,从而识别出具有普适性的有效提示词策略类型。[结果]研究发现,最有效的提示词策略包括明确问题、明确目标和提供背景信息。普适性有效提示词策略可分为三类:明确需求与精确指引型、清晰解释与逻辑排序型、拆...

基于可解释自适应加权Stacking集成学习的电影IP衍生品开发效果预测————作者:倪渊;李翔宇;张健;董飞星;

摘要:[目的]构建可解释集成学习模型,为预测电影IP衍生品的开发效果提供新的决策方式。 [方法]基于价值链理论解析电影IP衍生品开发过程,构建预测指标体系。基于KLLB模型对影响因素进行提取筛选、构建预测标签。提出基于AWStacking的开发效果预测模型。 [结果]以XGBoost、CatBoost、RF为基学习器,LR为元学习器的AWStacking算法预测效果最好,宏平均精确率为0.8699,...

基于多源数据间主题时序扩散网络的研究前沿探测方法研究————作者:李广;吴新年;宁宝英;

摘要:[目的] 设计基于多源数据间主题时序扩散网络模型,进行动态计量数据源权重的研究前沿探测。 [方法] 通过分析前沿主题的时间、扩散和网络特征,提出基于主题时序扩散网络的研究前沿探测方法体系、指标体系和立体判别坐标图,最后在人工智能领域进行实证分析。 [结果] 动态计量出多源数据权重(战略规划0.301、科技报告0.234、基金项目0.124、专利文献0.122、会议论文0.113、期刊论文0.105...

基于时空图结构学习与路线特征增强的行程时间预测研究————作者:潘晓;董慧;陈晓;

摘要:[目的]针对目前多任务行程时间预测研究中,存在的刻画路段波及效应影响范围的灵活性不足,以及在标注数据受限情况下模型学习能力较差的问题,提出一种基于时空图结构学习与路线特征增强的行程时间预测方法。[方法]该方法首先利用自适应机制初始化基础的时空图结构,并构建基于Encoder-only的学习组件,灵活且深入地捕捉全域路网范围内路段间的时空交互依赖关系,从而生成高质量的波及效应时空图及相应的时空特征表...

基于Rank一致性与假设检验方法的专利语义相似度测度效果评价方法及其应用————作者:周健;吕璐成;李佳政;赵亚娟;

摘要:【目的】构建专利语义相似度测度效果量化评价方法,实现多种专利语义相似度测度方法的客观评价。【方法】基于同一分类层级下专利语义相似度更高的思想,兼顾时间与技术领域因素自动构造测度效果评价数据集,设计Rank一致性指标指标和假设检验方法来构建针对不同向量化模型的专利语义相似度测度效果评价方法,并构建中文和英文专利数据集进行评价方法的实证。【结果】本文选择基于L1距离的Rank一致性指标与U检验进行了实...

基于RF-ISSA-SVM和SHAP的疾病诱因可解释性模型—以肥胖症为例————作者:马捷;孙文晶;郝志远;

摘要:[目的]本研究旨在构建具有可解释性的高质量疾病预测模型,通过识别影响疾病形成的关键诱因,并进一步分析诱因对于疾病的作用方式,从而为辅助诊断和精准医疗赋能助力。 [方法]以肥胖症为研究对象,首先,利用随机森林模型在疾病数据的多维特征中筛选出最具代表性的特征子集;其次,通过构建增强型麻雀搜索算法实现支持向量机核参数与惩罚系数的自适应获取;然后,同步应用优化后的支持向量机模型对数据样本进行预测分析,并...

  相关科技期刊推荐

  核心期刊推荐

SCI服务

搜论文知识网 冀ICP备15021333号-3