中文信息学报

所属栏目:核心期刊 更新日期:2025-05-01 17:05:58

中文信息学报

中文信息学报

CSCD北大核心

Journal of Chinese Information Processing

期刊周期:月刊
出版地:北京市
复合影响因子:2.336
综合影响因子:1.444
官网:http://jcip.cipsc.org.cn/
主编:孙茂松
平均出版时滞:444.1220

  中文信息学报最新期刊目录

大语言模型微调方法研究综述————作者:吴春志;赵玉龙;刘鑫;司念文;张鲁飞;范昊;

摘要:近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方...

报名通知|中国中文信息学会具身智能专委会(筹)首届具身智能学术研讨会

摘要:<正>具身智能是基于物理身体进行感知、认知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为,实现类人的通用人工智能。随着大语言模型(简称大模型)的发展,大模型驱动的具身智能研究逐渐兴起,其任务泛化能力和领域通用性,为具身智能的感知、推理和执行等研究带来了技术突破的希望和可行性技术路线,近期的具身智能研究已经尝试了大模型的调用和整合技术,并验证了良好...

Step2Vec:面向动力学传播的网络表示学习方法————作者:陈奇;焦鹏飞;王震;鲍青;

摘要:网络表示学习是对节点的网络结构的一种分布式表示方案,目前被广泛应用于节点分类、社团发现和边关系预测等任务中。然而网络表示学习对网络传播过程中节点状态的估计仍是一个开放性的问题。经典的网络表示学习方法在对该问题上的应用效果不佳,因此该文提出了基于动力学传播的采样方法,称为Step2Vec逐步采样方法。Step2Vec通过结合网络传播过程,对节点的网络结构信息进行提取并训练。该文分别将Step2Vec...

NCIFD:面向大模型的民族文化微调数据集————作者:罗鹤;张廷;孙媛;朋毛才让;达哇才仁;

摘要:在大语言模型快速发展的挑战下,民族文化研究及传播需要更多的投入。其中,构建高质量的民族文化数据集不仅能促进民族文化传播,还能提高大语言模型在特定文化环境中的精准度和适应性。为了构建高质量的民族文化指令遵循数据集,该文面向民族文化领域,收集整理了《中国民族百科全书》《中国服饰大典》等18本民族文化相关书籍,进行清洗过滤之后,基于Self-QA框架,使用大语言模型自动生成问答对。同时根据书籍的内容,人...

利用词链提高文档级神经机器翻译的词汇翻译一致性————作者:雷翔宇;李军辉;

摘要:近年来,各种上下文感知模块的引入,使得文档级神经机器翻译(Document-level Neural Machine Translation, DNMT)取得了令人瞩目的进步。受“一个语篇一个翻译(one translation per discourse)”的启发,该文在代表性DNMT模型G-Transformer的基础上,提出一种有效的方法对源端文档中重复出现的词汇进行建模以缓解词汇翻译不一致...

一种预测未知节点的融合影响力最大化的知识可迁移GNN模型————作者:曾志林;张超群;吴国富;汤卫东;李灏然;李婉秋;

摘要:在社交网络中,大多数节点的数据不完整,已有的方法对这些节点的预测效率较低。鉴于此,该文提出一种融合影响力最大化的知识可迁移图神络网络(Graph Neural Network, GNN)模型VRKTGNN,其是对预测社交网络未知节点的KTGNN模型的改进。VRKTGNN根据用户的关注去构建一个图结构数据,由改进的投票排名算法VoteRank++选出图数据中影响力最大的节点对未知节点进行知识迁移,通...

基于多意图融合框架的联合意图识别和槽填充————作者:尹商鉴;黄沛杰;梁栋柱;何卓棋;黎倩尔;徐禹洪;

摘要:近年来,多意图口语理解(SLU)已经成为自然语言处理领域的研究热点。当前先进的多意图SLU模型采用图的交互式框架进行联合多意图识别和槽填充,能够有效地捕捉到词元级槽位填充任务的细粒度意图信息,取得了良好的性能。但是,它忽略了联合作用下的意图所包含的丰富信息,没有充分利用多意图信息对槽填充任务进行指引。为此,该文提出了一种基于多意图融合框架(MIFF)的联合多意图识别和槽填充框架,使得模型能够在准确...

基于词性对齐与依存关系的中文排比句生成方法————作者:钟茂生;刘蕾;吴如萍;甘家其;周新宇;

摘要:排比句是一种常用的修辞手法,其使用具有增强气势、强调突出、层次清晰的效果。排比句生成对于文本生成具有重要意义,能够丰富文本生成的风格和形式,提升教育、广告和文学创作的质量,但目前暂无生成模型和公开的排比句语料库。为此,该文在收集和构建排比句数据集的基础上,结合排比句具有的语言学特征,提出了一种基于词性对齐与依存关系的中文排比句生成模型,称为CPG-PosDep。模型从语言学出发,首先用设定的分词、...

融合提示学习的故事生成方法————作者:倪宣凡;李丕绩;

摘要:开放式自动故事生成旨在通过输入故事的开头、大纲、主线等,得到具有一致性、连贯性和逻辑性的故事。现有的方法想要提升生成故事的质量,往往需要大量训练数据和更多参数的模型。针对以上问题,该文利用提示学习在零样本与少样本场景下的优势,借助外部常识推理知识,提出了一种融合提示学习的故事生成方法。该方法将故事生成分为三个阶段:输入故事的开头,常识推理模型生成可能的事件;根据类型不同,将事件填入问题模板中,构建...

中文动词实现状态数据集构建————作者:徐进;辛欣;

摘要:判断动词是否在现实中真实发生是自然语言理解中的重要问题,其不仅能够为事件抽取等自然语言处理应用提供支撑,也有助于更深入地理解语言。虽然动词实现状态的辨析在英文领域已有一定的研究基础,但中文领域的相关工作仍比较缺乏。一方面,中文动词实现状态缺乏标注规范;另一方面,缺乏相关的中文语料。针对目前中文动词实现状态缺乏标注规范的问题,该文在英文规范的基础上,分析《人民日报》中文语料,结合时间提示词、句式等信...

基于精调LLaMA模型的中西医概念关系对比分析方法————作者:叶淋潮;邵会会;谢振平;

摘要:中医知识的现代化与现代西医学知识可以建立深度的互通互解。在大语言模型背景下,以传统中医和现代西医的概念关系理解为切入点,该文提出一种基于精调LLaMA模型的中西医概念关系对比分析方法。研究中,首先选定中西医中一组相通的基本概念术语,并进行了相应的文本数据集构建;随后基于LLaMA模型分别对两个数据集进行精调学习,得到关于同组基本概念术语的两个大语言模型;其次,基于基本概念术语集和两个文本数据集,设...

基于标签句子重构的多语言零样本神经机器翻译————作者:陈潇;杨雅婷;董瑞;时现伟;马博;吐尔洪·吾司曼;

摘要:针对当前多语言零样本翻译的标签策略难以提供丰富的翻译方向信息和模型对语言建模能力的不足,进而导致翻译脱靶的问题,该文提出了使用标签句子重构的多语言零样本神经机器翻译方法。具体而言,首先提出了一种词级别的标签策略,在编码器端增加目标语言标签嵌入,在源语言句子每个词的嵌入表示中注入目标语言信息;其次设计了标签句子重构任务,对句子添加噪声和使用词级别的标签策略后进行重构操作,以达到增强模型语言建模能力的...

多级跨模态对齐的文本检索视频方法研究————作者:习怡萌;刘立波;邓箴;刘倩;

摘要:现有文本检索视频方法在进行跨模态对齐时,未充分考虑文本细节和复杂视觉语义间的信息交互,使检索性能受到影响。为解决此问题,该文提出一种多级跨模态对齐的文本检索视频方法。首先,将查询文本按词性进行分解并编码,同时对视频帧进行编码和聚类操作;然后,对查询文本和视频的全局编码进行对齐,获取二者间的全局语义关系;接着,对文本动词编码与视频子动作编码进行动作对齐,以实现动作关联;最后,将名词编码与经动作对齐筛...

《自然语言处理:基于大语言模型的方法》

摘要:<正>车万翔郭江崔一鸣著刘挺主审推荐人孙茂松清华大学人工智能研究院常务副院长廖湘科中国工程院院士,国防科学技术大学计算机学院教授尼玛扎西中国工程院院士,西藏大学信息科学技术学院教授李惠中国科学院院士,哈尔滨工业大学土木学院/计算学部教授2025年1月,DeepSeek(深度求索)公司开源的DeepSeek-R1模型引发全球关注——其通过纯强化学习架构创新实现的自主推理能力,在数学、代码及自然语言推...

基于孪生XLM-R模型的机器翻译双语平行语料过滤方法————作者:涂杰;李茂西;裘白莲;

摘要:在机器翻译中,模型训练使用的双语平行语料的数量和质量极大地影响了系统的性能,然而当前很多双语平行语料是从双语可比语料中利用自动过滤方法提取的。为了提高双语平行语料自动过滤的性能,该文提出基于孪生XLM-R模型的双语平行语料过滤方法,使用基于跨语言预训练语言模型XLM-R的孪生神经网络将源语言句子与目标语言句子映射到深层语义空间,利用平均池化操作获得它们相同维度的句子表征,根据句子表征间余弦距离提取...

基于预训练语言模型的IPC与高相似CLC类目自动映射————作者:黄敏;魏嘉琴;李茂西;

摘要:专利和图书期刊是产业界与学术界的科技创新信息来源,专利通常采用国际专利分类法(International Patent Classification, IPC)标识,而中文图书期刊则采用中国图书馆分类法(Chinese Library Classification, CLC),不同的分类标识体系给专利、图书期刊信息整合共享和跨库检索浏览带来了挑战。针对IPC类目和高相似的CLC类目难以准确映射的问...

大语言模型故事理解能力评价数据集————作者:闫国航;郭亚鑫;谭红叶;张虎;

摘要:故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现于原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,该文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程:先进行常识...

中文大模型生成式摘要能力评估————作者:王俊超;樊可汗;霍智恒;

摘要:从传统的纸带机到当今大语言模型时代,自动文本摘要技术发展经历了多次质的飞跃并不断提升。但在中文摘要方面,由于其语言特点及叙述方式,机器生成的摘要难以与人工撰写的相媲美。如今,众多国产开源大模型均加强了对中文语料的训练并展示出较为优秀的成果。为了评估这些开源大模型在中文摘要任务上的实际表现,该文筛选ChatGLM2-6B、Baichuan2-7B和InternLM-7B等中文大模型作为研究对象,在中...

面向垂直领域上下文特性的少样本关系抽取方法————作者:任浩;李韧;杨建喜;肖桥;杨小霞;蒋仕新;王笛;

摘要:现有的少样本关系抽取解决方案主要基于通用领域语料,尚未充分考虑垂直领域中存在的长文本、关系重叠等问题,面对垂直领域上下文时其关系抽取性能有待提升。针对上述问题,该文以桥梁检测领域和医疗健康领域为背景,提出了一种面向垂直领域上下文特性的少样本关系抽取方法。该方法首先通过预训练语言模型RoBERTa_chinese_base对文本进行编码,再分别在双向长短时记忆网络(BiLSTM)和实体特征提取模块中...

自监督知识增强的零样本文本分类方法————作者:林铄浩;陈炜;万怀宇;蒋致书;赵书源;廖梦祈;张芷毓;

摘要:为了改善零样本文本分类任务中无标签数据存在的类别不平衡问题,并充分发挥预训练语言模型在该任务中的推理能力,该文提出了一种自监督知识增强的零样本文本分类方法(Knowledge Enhanced Zero-shot Text Classification, KE0TC)。该方法利用提示模板引导大规模预训练语言模型扩展类别标签并构建知识图谱,通过图结构进行去噪和自监督数据生成;然后,采用段落采样等方式...

  中文信息学报来自网友的投稿评论:

  • zhaohhhh

    计算机中文T1级期刊,中科院软件研究所主办。稿件一大部分都是会议过来的,期刊对文章质量要求特别高,实验要充足。最重要的,感觉需要较为新颖的创新点,模型拼接的大概率不好使。专家评审很有针对性,编辑服务态度也都很好,中文NLP领域良心期刊。

    2023-11-23 15:37
  • 画个圈圈兜住幸福

    主要接受自然语言处理方向的中文期刊,文章质量在中文期刊中中上等。22年11月11日投稿,23年2月13日发录用通知。总耗时3个月左右,两个评审的意见都很有道理,对期刊修改有不少帮助。编辑部的速度非常快,基本当天投稿次日就能推进流程。版面费3600。整体的投稿流程和感受都很不错。

    2023-02-15 19:17
  • 画个圈圈兜住幸福

    投稿了一些 但是更多的是通过会议推荐过去的,发表速度比较慢

    2022-05-10 18:13
SCI服务

搜论文知识网 冀ICP备15021333号-3