课题负责人:XXX
承担单位:XXX大学信息科学与技术学院
起止时间:2023年3月1日至2024年2月28日
一、主要研究内容与完成情况
本课题围绕古籍文献数字化中的关键识别难题,系统研究了适用于复杂版面、多样字体的古籍文献自动识别方法。具体完成了以下工作:
1. 数据集的构建与增强:针对公开古籍数据集稀缺且质量不均的问题,自主构建了一个包含超10万张古籍图像样本的专用数据集“AncientText-10K”,覆盖了宋、元、明、清等多个朝代的刻本、写本及拓片,并采用了随机噪声、模糊、仿射变换等手段进行了数据增强。
2. 模型架构的改进与优化:以CRNN(卷积循环神经网络)为基础框架,引入了注意力机制和Transformer的编解码结构,提出了混合注意力模块,增强模型对古籍文字局部细粒度特征和长距离上下文依赖关系的捕捉能力。针对古籍中常见的印章、污渍等干扰,增加了空间金字塔池化层以提升模型鲁棒性。
3. 训练策略与后处理:采用了迁移学习策略,利用预训练的ResNet-50模型进行特征提取初始化,加速模型收敛。结合动态学习率调整和标签平滑技术,有效缓解了样本类别不均衡和过拟合问题。在后处理阶段,集成了基于统计语言模型的字词纠错模块,利用古籍常用语料库对初步识别结果进行校验和修正。
4. 系统实现与测试:开发了一套原型识别系统,实现了从图像预处理、文字行检测、单字识别到文本后处理的完整流程。在自建测试集上的综合识别准确率达到98.7%,在公开基准数据集CASIA-HWDB古籍子集上的准确率达到97.2%,均优于基线模型。
二、关键技术创新点
1. 提出了结合局部注意力和全局上下文注意力的混合网络结构,有效提升了模型对古籍异体字、模糊字、粘连字的区分能力。
2. 设计了一种针对古籍版面特点的弱监督文本行检测方法,减少了对精细标注框的依赖,提高了系统自动化程度。
3. 构建并开源了“AncientText-10K”数据集,为后续相关研究提供了重要的数据资源。
三、研究成果及产出
1. 在核心期刊《中文信息学报》上发表学术论文一篇,题为《融合注意力与Transformer的古籍文献端到端识别方法》。
2. 申请国家发明专利一项,名称:《一种基于深度混合注意力的古籍文字识别方法及系统》(申请号:CN2024XXXXXX.X)。
3. 完成可运行的原型软件系统一套,包含完整的源代码、训练模型及用户使用文档。
4. 培养硕士研究生两名,均已以本课题研究内容为核心完成学位论文。
四、经费使用情况(略)
本课题获资助经费XX万元,实际支出XX万元,主要用于设备购置、数据采集、差旅会议及劳务支出等,均严格按照预算执行,使用合理规范。
五、存在的问题与后续工作设想
当前模型对极端破损、墨迹晕染严重的古籍页面识别效果仍有下降,且对非汉字元素(如朱批、插画)的区分能力有限。后续工作将重点研究多模态融合技术,结合古籍的视觉与语义信息,并探索小样本、零样本学习在稀缺字体识别中的应用,以进一步提升系统的实用性和普适性。
课题负责人(签字):
年 月 日
(承担单位盖章)
年 月 日