近日,人工智能学院教师陈艳以第一作者身份在《Earth Science Informatics》期刊发表了题为“A deep learningbased method for deep information extraction from multimodal data for geological reports to support geological knowledge graph construction.”的论文,该期刊属于SCIE检索期刊,是JCR Q2分区,中科院四区。
本文提出了一种采用数据驱动的知识发现技术来分析矿产出口报告的方法。采用自然语言处理和文本挖掘、图像分割以及深度神经网络,来提取地质实体和主题信息,理解地质图对象的关联,并识别与矿化作用相关的地质表格元素关联,以支持基于一系列矿产勘探报告的矿产勘探。
本文的主要贡献包括:
(1)提出了一种端到端的信息提取算法,利用语言模型从矿产勘探报告中的多模态地质数据中提取地质实体和关系。该算法生成并构建结构化三元组信息,并发展地质知识图谱(geological KG)。
(2)提出了一种新颖的学习策略,用于从矿产勘探报告中的表格中提取和识别地质内容。该方法旨在捕捉提取的地质内容之间的内在关系,从而提供对数据的更全面理解。
(3)测试了本文构建的基于多模态数据的知识图谱,实验结果表明,构建的知识图谱可以为矿产勘探报告提供重要的地质知识查询和分析功能。
该项研究提出的方法有望扩展到不同的应用场景,并将其与特定的地质应用相结合。