国家标准计划《基于文本数据的金融风险防控要求》由 TC180(全国金融标准化技术委员会)归口 ,主管部门为中国人民银行。
主要起草单位 中国人民银行 、中国银行业监督管理委员会 、中国农业银行 、中国金融电子化公司 、中国标准化研究院 、广东外语外贸大学 、中国科学院计算技术研究所 、北京理工大学 。
| 03 社会学、服务、公司(企业)的组织和管理、行政、运输 |
| 03.060 金融、银行、货币体系、保险 |
目的: 面对海量的网络金融文本信息,单纯依靠人工的分析很难有效满足金融风险防控需求。
本标准针对网络金融文本中蕴含的风险因素,制定金融文本中事件、时间、数量等关键语义要素的抽取指南,为进一步高效开展金融风险分析和预测提供技术支撑。
意义: 金融风险分析和防控需要大量的相关数据,以自然语言形式表述的文本中存在大量的非结构化金融信息,充分挖掘相关金融信息可为金融风险防控提供丰富的数据支撑和多样化的技术手段。
金融文本中蕴含大量事件、时间、数量等信息。
时间信息是进行金融事件序列、风险趋势变化等相关分析的重要内容。
数量信息则对金融风险的定量化分析和预测具有不可替代的作用。
此外,金融事件信息为突发事件捕捉、网络舆情跟踪、金融风险预警和监控等提供分析基础,为金融风险防控提供辅助决策支持。
。
范围: 本标准规定了金融文本中时间、事件、数据的抽取方法和技术路线。本标准适用于金融文本信息抽取、加工、分析等,其他金融文本语义要素抽取、金融文本处理、金融信息挖掘等可参照使用。 主要技术内容: 1)金融风险分析参考模型。描述了金融风险的基本分类体系、文本语义要素的基本内容、以及两者之间的映射和逻辑关联关系。 2)文本预处理。通过一定方法处理不同来源的非结构化金融文本,包括编码转换、噪音去除、中文分词、停用词去除等。 3)关键语义要素抽取。包括事件、时间、数量等信息的抽取。 4)抽取技术评价。依据某种技术指标体系,采用一定的方法和程序,对抽取的功能、特性和运行效果进行评测或验证。