国家标准计划《中文新闻语义结构化标注》由 TC352(全国中文新闻信息标准化技术委员会)归口 ,主管部门为国家标准委。
主要起草单位 文灵科技(北京)有限公司 、新华通讯社通信技术局 、北京语言大学 、东南大学 、中国互联网新闻中心 、浙江日报报业集团 、中国人民大学 、中国传媒大学 、新华网股份有限公司 。
35 信息技术、办公机械 |
35.240 信息技术应用 |
35.240.30 信息技术在信息、文献和出版中的应用 |
随着人工智能技术在新闻界的应用越来越普及,机器认知在新闻领域的应用也迎来了百舸争流的大好局面。
新闻界已不满足于仅把计算机当作一个“知识库”使用,而是要将之进化为真正意义上的“智能体”——一个会思考的“大脑”,以期让计算机更好地理解新闻语义、理解人类自然语言,突破机器思考瓶颈,实现新闻大数据的挖掘和智能化应用。
目前业内对计算机的知识结构尚未形成统一认识,例如,对“语义”“属性”“元数据”“内容结构化”等基本概念缺乏清晰的定义,遑论达成共识。
虽然人们高频率使用“语义分析”“内容结构化”“知识图谱”“知识库”“智能查询”等字面看似相同的词汇,但每个人对这些词汇的理解可能大相径庭。
由于人们通过结构化将新闻内容转换为计算机知识的方法各不相同,源于不同“作者”、拥有不同结构知识库的计算机,彼此间语义分析能力也并不兼容,在表示同一语义时,相互“看不懂”,甚至在接收同一符号集时,“理解”到完全不同的语义,为一个特定场景建立的知识库无法应用到其它场景,凡此种种不胜枚举。
正因如此,为促进人工智能产业的协调发展,新闻领域亟需制定兼具实用性和统一性的语义结构化标准,从源头规范、指导中文新闻文本内容结构化,使基于该标准构建的知识库及其支撑的语义分析方法能够相互兼容、沟通理解、互换共享。
《中文新闻语义结构化标注》就是应上述需求提出的一个基础方法类规范,其操作对象是中文新闻的海量文本内容。
标注是结构化的第一步。
标注规范是指导人或计算机生成语义结构化标识体系的通用、标准化的操作方法。
语义结构化的最终目标是实现计算机对新闻文字语义的自动识别和知识库的自动构建。
制定本规范文件可以帮助标注人员在中文新闻文字语义结构化标注过程中实现如下具体目标: 1) 所使用的术语标准化; 2) 标注的方法规范化; 3) 所产生的标识体系通用化; 基于标识体系所构建的知识库相互兼容。
《中文新闻语义结构化标注》是实现中文新闻语义结构化和语义结构标准化的重要指导性文件。
是中国人工智能发展的需要,也是中国新闻界智能化发展的需要,同时还是中国人工智能相关标准规范建设的需要。
实现中文新闻语义结构化和语义结构标准化具有重要意义。
本文件规定了新闻写作常用表达方式所包含语义的术语和标注方法,包括新闻稿件标注说明、标注预处理、语义模板标注、新闻事件语义元标注、新闻事件关键词标注,以此形成语义标识体系。本文件适用于报刊、广播、电视、通讯社、新闻网站、社交媒体等新闻内容提供商及媒体应用与研究机构为实现计算机自动识别新闻语义、生成知识库或神经网络训练集进行的标注工作。