2026年全国两会已正式启幕,本报第一时间聚焦文化、出版等领域的代表、委员,他们扎实履职尽责,积极建言献策,期待通过自己的声音,关注问题、激发思考、主动作为,为助力文化强国建设作出贡献。本报将陆续推出相关专题报道,敬请关注。
当前人工智能应用快速发展并广泛影响着社会各个领域,不仅深刻改变着人们的生产生活,更将对国际文化新秩序和知识生态新范式的发展格局产生深远影响。
全国人大代表陈国桢表示,“人工智能已成为百年大变局背景下,国家发展、大国博弈的重要战场,而高质量的数据支撑,正是人工智能发展的核心基础。”陈国桢围绕中华文化数据标注议题提出四点建议,为AI时代守护文化主权、推动中华文化传承发声。
高度认识中华文化
数据标注的战略意义
陈国桢直言,人工智能的功能强弱取决于数据资源状况,其伦理指向则取决于文化数据导向。“在诸多行业数据中,只有系统的文化数据具有普适性,是整个人工智能的基础与灵魂。”
他进一步解释,充分发掘中华优秀文化资源的数据要素,加快推进中华文化数据标注,不仅是构建人工智能技术伦理体系、抢占文化数据主权制高点的必备条件,更能通过标注构建全球文化知识图谱,让中华文化从“模糊的东方印象”蜕变为可参与、可理解、可消费的全球公共知识产品。
“这对于弘扬社会主义核心价值观、确保文化自主自立安全,推进中华文化由民族语言向世界通用语言转化,逐步确立中华文化国际主流文化地位,破解近代以来西方文化主导下的人类发展困局,建设人类命运共同体,具有极为重大的战略意义。”
补齐中华文化数据
短板已成当务之急
陈国桢在调研过程中观察到,人工智能所需的文化数据是网络化的结构性数据,而这正是我们的薄弱环节。
“据阿里研究院2024年发布的《大模型训练数据白皮书》显示,互联网上中文语料与英文语料占比极为悬殊:英文高达59.8%,而中文仅占1.3%。”陈国桢补充道,尤其是文言文、传统文化内容、本土主流媒体文本等反映中式价值观的语料严重匮乏,且这类语料无法通过机器翻译弥补,其短缺可能成为制约中国大模型本土化发展的核心短板。
构建支持体系
推进中华文化数据标注快速发展
陈国桢认为,中华文化数据标注是一项庞大的系统工程,需要国家在政策、技术、资金等多维度构建系统性支持体系,推进其健康顺利发展。
在政策层面,要制定国家级发展战略,明确数据标注规范、技术路线与开放共享机制,解决文化机构数据孤岛问题。在技术支撑方面,要建设国家级文化数据标注中心,配备超算资源处理高精度文物扫描数据,搭建分布式标注平台,支持远程协作标注;设立国家文化标注工程实验室,开发专用标注工具;构建“文化知识图谱引擎”,实现自动关联标注。在资金支持上,设立文化标注专项基金,鼓励各类产业基金、专业投资机构加大投资力度,引导社会资本有序参与。
统筹安排,抓好示范
尽快扭转被动局面
中华文化不仅体量庞大、构成复杂,而且肩负任务重大,推进数据标注必须确保重点、抓好示范、稳步推进。
陈国桢强调,首先要依轻重缓急分类实施,优先利用古典诗词、二十四史、诸子百家等现有古籍整理成果,尽快实现中华文化数据标注主题化、体系化、网络化、成规模;同时优先采集与标注地域文化、少数民族文化,丰富中华文化内涵,巩固民族团结。
其次,要坚持全要素标注,充分发挥数据标注的综合效益。把中华文化数据标注作为系统工程,既要完成其对人工智能的数据支撑,还要打造精要化、主题化、体系化资源供给平台,实现一次标注、多方使用,推动中华文化更广泛传播。
最后,要建立基地、抓好示范,以点带面推动健康发展。中华文化数据标注有着明显的独特性和更高的标准要求,特别是其“微言大义”的传统,标注难度更高,不能走各立炉灶、从零做起的老路。
陈国桢表示,“河南学者刘占锋团队长期坚持中华文化精要主题化重构,与当今数据标注异曲同工,他们在中央文史研究馆、北京大学、中国出版集团等多家单位专家学者指导下,初步创建出5万多个多层次主题类目体系框架,重构成果得到我国学界高度评价。”他建议以该团队为基础组建国家中华文化标注基地,加强指导、提供支持,明确标准、规范流程,总结经验后逐步推广,尽快补齐短板、扭转被动局面。
(转载自中国出版传媒商报)
扫描二维码 分享本页