【技术分享】数据模型:促进政务数据融合 提升政务数据质量

发布时间:2020年08月29日

  
                                   

导读

             

         

       

 

     

 

   

 

            

 “要运用大数据提升国家治理现代化水平”“要运用大数据促进保障和改善民生”“要切实保障国家数据安全”这些都是习近平总书记对于网络强国的战略思想和建设数字中国的决策部署。从IT(Information Technology,信息技术)时代到DT(Data Technology,数据技术)时代,我们经历了从数据生产到数据挖掘,数据越来越成为重要的资源,它是新时代的“石油”,也是新能源、新燃料

              

 

               img1    

          

▲图片来源:钛媒体

          

 

          

2020年4月9日,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》首次把数据要素纳入进来,强调了数据作为生产要素的重要性。而数字政府建设也已经从以“信息化”为核心的1.0时代,迈向了以“数据化”为核心的2.0时代,对于数据的要求也是更进一步、更深一层,人们开始回归到数据的本源——“数据模型”之中

      

 

   

 

                                                        

01

                        

           

       

            

什么是数据模型?

       

           
              

一般来说,数据模型所描述的内容包括三个部分:数据结构、数据操作、数据约束。数据模型按不同的应用层次分成三种类型:分别是概念数据模型、逻辑数据模型和物理数据模型。其实在现实生活当中我们见过最多的模型就是房屋建筑模型,通过平面图能够清楚地看见房屋的布局、构造、平米数、位置信息等等。这些信息全部都由符号标注,无论是后期的装修还是对于房屋户型的展示,都是最必不可少的要素之一。

    

 

              img2   

       

▲图片来源:摄图网

       

 

       

简单来说,数据模型是用来描述数据组织数据和对数据进行操作,是对现实世界数据特征的描述,并且便于计算机实现的标准符号的集合。“城市大脑”“数字政府”“智慧城市”都离不开数据模型的建立。以政府社保业务举例来说,根据社会保障类型包括医疗保险、养老保险、失业保险、工伤保险、生育保险、社会福利、社会救助等事件信息。其中每一个事件信息又可由多个字段构成,如工伤保险可以包括身份证号码、工伤证号、工伤类型、伤残等级、补助金额、补助领取时间等字段。不难看出,数据模型是政府业务层面在计算机系统(数据库)中的抽象表达,是大数据分析和处理的基石。

   

 

   

政务数据的体量非常庞大,通常来源于各类政务信息资源的数据聚合。在各类政务信息系统建设和运维中,对于数据质量的重视程度不高,导致数据质量参差不齐、数据碎片化、数据系统多样。如果没有数据模型,数据使用方就很难看到现有的政务数据结构,对于数据的需求也很难表述,无法提升海量政务数据共享的时效性,实现政务数据的高度融合与互通及政务数据可视化。

   

 

   

 

           img3   

       

▲图片来源:摄图网

       

 

                                                        

02

                        

           

       

            

数据模型的特点

       

           
          

1、数据模型是符号集合,能够表示数据需求和数据结构。

   

2、数据模型可形象的、直观地揭示事物的本质特征,便于建造数据库。

   

3、数据模型简单易懂、标准统一,具有标准的模型语言,实现快速沟通。

   

4、数据模型便于计算机实现,能够在数据库中将现实世界中的客观事物转化成能被计算机理解的程序语言。

       

 

                                                        

03

                        

           

       

            

为什么需要数据模型?

       

           
                                        

促进数据融合

                  

             
       

       

(1)在2002年7月,国家信息化领导小组制定的《我国电子政务一期工程建设方案》中首先明确了建设人口、法人单位、自然资源和空间地理、宏观经济四大基础信息数据库,以加强政务资源之间的整合、共享与交换。对此中国科大智慧城市研究院创新性地提出了“城市生命树”的概念。城市生命树包含了自然人和法人全息数据模型,即“自然人从生到死”和“法人从申请到注销”这个生命周期过程中所产生的全部信息。如果我们能够将这些信息资源进行归纳和抽象,形成不同层面、不同维度和不同视角的业务模型大宽表,以此构建自然人和法人全息画像,用来描述、预测和展现该自然人或法人过去、现在和将来的时间和空间状态和属性变化。基于此,政府部门有望实现全面分析、感知和识别服务对象的目标,为公众提供精准化政务服务提供手段。根据城市自然人数据模型、城市法人数据模型来做数据融合,可以满足应用需要,让数据成为后期快速高效迭代以支撑更复杂的数据应用场景。

   

 

           img4   

       

▲城市生命树

       

 

       

(2)得到趋于全面、准确的数据估计。经过多年的发展建设,我国政府在建设电子政务、智慧城市、数字政府当中都取得了显著进展,政务数据虽然体系庞大、具有权威性和可信性,但很多数据没有权威主管部门,比如实有人口总数、人口居住地址、人口手机号码等,只有通过多个来源的数据融合,才能得到趋于全面、准确的数据估计

       

 

       

(3)让数据使用更方便。一方面,由于各个单位部门都有自建系统,“条块分割、各自为政、信息孤岛”的现象依然存在,数据的跨部门、跨地区、跨系统使用难度大;另一方面,各部门交换的政务数据通常是分散在多个物理表里面,且各个表之前的数据通常都是通过无业务含义的ID来进行关联,只有通过宽表融合,业务主键(比如:身份证号码、统一社会信用代码)替换ID等处理后,才能让数据使用方更方便的使用数据

       

 

           img5   

       

▲图片来源:百度

       

 

       

 

                                     

规范政务数据标准

                  

                   
     

       

       

如果说数据是一座金矿,那么数据模型就是将采集的“数据金矿”按照统一的大小、形状、质量等进行控制划分,确保储存到仓库里的金矿是符合标准并且统一的。

       

 

                                     

高可复制性,提高政务数据使用率

                  

                   
     

       

       

针对于“信息孤岛”问题,数据模型中梳理的数据具有统一标准,可复制嫁接到任何一个平台,大大提高了数据结果的跨平台、跨区域、跨系统的使用率。

       

 

                                     

让数据产生价值

                  

                   
     

       

       

通过将来源于不同部门的数据进行融合,取其精华去其糟粕,让数据更有价值、质量更高

           img6   

       

▲图片来源:摄图网

       

 

                                     

赋予政务数据智能化属性,可进化、可升级

                  

                   
     

       

       

未来数字政府建设将由数据化转向智能化,一个能够自我进化不断迭代丰富扩展的数据模型,能够为政府提供更加科学的决策依据,减少政务数据与社会之间的信息不对称,促进政府服务更快更好发展。

   

 

       

 

                                     

降低运维成本

                  

                   
     

       

       

 

    

数据模型可以让我们从整体的视角了解发展现状,让分析修改变得更加方便快捷,大大降低了维护成本。另外,未来是智能化的时代,人的寿命和能力有限,但是数据可以无限发展,7x24小时的不断学习和进步,真正实现智能化。

     

 

       

 

                                     

结语

             

         

       

 

     

 

   

 

            

本文由研究院孵化的大数据公司——安徽数安桥数据科技有限公司的伙伴主笔。长期以来,“数安桥”团队致力于解决“信息孤岛”、“数据安全使用”等难题。团队在智慧城市领域耕耘多年,了解政务各部门业务,拥有该领域多项核心技术。团队所提供的大数据共享交换、大数据互联互通、大数据安全使用等大数据解决方案,已经广泛应用于智慧城市各领域,有效解决了长久以来困扰客户的各种大数据痛点问题,