一种信用数据处理方法、介质及电子设备与流程

    技术2025-05-15  16


    本发明属于数据处理,具体是一种信用数据处理方法、介质及电子设备。


    背景技术:

    1、目前全球征信机构对于消费者信用报告中替代数据的需求不断增长。以美国为例,大约90%的18岁以上的消费者在一个或多个征信机构都有信用档案,有2600万消费者没有信用档案,另有2000万消费者的档案“太薄”或“太旧”,无法获得传统的信用评分。同样以中国为例,按照2019年统计全国纳入征信系统的有9.9亿人,虽然数量庞大,但是有完整征信记录的人群占比非常少,并且仍然有几亿人完全没有征信记录。这些“信用隐形人”都有共同的特点,大多数都是低收入群体,经常陷入恶性循环,不能获得信贷资格。

    2、为了使得这部分群体也能获得金融服务,很多机构和用户群体都在呼吁开发部分或者全部的替代数据去替换标准信用报告中的信用评分,这些“替代”数据可以增强征信机构的服务能力。

    3、目前现有的信用替代数据的分析方法和技术方案还未成熟,研究时间较短,还处于政策研究和初步开放阶段。但是未来全面推行已经势不可挡,国内央行的二代征信报告预留了个人公共信息采集的字段,现在对于国内外比较认同的信用替代数据包括:代理类信用替代数据,用于衡量消费者在其他重要财务义务方面的表现,例如月租金、水电费和电信支付,非财务个人数据,可能包括从消费者的数字足迹中收集的各种个人数据,例如他们的社交媒体喜好和兴趣、他们的手机使用情况,甚至他们的购物模式,银行数据,包括从消费者的指标,储蓄和货币市场账户中提取的资讯,例如平均每月的流入和流出等。

    4、这些非传统的数据被认为是传统信用报告的替代品,这些不同类型的数据已被证明具有一定程度的预测能力,但是在国内部分互联网技术公司公布的方案在实施层面还是比较困难,目前暂无完整的技术方案,目前针对“代理”,“非财务个人数据”和“银行数据”方式的信用替代数据缺失标准化的业务口径,未能有统一的数据分类;国内各家机构缺失统一的“建库”技术方案和技术标准,对数据采集的边界尚未厘清,且在基础环节会经常出现数据录入错误、信息缺失、冗余重复、信息主体不明等问题,数据质量难以把控。


    技术实现思路

    1、鉴于上述问题,本发明提出了为克服上述技术问题或者至少部分解决上述技术问题的一种信用数据处理方法、介质及电子设备。

    2、为实现上述目的,本发明采用了如下技术方案:

    3、在本申请的第一方面,提供一种信用数据处理方法,所述方法包括:

    4、搭建统一的标准化数据口径,梳理代理类信用替代数据、非财务个人数据类信用替代数据和银行数据类信用替代数据,建立统一的数据分类;

    5、数据收集,数据来源包括政府、公共事业部门、金融机构和互联网,以结构化数据为主,另外还包括从互联网捕获的以非结构化数据为主的数据;

    6、数据处理,通过标注、文本挖掘技术,建立非结构化数据的元数据,并与结构化数据整合,供分析使用;

    7、数据加工,包括主体识别、主体整合、主体归并和主体关系挖掘;

    8、搭建基础数据库和数据仓库。

    9、可选的,所述代理类信用替代数据是需要定期付款的非贷款产品相关的付款数据,所述非财务个人数据类信用替代数据是从消费者的数字足迹中收集的各种个人数据,所述银行数据类信用替代数据是从消费者的支票和储蓄账户中获得的数据。

    10、可选的,数据收集收集的数据包括半结构化数据和非结构化数据,所述数据处理主要是为半结构化数据和非结构化数据提供捕获、管理、保护和交付服务,同时采用hadoop技术,通过与结构化数据的关联,拓展海量的非结构化数据处理,其中非结构化数据和半结构化数据实现方式基于ecm软件或者基于分布式文件系统hdfs开发实现;基于hdfs或者hbase存放非结构化和半结构化数据,hive作为数据仓库工具,提供基于sql的操作手段,以map-reduce作为分布式并行计算框架,支持hive任务的执行。

    11、可选的,所述搭建基础数据库和数据仓库包括:

    12、设置准备区保存从各个数据源采集的近期数据;

    13、设置数据加工层,在数据加工层设置数据仓库,数据仓库以基础数据整合和汇总数据加工为主。

    14、可选的,所述数据仓库用于整合全局信息,所述数据仓库包括基础数据层、汇总加工层和集市层。

    15、可选的,所述数据仓库中的数据包含历史信息,历史信息记录了各个阶段的数据,仓库数据不做删除,通过这些数据,对征信中心的发展历程和未来趋势做定量分析和预测。

    16、可选的,通过并行数据库技术提高大容量数据的访问速度,基于并行计算的体系架构,支持数据分区计算的实现包括:

    17、采用share-nothing的架构,其中每个分区都具有自己的资源,包括内存、cpu、磁盘、自己的数据、索引、配置文件和事务日志;

    18、使用hash算法,将数据均匀的分布到各个分区;

    19、客户端连接到数据库分区建立连接后,该数据库分区就是协调节点,协调节点将任务分配给多个副代理处理。

    20、可选的,使用dpf或者gp技术进行分区,提高基础数据库和数据仓库的访问速度。

    21、在本申请的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,采用了第一方面中任一项所述的方法。

    22、在本申请的第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,所述处理器加载并执行计算机程序时,采用了第一方面中任一项所述的方法。

    23、综上所述,由于采用了上述技术方案,本发明的有益效果是:

    24、本发明建立了统一的数据标准口径,解决了代理类信用替代数据、非财务个人数据类信用替代数据和银行数据类信用替代数据标准化缺失的问题;建立通用的技术方案和技术标准,解决国内各家机构缺失统一的建库方案的问题。



    技术特征:

    1.一种信用数据处理方法,其特征在于,所述方法包括:

    2.如权利要求1所述的一种信用数据处理方法,其特征在于,所述代理类信用替代数据是需要定期付款的非贷款产品相关的付款数据,所述非财务个人数据类信用替代数据是从消费者的数字足迹中收集的各种个人数据,所述银行数据类信用替代数据是从消费者的支票和储蓄账户中获得的数据。

    3.如权利要求1所述的一种信用数据处理方法,其特征在于,数据收集收集的数据包括半结构化数据和非结构化数据,所述数据处理主要是为半结构化数据和非结构化数据提供捕获、管理、保护和交付服务,同时采用hadoop技术,通过与结构化数据的关联,拓展海量的非结构化数据处理,其中非结构化数据和半结构化数据实现方式基于ecm软件或者基于分布式文件系统hdfs开发实现;基于hdfs或者hbase存放非结构化和半结构化数据,hive作为数据仓库工具,提供基于sql的操作手段,以map-reduce作为分布式并行计算框架,支持hive任务的执行。

    4.如权利要求1所述的一种信用数据处理方法,其特征在于,所述搭建基础数据库和数据仓库包括:

    5.如权利要求1所述的一种信用数据处理方法,其特征在于,所述数据仓库用于整合全局信息,所述数据仓库包括基础数据层、汇总加工层和集市层。

    6.如权利要求5所述的一种信用数据处理方法,其特征在于,所述数据仓库中的数据包含历史信息,历史信息记录了各个阶段的数据,仓库数据不做删除,通过这些数据,对征信中心的发展历程和未来趋势做定量分析和预测。

    7.如权利要求6所述的一种信用数据处理方法,其特征在于,通过并行数据库技术提高大容量数据的访问速度,基于并行计算的体系架构,支持数据分区计算的实现包括:

    8.如权利要求1所述的一种信用数据处理方法,其特征在于,使用dpf或者gp技术进行分区,提高基础数据库和数据仓库的访问速度。

    9.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器加载并执行时,采用了权利要求1-8中任一项所述的方法。

    10.一种电子设备,包括存储器、处理器及存储在存储器中并能够在处理器上运行的计算机程序,其特征在于,所述处理器加载并执行计算机程序时,采用了权利要求1-8中任一项所述的方法。


    技术总结
    本发明提供的一种信用数据处理方法、介质及电子设备,所述方法包括:搭建统一的标准化数据口径,梳理代理类信用替代数据、非财务个人数据类信用替代数据和银行数据类信用替代数据,建立统一的数据分类;数据收集,数据来源包括政府、公共事业部门、金融机构和互联网;数据处理,通过标注、文本挖掘技术,建立非结构化数据的元数据,并与结构化数据整合;数据加工,包括主体识别、主体整合、主体归并和主体关系挖掘;搭建基础数据库和数据仓库。本发明建立通用的技术方案和技术标准,解决国内各家机构缺失统一的建库方案的问题。

    技术研发人员:王飞
    受保护的技术使用者:北银金融科技有限责任公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-30683.html

    最新回复(0)