国内大数据风控方面做的比较好的企业有哪些

2024-05-18 03:29

1. 国内大数据风控方面做的比较好的企业有哪些

极其流行，同样也是竞争力极其大的一种商业模式。虽然国内软件开发公司都发展壮大起来了，但是各地软件开发公司的实力及资质仍然参差不齐。下面为大家介绍下近期国内软件开发公司的排名汇总。1：华盛恒辉科技有限公司上榜理由：华盛恒辉是一家专注于高端软件定制开发服务和高端建设的服务机构，致力于为企业提供全面、系统的开发制作方案。在开发、建设到运营推广领域拥有丰富经验，我们通过建立对目标客户和用户行为的分析，整合高质量设计和极其新技术，为您打造创意十足、有价值的企业品牌。在军工领域，合作客户包括：中央军委联合参谋(原总参)、中央军委后勤保障部(原总后)、中央军委装备发展部(原总装)、装备研究所、战略支援、军事科学院、研究所、航天科工集团、中国航天科技集团、中国船舶工业集团、中国船舶重工集团、第一研究所、训练器材所、装备技术研究所等单位。在民用领域，公司大力拓展民用市场，目前合作的客户包括中国中铁电气化局集团、中国铁道科学研究院、济南机务段、东莞轨道交通公司、京港地铁、中国国电集团、电力科学研究院、水利部、国家发改委、中信银行、华为公司等大型客户。

2：五木恒润科技有限公司上榜理由：五木恒润拥有员工300多人，技术人员占90%以上，是一家专业的军工信息化建设服务单位，为军工单位提供完整的信息化解决方案。公司设有股东会、董事会、监事会、工会等上层机构，同时设置总经理职位，由总经理管理公司的具体事务。公司下设有研发部、质量部、市场部、财务部、人事部等机构。公司下辖成都研发中心、西安研发中心、沈阳办事处、天津办事处等分支机构。3、浪潮浪潮集团有限公司是国家首批认定的规划布局内的重点软件企业，中国著名的企业管理软件、分行业ERP及服务供应商，在咨询服务、IT规划、软件及解决方案等方面具有强大的优势，形成了以浪潮ERP系列产品PS、GS、GSP三大主要产品。是目前中国高端企业管理软件领跑者、中国企业管理软件技术领先者、中国最大的行业ERP与集团管理软件供应商、国内服务满意度最高的管理软件企业。4、德格Dagle德格智能SaaS软件管理系统自德国工业4.0，并且结合国内工厂行业现状而打造的一款工厂智能化信息平台管理软件，具备工厂ERP管理、SCRM客户关系管理、BPM业务流程管理、OMS订单管理等四大企业业务信息系统，不仅满足企业对生产进行简易管理的需求，并突破局域网应用的局限性，同时使数据管理延伸到互联网与移动商务，不论是内部的管理应用还是外部的移动应用，都可以在智能SaaS软件管理系统中进行业务流程的管控。5、Manage高亚的产品 (8Manage) 是美国经验中国研发的企业管理软件，整个系统架构基于移动互联网和一体化管理设计而成，其源代码编写采用的是最为广泛应用的Java / J2EE 开发语言，这样的技术优势使 8Manage可灵活地按需进行客制化，并且非常适用于移动互联网的业务直通式处理，让用户可以随时随地通过手机apps进行实时沟通与交易。

2. 当下的大数据风控企业发展趋势怎么样？

对于大数据领域而言，2016年是历史性的一年，是具有重大意义的一年。“大数据”不再只是人们印象中的无实际意义的流行词。专家学者正在基于大数据开发真实的、可用的解决方案和应用程序，“大数据”从之前的噱头走向了接地气的“落地”。
2017年，随着研究的进一步深入，技术层面也达到了更高的水平线上，以大数据为基础开发的应用软件逐渐丰富。庞大的数据量交给计算机进行系统地、有分类的计算已经不再是问题。
2018年，大数据相继应用到各行各业中，以它的特有的力量推动着人类文明进入一个新的领域。
手机行业的中流砥柱——小米，以用户数据为起点，在多个领域进行了大数据的应用场景涉猎，如用户核心搜索入口之一的“全局搜索”功能，以及可以通过语音控制小米电视与各种智能家庭设备的智能助手引擎等。
信贷行业的后起之秀——壹诺信用，专注于金融行业大数据风控领域个人和企业的信用评估、信贷管理等服务，方便用户了解风控信息及进行债务管理，为小微金融提供决策和管理支持。
商超行业的巨头——沃尔玛，作为一家世界性连锁零售企业，为更好的服务客户、提升业绩，沃尔玛网站自行设计了最新的搜索引擎，可以利用语义数据进行文本分析、机器学习和同义词挖掘等，这项技术的运用，使得在线购物的完成率提高了10%到15%。

3. 有人知道国内大数据风控技术比较好的是哪家公司吗？

衡量一家公司的大数据风控技术好坏的因素有挺多的。比如：服务对象，服务规模，自身企业荣誉资质等，像华策数科就挺全面的。我了解到他们为超过100家银行，保险和电商等国内知名企业提供过大数据风控服务，其大数据风控技术是比较靠谱的，在2019年获得了杰出银行服务商的嘉奖，并荣获了李家诚的投资。

有人知道国内大数据风控技术比较好的是哪家公司吗？

4. 数据分析之风控

上世纪90年代初，以美国运通（Amarican  Express）为首的美国信用卡金融公司开始运用数据建模来提升风控能力，解决精准营销等问题。Discover，Capital  One紧随其后
  
 1995年，AMEX的风控模型开始试运行，1997年风控系统正式上线，此后几年，AMEX保持高速增长且把不良贷款降到业内最低
  
 2008年，discover将全球数据分析中心搬到上海。从这个中心流出的风控人才，填充了中国各大互金公司
  
 业务类型：有抵押贷（房贷车贷）、信用贷（比如宜人贷）、消费分期贷（手机家电等）、小额现金贷（500/1000/1500）等
  
 风控涉及业务：1）数据采集：包括征信数据，运营商数据，爬虫，网站埋点，历史借款数据，黑名单，第三方数据等
  
                  2）反欺诈引擎：主要包括反欺诈规则与反欺诈模型。
  
                  3）规则引擎：即常说的策略。主要通过数据分析手段统计不同字段和各个区间的坏账率，然后筛选得到信用较好的人群进行放款
  
                 4）风控模型&评分卡：模型算法之间并无显著不同，而是根据其发生的不同时间点进行划分(贷前/贷中/贷后)，即目标产生的方式不一样。通常信贷领域都是以逾期天数来定义目标变量。A卡可以用客户历史逾期天数最大值，B卡可以用多期借款中逾期最大的一次。C卡因为用途不同有不同的建立方法
  
                 5）催收：是风控的最终手段。这个环节可以产生很多对模型有帮助的数据，比如催收记录的文字描述，触达率，欺诈标签等等
  
 1）爬虫可以爬取手机APP的信息。我们可以将手机APP分成4类：工具，社交、娱乐、金融。计算每种APP的个数，这样就有了4个特征
  
 2）从运营商数据可以知道客户打了多少电话，发了多少短信，用了多少流量，是否有过欠费等信息
  
 3）征信报告很多时候都是一个简单的征信分数，一般都是得分越高，客户质量越好
  
 4）从基本信息中获取用户画像，比如从身份证中得到年龄、性别、户籍3个特征
  
 黑名单的升级版本就是规则引擎。然而它是靠经验生成的。比如保险公司可能会拒绝连续退货5次或者退货比例达到80%的人购买退货险。规则通常需要投入大量的精力维护，不断更新修改，否则会造成大量的误判。对疑似套现金额、笔数超过一定数目，建议拒绝准入，或做重点关注。XX天内申请借贷数大于某个值，建议拒绝
  
 比如我们可以设定一个准入规则，如职业为公务员、医生、律师等。
  
 还可以设置直接放款原则，比如芝麻分大于750分
  
 目标变量如何确定：以A卡为例，主要通过roll-rate与vintage。举个例子，我们可以定义在8个月逾期超过60天的客户为坏客户，8个月未逾期的为好客户。而八个月逾期在0-60天内为不确定客户，从样本中排除。
  
 1）前期准备工作：不同的模型针对不同的业务场景，在建模项目开始前需要对业务的逻辑和需求有清晰的理解
  
 2）模型设计：包括模型的选择（评分卡还是集成模型），单个模型还是做模型细分。是否需要做拒绝推断，怎么定义观察期、表现期、好坏用户。确定数据来源
  
 3）数据拉取及清洗：根据观察期和表现期的定义从数据池中取数，并进行数据清洗和稳定性验证。数据清洗包括异常、缺失、重复。稳定性验证主要考察变量在时间序列上的稳定性，指标有PSI,IV,平均值/方差等
  
 4）特征工程：主要是特征的预处理和筛选。评分卡主要是通过IV进行筛选。另外会基于对业务的理解进行特征构造，包括特征交叉（两个或以上特征相乘/相除/笛卡尔积），特征转换等
  
 5）模型建立和评估：评分卡可以用逻辑回归，只需要做二分类预测可以选择xgb.模型建好后需要进行模型评估，计算auc,ks。并对模型做交叉验证来评估泛化能力
  
 6）模型上线部署：在风控后台配置模型规则，对于一些复杂的模型比如xgb,一般是将模型文件转换为pmml格式，并封装。在后台上传文件与配置参数
  
 7）模型监控：前期主要是监控模型整体与变量的稳定性。衡量标准主要是PSI（population stability  index）。其实psi 就是按分数分区间后，各个分数区间实际与期望占比的差异。如果小于10%，无需更新模型。小于25%，就需要重点关注模型了。如果大于25%就需要更新模型。计算模型psi一般用等频，可以分10箱
  
 1.A卡B卡C卡含义与区别 
  
 A卡（application score card）：即申请评分卡，在客户申请处理期，预测客户开户后一定时期内违约拖欠的风险概率，有效的排除了信用不良客户和非目标客户的申请。同时对客户进行风险定价----确定额度与利率。用到的数据主要是用户以往的信用历史，多头借贷，消费记录等信息。
  
 B卡（behavior score   card）：行为评分卡，在账户管理期，根据账户历史上所表现出的各种行为特征来预测该账户未来的信贷表现。一是防控贷中风险，二是对用户的额度做一个调整。用到的数据主要是用户在本平台的登录、浏览、消费行为等数据。还有借还款，逾期等借贷表现数据。
  
 C卡（collection  score  card）：催收评分卡，对逾期账户预测催收策略反应的概率，从而采取相应的催收措施
  
 三张卡的区别：
  
 数据要求不同：A卡一般可做贷款0-1年的信用分析。B卡则是在申请人有了一定行为后，有了较大数据进行的分析。C卡则对数据要求更大，需加入催收后客户反应等属性数据
  
 特征不同：A卡用到的大部分是申请者的背景信息，比如客户填写的基本信息，以及第三方信息。而且这个模型一般也会比较谨慎。B卡利用了很多基于交易的特征。
  
 2.风控领域为何选择逻辑回归模型，有哪些局限性
  
 1）首先是因为逻辑回归客群变化的敏感度不如其他高复杂度模型，因此稳健性好
  
 2）模型直观，系数含义好阐述，易理解
  
 缺点是容易欠拟合，准确度不是很高。另外对数据要求比较高，缺失、异常、特征共线性都比较敏感
  
 3.为何用IV而不是WOE筛选特征
  
 因为IV考虑了分组中样本比例的影响。即使这个分组的WOE很高，但是分组的样本占比很小的话，最终这个特征的预测能力可能还是很小
  
 4.ROC与KS指标(ks在0.2-0.75，auc在0.5-0.9较好)
  
 ROC曲线把TP,FP当作横纵坐标，而KS曲线把TP,FP都当成是纵坐标，横坐标是阀值。KS能找出模型中差异最大的一个分组，大于0.2即可认为有比较好的预测准确性。而ROC能反应整体区分效果
  
 5.分箱方法与badrate单调
  
 目前在行业里，大家用贪心算法进行分箱的比较多，比如best_ks,卡方分箱等。badrate单调性只在连续型数值变量与有序型离散变量（如学历/尺码）分箱的过程中才会考虑。至于为何要考虑badrate单调性，主要是出于业务理解，比如历史逾期越多那么badrate越大。
  
 6.为何不同的风控模型，一般都不会选用相同的特征
  
 被拒绝的人，是因为某些特征表现差。如果用相同的特征做重复筛选，那么随着时间推移，以后建模的样本里面就没有这些人了。这样特征上的样本分布就变了。
  
 7.风控中用的无监督算法有哪些
  
 聚类算法，基于图的离群检测，LOF(局部异常因子)，孤立森林等
  
 8.卡方分箱
  
 卡方分箱是基于合并的数据离散化方法.基本思想是相邻的区间具有类似的类分布,则将之合并.而卡方值是衡量两个区间相似性的标准,卡方值越低越相似.当然也不可能无限合并下去,我们给它设定一个阀值.根据自由度与置信度得到.比如类别数是N，那么自由度就是N-1.而置信度表示发生的概率。一般可以取90%。
  
 9.best-ks分箱
  
 与卡方分箱相反，best-ks分箱是一个逐步拆分的过程。将特征值从小到大排序，KS最大的那个值即为切点，然后把数据分为两部分。重复这个过程，直到箱体数达到我们的预设的阀值即可。
  
 10.拒绝推断（reject  inference）
  
 申请评分卡是利用通过审核的授信客户的历史数据来建立模型，但是此模型会忽略原先被拒绝的这部分客群对评分卡模型的影响。需要通过拒绝推论来对模型进行修正，以便使模型更加的精确与稳定。另外，公司的规则变化也可能让过去被拒绝的客户现在能通过。适用于中低通过率的场景。
  
 常用方法：硬性截断法---先用初始模型对拒绝用户进行打分，设置一个阀值。高于此分数标记为好用户，反之为坏用户。然后把标记后的拒绝用户加入样本中重新训练模型。分配法---此方法适用于评分卡。将样本根据评分高低进行分组，并计算各组的违约率。然后对拒绝用户进行打分并按照之前的方法分组，以各组的违约率为抽样比例，随机抽取该分组下的违约用户，指定为坏用户，剩下的标记为好用户。然后将标记好的拒绝用户加入样本重新训练
  
 11.建模过程中如何保证模型的稳定性
  
 1）在数据预处理阶段可以验证变量在时间序列上的稳定性，方法有：计算月IV的差异，观察变量覆盖率的变化，两个时间点的PSI差异等。例如我们选取1-10月的数据集，借鉴K折验证的思想，得到10组验证结果。观察随着月份的推移，模型的变化是否有比较大的趋势变化
  
 2）在变量筛选阶段剔除与业务理解相悖的变量。如果是评分卡，可以剔除区分度太强的变量，模型受这个变量影响太大，稳定性会下降
  
 3）做交叉验证，一种是时间序列上的交叉验证，一种是K折交叉验证
  
 4）选择稳定性好的模型。比如xgb  随机森林等
  
 12.怎么处理高维稀疏特征与弱特征
  
 对于高维稀疏特征，逻辑回归比gbdt效果好。后者的惩罚项主要是树深度与叶子数目，这对稀疏数据来说惩罚并不严厉，容易过拟合。使用逻辑回归评分卡，则可以把特征离散化为0与非0，然后再进行woe编码。
  
 如果用评分卡建模，弱特征一般会被舍弃掉。评分卡的入模特征数不宜过多，一般在15个以下。而xgb对数据的要求不高，而且精度好。一些弱特征进行交叉组合也许有意想不到的效果。
  
 13.模型上线后发现稳定性不佳，或者线上的区分效果不好，怎么调整
  
 模型稳定性不佳首先检查当初建模时有没有考虑特征的稳定性。在模型前期发现稳定性不佳的变量，考虑弃用或用其他变量代替。另外分析线上线下用户和建模时用户的分布差异，考虑在建模时增加拒绝推断的步骤，让建模样本的分布更加接近实际的整体申请用户
  
 线上的效果不好可以从变量角度分析。剔除掉效果不好的变量，挖掘新的变量入模。如果一个模型已上线较长的时间，用户的属性也慢慢发生偏移，那么重新取数做下模型
  
 14.怎么做风控模型冷启动
  
 产品刚上线时，没有积累的用户数据，或者用户没有表现出好坏，此时可以考虑：           1）不做模型，只做规则。凭借业务经验，做一些硬性规则，比如设定用户的准入门槛，考量用户的信用历史与多头风险，可以接入第三方的反欺诈服务和数据产品的规则。也可以结合人工审核来对用户的申请资料做风险评估                                                                               2）借助相近模型的数据来建模。
  
 15.样本不平衡问题
  
 除了调整类权重以外，主要采用采样方法来解决。常见的有朴素随机过采样，SMOTE,ADASYN（自适应综合过采样）
  
 16.运营商数据处理
  
 根据通话日期，可以将通话记录分为近7天，近半月，近一月，近三月，近6月等时间窗口。也可以按具体日期划分为工作日、节假日等。根据通话时间，可以将一天划为凌晨、上午、下午、晚上。至于电话号码，一种思路是按照归属地划分为 省市，另一种思路是对号码打标签，根据电话邦、百度手机卫士、搜狗号码通的标记，区分出快递外卖、骚扰电话、金融机构、中介等。甚至根据业务积累区分号码是否是黑名单用户、申请用户或申请被拒用户。用户与不同号码标签的通话情况，可以侧面反应用户的通话习惯和生活特点
  
 17.逐步回归
  
 当自变量之间的关系比较复杂，对于变量的取舍不易把握时，我们可以使用逐步回归的方法进行变量筛选。逐步回归的基本思想是将变量逐个引入模型，每引入一个变量进行F检验，并对已经选入的变量进行t检验，当原来引入的变量在后面的变量引入之后不再显著时，则将原来的变量删除。以确保每次引入引入新的变量之前回归方程中只包含显著性变量
  
 18.在逻辑回归中，为什么常常要做特征组合（特征交叉）
  
 逻辑回归属于广义线性模型，特征组合可以引入非线性特征，提升模型的表达能力
  
 部分引用文章： https://www.jianshu.com/u/0ce0500106d              https://new.qq.com/omn/20180115/20180115A0RUEZ.html                    https://www.ixueshu.com/document/6a3261ae85e489b8a3203036c687fe44318947a18e7f9386.html                                                                                                                                      https://www.e-learn.cn/content/qita/775233                                                                                https://cloud.tencent.com/developer/article/144 8182                                                                 https://www.shangyexinzhi.com/article/details/id-171268/                                                          https://blog.csdn.net/sunyaowu315/article/details/87162765                                                      https://www.yuque.com/rookie-ywx0p/sm8coc/ll43oc                                                                  https://zhuanlan.zhihu.com/p/56474197                                                                                      https://www.infoq.cn/article/jXwvkaB9t7mPWHxj9ymu                                                              https://cloud.tencent.com/developer/article/1489429                                                                  https://cloud.tencent.com/developer/article/1059236                                                                  https://github.com/taenggu0309/Scorecard--Function

5. 大数据时代下的专业风控

大数据时代下的专业风控
日前，第十一届北京金博会在北京展览馆正式开幕，来自全国的百余家金融机构参与了此次展会。据了解，今年的金博会明显加重了对互联网金融的重视，一批优秀的互联网金融公司成为该次展会的亮点。互联网+金融似乎已经不再是新鲜事，但此次金博会的重视展现出互联网+金融的发展潜力。
　　
　　为此，记者联系到国内知名车贷P2P平台玖融网的负责人徐奔，共同探讨下大数据时代下的互联网风控能力。玖融网负责人徐奔是一位互联网行业资深人士，同时拥有多年的金融行业的从业经验。对产品设计、项目规划、整合营销、数据挖掘、团队运营有着独到的见解，熟悉掌握贷前、贷中、贷后及风控等一系列业务流程，曾带领的优秀借贷团队在运营经验中贷款逾期率低于1%，同时对互联网金融有着深刻的认知和敏感度，熟知优化整合网络和线下资源，并时刻关注互联网金融最新政策及动态。
　　
　　徐奔认为，在现在的所谓大数据的时代里，P2P行业的风控能力将是决定平台是否能活下去的主要因素。“大数据是网络发展到一定阶段后所产生的一种新手段，借助于大数据的特征，P2P行业在加强风控能力上大有可为。”徐奔认为，大数据技术的产生从技术层面增强了P2P行业的风控能力，互联网金融平台应抓住这次技术革新机会，加强风控管理。
　　例如由玖融网技术团队自主研发的EPR系统是一套线上线下的办公系统，主要涵盖业务流程管理、风控审核管理、专业的车辆评估与监控、人力资源管理、财务资源管理、信息资源管理等集成一体化的企业管理软件。通过对信息的集成与整合，形成一个高效的供应链系统，大大提高了工作效率，优化了企业的运行模式，达到资源效益最大化，进一步提升了企业的核心竞争力。通过大数据思维，提高了平台风险管控的能力。
　　记者了解到，今年8月联合信用发布的《玖融网网贷平台治理结构评价及产品风险评级报告》中将玖融网划为建议投资范畴，肯定了玖融网的风控能力。
　　“风控能力的提升比起注册送优惠更能留住投资者。”徐奔说到，抓住投资者对资金安全保障的需求，玖融网凭借着较好的风险管控能力在众多的互联网金融平台中脱颖而出。根据相关介绍，玖融网是一家专业车贷的P2P平台，其资产来源市场存量较大，单笔金额较小，资产的处置周期短。徐奔表示，目前二手车市场处于高频流动状态，车辆易变现，风险的可控程度高。玖融网通过多个GPS仪器对抵押车辆进行追踪，可掌握抵押车辆的具体动态，保障投资者的资金安全。其次，车贷相对信用贷款，车辆抵押物相较于其他抵押物属于“轻资产”，变现能力较强，车贷P2P的风险也能得到有效控制。
以上是小编为大家分享的关于大数据时代下的专业风控的相关内容，更多信息可以关注环球青藤分享更多干货

大数据时代下的专业风控