一场大数据行业诞生以来最大规模的“地震”正在发生。

2019年9月6日,第三方数据风控公司魔蝎数据和新颜科技的相关负责人在同一天被警方带走调查,由此拉开了行业大整顿的序幕,聚信立、天翼征信、公信宝、同盾科技子公司、51信用卡、考拉征信等诸多公司也被纳入调查行列。

业内人士普遍认为,此次整顿与数据公司的爬虫业务以及数据的违规利用有关。究其本质,是对现金贷业务的整顿。

需求催生了市场。自2013年互联网金融概念兴起以来,催生了一批为网贷平台、消费金融公司、现金贷公司提供征信风控服务的数据公司,他们利用爬虫技术的成熟与国内数据信息监管的宽松,通过自有数据、爬虫抓取、金融机构二次授权、地下黑产交易等方式,野蛮生长。

伴随着国家对暴力催收、现金贷业务的监管力度加大,一批曾经风光的数据风控公司密集被调查,爬虫业务暂停,“灰产”行业人人自危。

就在12月4日,国家网络安全通报中心发文通报下架整改100款违法违规APP,其中不乏知名的樊登读书、糖豆、更美、房天下等,整改重点针对无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。

曾经,一度有观点认为,大数据时代来临,得大数据者得天下,电商、营销等平台把大数据作为自己核心的竞争力,殊不知,技术无罪,但技术也会成为作恶者的工具。

史上最严监管已经来临,正如业内人士所说:“大数据发展和利用从野蛮生长时代进入了正规化管理的关键时代。”

数据行业大地震

今年开始,互联网金融行业进入大整顿,作为现金贷风控的关键一环,提供数据支撑的第三方公司成为三季度以来的监管重点。

2019年9月6日,魔蝎数据被警方调查,高管被带走;同日,新颜科技高管被带走协助调查。9月11日,公信宝运营方杭州存信数据科技有限公司被警方查封;中秋节期间,同盾科技子公司信川科技也有相关人员被警方带走协助调查;10月21日,51信用卡委托外包催收公司因涉嫌寻衅滋事等犯罪被调查,该公司利用爬虫技术不正当窃取用户数据、滥用用户信息进行暴力催收。

这一系列整治的背后,矛头指向的是网贷。11月14日,公安部网络安全保卫局局长王瑛玮表示,今年5月25日以来,对“套路贷”实施团伙、催收团伙以及帮助“套路贷”犯罪的技术服务商、数据支撑服务商、支付服务商开展了全链条式打击。

11月20日再传出消息,江苏淮安警方打击了7家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息1亿多条,其中,拉卡拉支付旗下的考拉征信涉嫌从上游公司获取接口后,违规将查询接口出卖。

这些被调查的公司,可能面临的共同问题是利用网络爬虫技术抓取数据并贩卖,涉嫌侵犯公民个人信息。

网络爬虫是指按照一定规则,自动抓取互联网信息的程序。这项技术并无原罪,业内不少公司会通过爬虫技术,将用户在互联网上的数据收集起来,做出更精准的用户风控模型。某数据研究院院长刘志告诉燃财经,搜索引擎、天眼查、企查查等公司都是用爬虫技术爬取公开数据,在不涉及个人敏感数据的情况下,使用这项技术没有问题。

但对于这些大数据公司来说,他们把爬虫做成了产品,并且“走了两步”。第一步是在面向用户的产品中,让个人用户填写账号密码,从公积金、社保局、信用卡中心等系统中帮用户把里面的信息拿出来,第二步是把这些包含很多个人敏感数据的信息缓存在系统,之后对外提供给高利贷、催收公司等使用。“到第一步没有问题,但到第二步就涉嫌过度采集、违规使用数据,侵犯用户隐私。”刘志说。

这些数据有多大杀伤力?新金融深度曾报道,大数据服务公司聚信立只要获取用户的手机号码和服务码,就可登录各大运营商的系统爬取通话记录的数据,形成“个人用户报告”,包括通话号码、次数、时长等,借款人的通讯信息就会成为借贷机构向借款人及其家人朋友催收的“利器”。这时,这类公司相当于协助了贷款平台的暴力催收。

刘志解释,做风控需要多维度的数据,如果全部通过正规渠道去拿,一方面目前行业内没有太多渠道,另一方面数据成本很高,但通过爬虫去获取,边际成本很低。另外,数据公司通过爬虫拿到的数据颗粒度更细,除了做风控还可以提供给一些公司做营销,获益更大。因此,业内出现一大批违规操作的数据公司。

数据从何而来?

多名业内人士介绍,数据公司的数据来源通常分为四大类:企业自身或其相关公司的数据、爬虫技术爬取数据、相关现金贷公司在用户协议上进行二次授权、通过地下交易非法购买相关信息。

金融行业从业者张丰介绍,对于第一种情况,公信宝推出手机挖矿产品,用户免费使用的同时,需要提供大量个人信息,公司即可借此收集数据;考拉征信属于拉卡拉支付参股公司,其数据来源可能包括在拉卡拉上进行信用卡还款、缴费、金融业务的个人用户数据,以及线下商户经营的数据。

另外,一些合规的企业不少也具备“数据基因”,如前海征信是平安集团旗下全资子公司,其官网显示:前海征信植根于平安集团,探索多样化和创新性的数据采集、存储、处理与分析方式,有着自身独有的优势。

第二种情况是数据公司用爬虫技术去公开网站等地方爬取数据,主要分为司法信息、电商信息、银行卡信息、运营商信息、社交信息、开放数据等几大类。

云鼎实验室2018年发布的《互联网恶意爬虫分析》报告显示,排名前三位的流量目标行业来自出行、电商、社交,运营商和公共行政分别占比4.91%,被爬的频率也较为靠前。

大数据倒在2019

其中,公共行政类恶意爬虫主要集中在法院文书、知识产权、企业信息、信用信息等常规商业信息领域,而另一个受爬虫青睐的是挂号类平台。

用户授权也是一种常用的信息获取手段,如一些现金贷公司在隐私条款用户协议里写了允许其对用户信息二次授权,而下载软件的时候可能读取了用户的通讯录、定位、相册等信息。

此前,中国信通院发布的《移动金融应用安全白皮书(2019年)》中,抽样选取了12款下载量过亿的典型金融行业APP,所有APP均存在不同程度的超范围权限采集现象。这些APP共获取了29种高敏感权限、15种中敏感权限、33种低敏感权限。高敏感权限包括读取手机状态和身份、修改或删除存储卡中的内容、读取系统日志等等。

在隐私政策方面,抽样的部分APP也涉嫌违法违规。例如,某款金融行业APP隐私政策中出现要求用户提供指纹、面部识别信息等个人敏感信息,实际上进行登录等操作时并不需要。

大数据倒在2019

来源 / 信通院报告

曾有报道称,摩羯科技的支付宝爬虫产品只需要用支付宝扫描一下登录“二维码”(第三方生成),后台就可爬取用户的真实姓名、手机号、收货地址、近一年的购物信息,甚至详细到每笔交易的金额。而经过授权的微信爬虫则可以获取用户联系人、关注的公众号、自己是群主的群、微信交易记录、绑定的手机号码等信息。

目前,公安机关已经开展APP违法采集个人信息集中整治。就在12月4日,樊登读书、糖豆、更美、房天下、健康天津、考拉海购等在内的100款APP涉嫌违法违规被国家网络安全中心通告下架整改。

此次整治,重点针对无隐私协议、收集使用个人信息范围描述不清、超范围采集个人信息和非必要采集个人信息等情形。

今年以来,公安部门已经查处违规采集个人信息的APP共683款,严厉打击个人信息黑灰产乱像。

另外还存在的是行业内很普遍的数据互通和地下交易。

张丰介绍,一些小公司会把自己的数据上传到一个第三方应用库,和同行一对一互查,但最后很可能数据都留存到了第三方被再次交易。网上还有不少QQ群、暗网上出售数据,有的企业内部员工有数据库权限,私自留存交易用户数据,用违规插件获取数据等,使得这个市场更加混乱。

这些获取数据的方式是否违规?

长期关注金融行业的律师肖飒表示,通过地下交易非法收购相关信息肯定违规,情节严重会有刑事犯罪风险,涉及到刑法规定的侵犯公民个人信息罪。根据规定,违规向他人出售或者提供公民个人信息,情节特别严重的,可处三年以上七年以下有期徒刑,并处罚金。

至于用爬虫抓取信息是否违规,要看具体情形,如果通过爬虫抓取网络公开信息,并不违法,但涉及到公司或个人信息时,关键点在于是否得到个人或公司的授权。缺少授权,就会涉嫌违规,会构成侵犯公民个人信息罪。

野蛮生长后的行业深渊

第三方数据产业几乎是伴随着国内网贷行业红利而生的一波企业。

根据亿欧智库发布的《2018中国智能风控研究报告》,截至去年年底,573家金融风控企业共获得投资金额超过1000亿元,其中三成企业获得三次及以上的投资。

这些企业中,69.8%成立于2013年-2017年,2014年增长率达到156%。2015年,新增企业数目达到峰值——148家,随着2016年开始逐步落实的严格监管政策,智能风控甚至金融科技的新增企业数量开始回落。截止到2018年上半年,仅有5家智能风控新增企业。

大数据倒在2019

这一批风潮中,诞生了魔蝎科技、聚信立、51信用卡等一系列明星公司,它们的业务大同小异。

其中,魔蝎科技成立于2016年,面向企业用户,提供多维度用户画像、授信评分、贷后预警、催收智能运筹等风险管理服务;面向个人用户,提供运营商、网银、信用卡、借记卡、公积金、社保、支付宝、淘宝、京东和学信网等一站式查询。

聚信立成立于2013年,为银行、保险、消费金额公司、贷款机构等提供智能风控、风险分析、信用分析等解决方案。值得注意的是,京东数科是其第二大股东。

业内人士介绍,在现金贷业务最为火热的时候,一些小规模的放贷公司大多没有能力或不愿意耗费精力去自建风控模型,会直接采购第三方数据公司的风控系统,价格在2万元-8万元不等。这些第三方公司钻了爬虫技术成熟但法律监管不太完善的空子,野蛮生长,疯狂获利。

正是因为他们降低了线上放贷的门槛,大批质量参差不齐的放贷机构加入,助长了“套路贷”、“高利贷”、暴力催收,也产生诸多行业乱象。

此前,2018年,“大数据行业第一股”数据堂员工贩卖公民信息案曾引发业内震荡,公司在8个月内,日均传输公民个人信息1.3亿余条,从源头到中转商再到下游使用者,共11家公司牵涉其中。2019年3月,燃财经曾独家起底巧达科技,该公司拿8亿人的数据一年赚取近2亿元利润。今年5月,北京市公安局网安总队通报,该公司36人已被检察机关批捕。

数据公司助长了现金贷的爆发,恶性竞争也将这一行业推向深渊。

刘志介绍,缓存用户数据和用爬虫爬取信息的成本很低,相比之下,一些合规的数据公司拿数据成本很高,他们就没办法跟这些公司去打价格战,生存艰难。

“之前的那些数据公司,没有明文规定或严厉打击的案例参考,一直在法律边缘游走。现在监管开始发力,这些劣币慢慢被清除出去,良币会迎来春天。”刘志表示。

大数据步入监管时代

从放贷、助贷到催收,监管风暴已经密集来袭。

10月21日,最高人民法院、最高人民检察院、公安部、司法部联合颁布《关于办理非法放贷刑事案件若干问题的意见》,要求放贷实际年利率不得超过36%。

央行还向部分银行下发了《个人金融信息(数据)保护试行办法》。文件表示,将对金融机构与第三方之间征信业务活动等进一步作出明确规定,加大对违规采集、使用个人征信信息的惩处力度。

严管之下,金融大数据公司风声鹤唳。规模较大的金融机构可以自建风控系统,但第三方公司业务进入停滞期。

多名业内人士告诉燃财经,9月开始,葫芦数据、白骑士、立木征信等数据风控商都暂停了爬虫服务,聚信立和新颜科技也宣布暂停相关服务,摩蝎科技官网已无法打开。同盾科技告诉燃财经,其子公司信川科技自2018开始就已逐步调整压缩,目前已全部停止相应服务。

刘志表示,摩蝎、新颜这类公司主要的产品就是爬虫服务,出了问题基本上整个公司的业务就停了,同盾科技很早就把爬虫团队给区别出去,不影响其他业务,公信宝也是一样。但是从合作层面来看,会对他们在数据安全、合规合作的方面产生一定影响,一些合作商今后会不再合作。

这一轮对第三方数据风控公司的整顿,其根源仍是为了金融风险专项整治更深入化,整肃到数据源头,打击大数据公司,间接整顿了现金贷和助贷行业。

“大数据发展和利用从野蛮生长时代进入了正规化管理的关键时代。野蛮生长时代看似让大数据行业得到快速发展,但真正让用户受益的项目很少,反而侵犯到了普通人的隐私。正规化管理虽然一定程度上影响了大数据行业的发展,使其受限于一定的框架下,但从长远来看,这样的正规化管理才是有效的,法治下的大数据发展才是正途。”肖飒说。

在她看来,行业乱象与企业自身和监管不力都有关系。企业为了利益铤而走险,明知侵害他人权益,仍然实施行为。监管也有一定的责任,前置的行政法规缺失,导致企业行为一步步恶化。另外,为了地方效益,监管部门存在着睁一只眼闭一只眼的现象。未来企业要做到合规,监管部门要加快相关法规的配套,加大执法力度。

“野蛮生长的时代已经结束了,行业需要在法律法规的引导下进行,当然行业的规范也不能矫枉过正,要符合中国国情。”肖飒说。

张丰认为,整个大数据行业在逐渐往合规方面走。合规的表现,就是会有资质要求,相关的监管政策、文件、处罚文件都会出台,就像有消费金融牌照才能做消费金融业务,大数据交易需要大数据交易的牌照。实施过程中还是要受到国家的严厉监控,不管是数据渠道,还是商用场景都会严格监控,持牌的数据公司也需要做好数据安全防范。

2019年,大数据不再是“放之四海皆准”的“灵丹妙药”。大数据造福行业的同时,监管会成为时刻悬在其头顶上的达摩克利斯之剑。

*应受访者要求,文中刘志、张丰为化名。