OMNIRank: Risk Quantification for P2P Platforms with Deep Learning
Honglun Zhang, Haiyang Wang, Xiaming Chen, Yongkun Wang, Yaohui Jin
OOMNIRank :基于深度学习的
P2P 平台⻛风险量化研究 张宏伦 王海洋 陈夏明 王永坤 金耀辉 , [email protected] ) OMNIRank: Risk Quantification for P2P Platforms with Deep Learning
Honglun Zhang Haiyang Wang Xiaming Chen Yongkun Wang Yaohui Jin
Abstract
P2P lending presents as an innovative and flexible alternative for conventional lending institutions like banks, where lenders and borrowers directly make transactions and benefit each other without complicated verifications. However, due to lack of specialized laws, delegated monitoring and effective managements, P2P platforms may spawn potential risks, such as withdraw failures, investigation involvements and even runaway bosses, which cause great losses to lenders and are especially serious and notorious in China. Although there are abundant public information and data available on the Internet related to P2P platforms, challenges of multi-sourcing and heterogeneity matter. In this paper, we promote a novel deep learning model, OMNIRank, which comprehends multi-dimensional features of P2P platforms for risk quantification and produces scores for ranking. We first construct a large-scale flexible crawling framework and obtain great amounts of multi-source heterogeneous data of domestic P2P platforms since 2007 from the Internet. Purifications like duplication and noise removal, null handing, format unification and fusion are applied to improve data qualities. Then we extract deep features of P2P platforms via text comprehension, topic modeling, knowledge graph and sentiment analysis, which are delivered as inputs to OMNIRank, a deep learning model for risk quantification of P2P platforms. Finally, according to rankings generated by OMNIRank, we conduct flourish data visualizations and interactions, providing lenders with comprehensive information supports, decision suggestions and safety guarantees.
Keywords
P2P Platforms; Multi-source Heterogeneous Data; Risk Quantification; Public Web Data; Deep Learning; Machine Learning; Data Visualization 摘要 相对于银⾏行等传统机构, P2P ⽹网络借贷的出现带来了⼀一种新颖且灵活的借贷形式。在
P2P ⽹网贷中,⽆无需复杂的审核流程,投资者和借贷⼈人便可直接完成资⾦金对接并互惠互利。然⽽而由于缺乏相关法律、委托监管和有效管理,
P2P 平台存在提现失败、经侦介⼊入和跑路等潜在风险,有可能给投资者造成极⼤大损失,并且这⼀一问题在中国尤为严重。互联⽹网上虽然有⼤大量和
P2P 平台相关的公开资讯和数据,但存在多源异构、质量不齐等挑战。针对这⼀一需求,本⽂文提出⼀一种基于深度学习的
P2P 平台风险量化模型,融合
P2P 平台的多维特征并进⾏行评分排名。研究首先搭建了⼀一套⼤大规模分布式和灵活可扩展的爬⾍虫框架,从互联⽹网上获取了国内
P2P 平台从 年⾄至今的海量多源异构数据,并采用数据去重、空值处理、数据去噪、格式统⼀一、对齐融合等清洗提升数据质量;后通过⽂文本理解、主题模型、知识图谱、情感分析等⽅方法,逐步深⼊入地提取
P2P 平台的多维特征,并提出了基于深度学习的
P2P 平台风险量化模型
OMNIRank ;最后根据
OMNIRank 的排名结果,进⾏行了丰富的数据可视化和交互探索,为⼴广⼤大投资者提供全面的信息支持、决策建议和安全保障。 关键词
P2P 平台;多源异构数据;风险量化;公开⽹网络数据;深度学习;机器学习;数据可视化 中图法分类号
TP391
P2P ( Peer-to-Peer ,即个⼈人到个⼈人)⽹网络借贷于 年随互联⽹网浪潮引⼊入国内, 年开始蓬勃发展,平台数量和交易⾦金额都呈现⼤大幅增长。相对于银⾏行等传统⾦金融借贷机构,
P2P ⽹网贷具有门槛低、放款快、审核容易、灵活性强等优势,投资者和借贷⼈人可以直接完成资⾦金对接并互惠互利,由于信⽤用问题⽆无法通过银⾏行审批的借贷⼈人仍有机会获得借款,⽽而投资者往往可以享受到⽐比银⾏行存款更⾼高的利润。
P2P 平台是⼀一个个相对独⽴立的
P2P ⽹网贷运营公司。由于⽬目前国内缺乏针对
P2P ⽹网贷制定的相关法律、专有部门的委托监管和成熟有效的管理⽅方法,
P2P 平台存在提现失败、经侦介⼊入、跑路倒闭等潜在风险。截⽌止⾄至 年 ⽉月,国内 P2P 平台共上线 家,其中 家出现问题,给投资者造成巨⼤大损失的同时,也严重影响了国内互联⽹网⾦金融的⾏行业氛围。举例来说,影响最为恶劣的 e 租宝公司,在短短⼀一年内便⾮非法集资 多亿,涉及投资者 万⼈人。 投资者关注和了解 P2P 平台的主要途径是通过⽹网络。互联⽹网上虽然有⼤大量和
P2P 平台相关的公开资讯和数据,例如新闻报道、⽹网民评论、平台资料和交易数据,但呈现出多源异构、质量参差不齐、存在缺失和错误等⼀一系列挑战。这些公开⽹网络数据需要经过恰当的处理和融合,才能对
P2P 平台的潜在风险形成较为全⾯面准确的风险评估。 针对以上问题,本⽂文提出⼀一种基于深度学习的
P2P 平台风险量化模型
OMNIRank ,该模型基于和
P2P 平台相关的各类公开⽹网络数据,在经过数据获取、清洗和分析后,提取出能够反映
P2P 平台风险信息的多维特征,并以此为输⼊入进⾏行全⾯面精确的风险量化。结果显⽰示,
OMNIRank 能达到 以上的预测准确率,并 为 投 资 者 筛 选 出 ⼀一 个 零 风 险 投 资 区 间 。 根 据
OMNIRank 的排名结果,本⽂文进⾏行了丰富的数据可视化和交互探索,在平台风险得到保障的前提下,辅助投资者选择适合⾃自⼰己的投资平台。本⽂文的系统架构如 图 所⽰示,主要解决了以下两个问题: 公开⺴⽹网络数据的获取、处理和分析 。互联⽹网上的公开数据具有多源异构、数量巨⼤大、⾮非结构化、质量不齐等问题,举例来说,和 P2P 平台相关的新闻报道可能来⾃自多个门户,各个门户的⽤用词⽅方式、报道⾓角度不尽相同,⽹网民对于
P2P 平台的观点和评论也没有统⼀一的格式规范。除此之外,以上⽂文本数据和
P2P 平台的实时交易数据都在不断产⽣生和积累,对这些海量数据进⾏行获取、处理和分析,并从中提取出和
P2P 平台风险有关的信息,具有很⼤大的挑战; 基于多维特征的 P2P 平台⻛风险量化 。 P2P 平台风险是⼀一个综合指标,和多个⽅方⾯面的因素和指标都存在潜在关联,例如平台的注册信息、负⾯面新闻和舆论、平台数据异常等。这些特征可能对应⼀一个值或者序列,数据类型也可能是数值、类别值或者⽂文本。如果不能系统地将这些特征进⾏行融合,很有可能得到局部⽚片⾯面和不准确的量化结果。
Fig.1 The framework of Risk Quantification 图
1 P2P 平台风险量化总体架构图 在下⽂文中,第⼀一、⼆二节分别介绍相关研究⼯工作和本⽂文中数据源的选取,第三、四节讨论海量公开⽹网络数据的获取、清洗和分析,从多源异构数据中提取
P2P 平 台 的 多 维 特 征 , 第 五 节 阐 述 平 台 风 险 量 化 模 型
OMNIRank 以及其性能评估,第六节介绍在线可视化和交互产品,辅助投资者选择适合⾃自⼰己的平台。全部研究成果都已开源,详细链接参见附录。 相关⼯工作
P2P ⽹网贷的发展吸引了⼤大量学术界的研究⼯工作,主要可以分为以下三⼤大类: 投资者和借款⼈人的⾏行为模式 。将 P2P 平台理解为社交⽹网络和⾦金融借贷的组合,可以将社交⽹网络领域的相关研究成果应⽤用到
P2P ⽹网贷中,如⽹网络的图模型,⽹网络的产⽣生、发展和演化过程登;研究不同信⽤用等级借款⼈人的统计特征,以及投资者的跟风⾏行为和分散投资策略等 [1] ; 影响借款成功与否的可能因素 。从信⽤用特征和社交特征 [2] 两个⾓角度研究影响借款交易的可能因素,前者是指个⼈人信⽤用记录、信⽤用卡消费记录等个⼈人特征,后者是指借款⼈人在 P2P 平台上的⼈人脉关系、群组认证、他⼈人评价等社交特征; 辅助投资者进⾏行最优投资 。⼀一⽅方⾯面建⽴立风险模型,根据借款⼈人各项特征判断交易是否存在风险;另⼀一⽅方⾯面综合风险和回报,考虑两者之间的关联和影响,在风险阈值内追求最⾼高回报 [3] 。 可以看出,已有研究⼤大多只是从微观⾓角度研究单个投资⼈人、借款⼈人或单笔借款交易的特征和性质,未能从宏观和长期的⾓角度对 P2P 平台整体进⾏行持续准确的风险量化和监控,⽽而后者对于投资者的资⾦金安全具备更为显著的研究意义。 另外,国内已有很多较为活跃的
P2P ⽹网贷社区,例如⽹网贷之家 、⽹网贷天眼 、融 等,但这些⽹网贷社区只是简单地收集新闻报道、⽹网民评论、平台资料和数据等内容并存储和展⽰示,⽽而未进⾏行深⼊入的挖掘和融合,投资者⾯面对的仍然是不同类型的⼤大量原始数据,并不能快速直观地获取最为核⼼心的平台风险信息。 本⽂文从宏观和长期的⾓角度出发,从海量多源异构数据中挖掘 P2P 平台的多维特征,基于深度学习对平台本⾝身进⾏行持续全⾯面的风险量化,因⽽而具备更⾼高的实际应⽤用参考价值。 数据源选择 在数据源的选择上,应充分涵盖和 P2P 平台风险信息有关的各类数据 [4] 。在经过⼤大量的调研之后,本⽂文将
P2P 平台出现问题的原因总结为以下两⽅方⾯面:先 网贷之家, 网贷天眼, 融 , 天基因存在不⾜足和后天发展出现问题。前者包括注册资⾦金不⾜足、创始⼈人团队信⽤用不可靠、所处城市不利于⾏行业发展等,这些因素在平台注册成⽴立时便已确定,并将⼀一直影响平台的后期发展;后者包括过度⿎鼓吹利率⽽而⽆无法兑现、风控不过关造成⼤大量逾期、缺乏投资者导致资⾦金链断裂、⾦金钱利益诱发的违法犯罪等,此类原因是在平台的发展过程中出现的,具有动态性和不确定性等特点。将这些原因对应到具体的平台特征,主要可以分为以下四⼤大类: 静态特征 ,包括平台的性质和类别、平台标签、上线时间、注册资⾦金、所在城市、投标保障、保障模式、担保机构、⼈人员信息等; 动态指数 ,包括平台成交量、利率、历史待还、资⾦金净流⼊入、投资⼈人数、借款⼈人数、借款标数、平均借款期限、标的⾦金额分布等; 动态新闻 ,包括新闻报道内容、正⾯面新闻数量、负⾯面新闻数量、不同主题新闻分布、平台⼜⼝口碑、重点事件、平台关键词、平台语义等; 动态评论 ,包括⽤用户评论内容、正⾯面评论数量、负⾯面评论数量、⽤用户画像、舆情标签、评论关键词、舆情倾向、主流观点等。 以上特征从不同的⾓角度直接或间接地反映出平台的风险信息,需要进⾏行系统全⾯面的挖掘融合。然⽽而第⼀一类特征是平台的固有属性,⼀一般来说很少改变,因此可以⽤用单个值来表⽰示,⽽而后三类特征在平台的发展过程中每时每刻都不断更新,因此对应⼀一个值序列。同时,特征的类型可以是数值、类别值或者⽂文本,传统的机器学习模型⼤大多⽆无法处理复杂异构的数据输⼊入,⽽而 OMNIRank 通过使⽤用多种深度学习模型组成的复杂⽹网络来解决这⼀一问题。 根据以上讨论,本⽂文选取了⼀一些国内公开⽹网站作为数据源,包括主流新闻门户和社交媒体、活跃的⽹网贷社区和各⼤大
P2P 平台的官⽅方⽹网站,从尽可能多的维度来挖掘
P2P 平台的风险信息。数据源的详细介绍如表 所⽰示。 数据获取和清洗 为了从以上提及的众多数据源中获取海量多源异构数据,本⽂文基于开源爬⾍虫框架 Scrapy 进⾏行开发和改进,并集成了
Redis 和 Hadoop 。 Redis 是性能优越的缓存数据库,可以⽤用于服务器之间的同步和多任务 able 1 Overview of data sources 表 数据源概览 描述 ⽹网站 作⽤用 新闻门户 ⽹网易新闻、凤凰资讯、搜狐新闻、腾讯新闻、⼈人民⽹网、新浪新闻 原始动态新闻 ⽹网贷社区 ⽹网贷之家、⽹网贷天眼、⽹网贷导航、融 平台资料和动态指数 社交媒体 新浪微博、百度贴吧、知乎、⾖豆瓣、天涯社区 原始动态评论 平台官⽹网 拍拍贷、陆⾦金所、⼈人⼈人贷、宜⼈人贷、点融⽹网 官⽅方数据和平台⼤大事 之间的调度,⽽而 Hadoop 是⼀一个分布式系统基础架构,可⽤用于海量数据的存储和管理。除了⼤大规模分布式计 算能⼒力外,本⽂文还实现了灵活可扩展的配置模块,使得对于添加或者更新爬取任务,只需要简单地修改配置即可。 对于第⼆二节中讨论的众多数据源和数据获取任务,经过简单的定制、为每项获取任务配置相应的主页域名、解析规则和⽬目标字段,通过调度、爬取、解析、存储四⼤大模块的协作,即可在短时间内快速获取海量多源异构数据。表 总结了本⽂文所获取的部分数据资产,包括官⽅方新闻、⽹网民评论、平台资料、⼈人员信息、评级数据、⾏行业指数、地域统计和类别统计等,具有较强的异构性。在所获取的 家 P2P 平台中, 家仍在正常运⾏行,其他 家则由于提现失败、经侦介⼊入或跑路等问题⽽而停业,并且发⽣生问题的时间已知,因此可以将平台是否正常运⾏行作为之后模型训练的标签。 获取了以上多源异构的数据资产之后,本⽂文进⾏行了必要的清洗⼯工作以提升数据质量 [5] ,包括去除重复和类似的新闻报道、将空值更改为对应的默认值、使⽤用
UGC 算法去除低质量⽹网民评论、使⽤用基于密度的聚类去除⽆无关新闻报道、将多源异构数据转换为统⼀一的数据表达形式、汇聚多源异构数据中的⼀一致部分等。以
UGC ( User Generated Content )算法为例,本⽂文使⽤用以下模型对⽹网民评论内容进⾏行评分并去除评分低于 的记录:
𝑈𝐺𝐶 ! = 𝑁 ( 𝑇 ! × + 𝐸 ! × + 𝑊 ! × ) 其中 𝑇 ! 表⽰示评论 𝑖 的 TfIdf 得分, 𝐸 ! 表⽰示其情感得分,即态度倾向是否明显, 𝑊 ! 表⽰示评论的⽤用户权重,即该⽹网民的发⾔言次数占总次数的百分⽐比, 𝑁 为归⼀一化 Table 2 Overview of data capital 表 所获数据资产概览 数据集名称 描述 数值类型 官⽅方新闻 来⾃自 个新闻门户的 条新闻报道 ⽂文本序列 ⽹网民评论 条和 P2P ⽹网贷相关的⽹网民评论 ⽂文本序列 平台资料 家 P2P 平台的基本信息、核⼼心指数、历史数据和⼤大事件 数值、类别值、⽂文本、数值序列、⽂文本序列 ⼈人员信息 名平台⾼高官个⼈人信息 ⽂文本 评级数据 从 ⾄至 所有平台的评级指数数据 数值序列 P2P ⾏行业指数 从 ⾄至 全部平台和问题平台数量、历史交易指数和⼈人⽓气指数 数值序列 地域统计 不同地域平台的历史数据统计,如北上⼴广 数值序列 类别统计 不同类型平台的历史数据统计,如民营、银⾏行、风投、国资 数值序列 函数,将所有评论的 UGC 值映射到 区间中。表 给出了 UGC 算法的部分评分结果,可以看出,得分越⾼高的评论所含信息量越多。
Table 3 Examples of UGC scores 表 评分结果⽰示例 评论内容 UGC 评分 ⼈人⽓气旺,⼀一天 ⼩小时发标,但难抢,资⾦金不站岗,保护投资⼈人利益,体验好。社区也热闹。 今天上线的 个⽉月的周转贷没有抢到,请问后期还会推出短期项⽬目吗?⼤大概什么时候? 降息太快了。 感觉可长靠。 数据分析 数据分析的⽬目的是从以上数据资产中提取出之前所讨论的 P2P 平台四⼤大类特征,从不同的维度刻画和反映出平台所隐含的风险信息。平台的静态特征和动态指数可以直接从平台资料数据集中获得,⽽而动态新闻特征和动态评论特征则需要使⽤用⾃自然语⾔言处理技术进⾏行提取。通过以下⽂文本理解、主题模型、知识图谱、情感分析四个步骤,本⽂文提取出了静态特征、动态指数、动态新闻、动态评论中的绝⼤大多数平台风险特征,这些特征将作为
OMNIRank 模型的输⼊入,为
P2P 平台风险量化提供全⾯面丰富的特征基础。 .1 ⽂文本理解 本⽂文⾸首先使⽤用开源中⽂文处理组件结巴分词对原始新闻报道和⽹网民评论进⾏行了初步处理,包括中⽂文分词、移除停⽤用词、词性标注、关键词提取等。采⽤用 Word2Vec 模型基于全部的新闻和评论语料进⾏行
Word Embedding ,将语料中的词语训练成 维词向量。在词向量的基础上,可以通过余弦相似度、欧⼏几⾥里德距离等⽅方法计算词语之间的相似度,从⽽而赋予词语更加丰富的语义信息。 主题模型 在 理 解 ⽂文 本 的 基 础 上 , 采 ⽤用
Latent Dirichlet Allocation 主题模型 [6] 对新闻进⾏行聚类。
LDA 属于⽆无监督的⽂文本分类模型,输⼊入为⽂文档 - 词语矩阵,矩阵中的每个元素表⽰示词语在⽂文档中出现的次数,通过矩阵分解输出两个矩阵:⽂文档 - 主题矩阵、主题 - 词语矩阵,使得同⼀一主题的⽂文档所使⽤用的词语尽可能相似。本⽂文将聚类数量设为 ,经过聚类之后,每个主题中出现概率最⼤大的 个关键词如下所⽰示: l 主题 (⾏行业):市场、配资、规模、指数、需求、房地产、理财产品; l 主题 (观点):表⽰示、合作、未来、可以、没有、成为、模式; l 主题 (政策):中国、管理、政府、央⾏行、出台、⽀支持、银监会; l 主题 (平台):公司、担保、融资、项⽬目、有限公司、抵押、典当⾏行; l 主题 (理财):投资者、投资⼈人、资⾦金、 P2P 、平台、数据、收益。 根据这些关键词可以⼤大致推断每类所对应的主题,分别为⾏行业、观点、政策、平台、理财,分别涉及
P2P ⽹网贷的不同关注领域。各个平台在不同主题上的新闻数量分布规律和变化趋势可⽤用于事件检测和平台 分 析 , 这 也 将 作 为 平 台 的 动 态 新 闻 特 征 输 ⼊入 到
OMNIRank 模型中。 知识图谱 知识图谱是⼀一种知识表⽰示的形式,⽤用节点表⽰示实体、⽤用有向边或⽆无向边表⽰示实体之间的关联,因此可以⽤用图论中的相关理论来研究实体的性质,使⽤用最短路径等算法发现实体之间的关联。同时节点和边都可 以具备丰富的属性,从⽽而能够更完善地组织和表⽰示现实世界中的知识。 在对⽂文本语料进⾏行命名实体识别、关系抽取、开放域知识提取等处理后,本⽂文构建了⼀一张包含 家平台、 名⼈人员、 种职位、 种平台标签、 类平台性质、 处地理分布,共计 个节点的知识图谱,并将其存储于图数据库 Neo4j 中以实现更快的查询速度。节点之间可能存在多种关联,例如,根据所获取的平台数据,平台节点会和对应的⼈人员、平台标签、平台性质、地理分布等多个节点存在关联。 在知识图谱的基础上,可以探索平台之间的关联和相似度,和平台直接关联的节点特征也隐含了平台的风险信息。举例来说,标签、性质和地理分布都相同的平台之间可能存在更⼤大的相似度,⽽而平台如果出现基本信息缺失的情况,即没有与相应类别的节点关联,或者和已知的问题平台相似,都有可能存在更⼤大的风险。 情感分析 情感分析(
Sentiment Analysis )是指发现和挖掘⽂文本中所包含的正负情感词和隐含语义等内容,判断⽂文本所表达的情感倾向性和⽤用户态度。通过对新闻报道和⽹网民评论进⾏行情感分析,可以获悉媒体和公众对
P2P 平台所持态度,强烈的负⾯面态度可能意味着平台风险的增加。 本⽂文基于互联⽹网买家评论数据集,训练了⼀一个半监督递归⾃自编码器模型⽤用于情感分析 [7] ,将所获取的 条新闻和 条评论分为正⾯面和负⾯面两类,并通过
NVIDIA GPU 加快模型训练和预测速度,从⽽而得到各个平台以天为粒度的正⾯面以及负⾯面新闻和评论数量,即动态新闻和动态评论中与正负情感有关的特征。 P2P 平台⻛风险量化 给定 P2P 平台的特征集合 𝑋 ,包括静态特征集 𝑋 ! 、动态指数特征集 𝑋 !" 、动态新闻特征集 𝑋 !" 、动态评论特征集 𝑋 !" ,即 𝑋 = 𝑋 ! ∪ 𝑋 !" ∪ 𝑋 !" ∪ 𝑋 !" ,同时给定各个平台的风险标签 𝐿 ∈ { , } , 表⽰示平台正常运营, 表⽰示为问题平台。平台风险量化的⽬目标是得到以下评分函数,以特征集合 𝑋 为输⼊入并输出风险评分 𝑆 ,其中 𝑆 ∈ [ , ] 。 = 𝑓 ( 𝑋 ) 风险量化值 𝑆 应当满⾜足以下三点性质: 选定某个合适的阈值 𝛽 后, 𝑆 值⼤大于 𝛽 的应尽可能为正常平台,⼩小于 𝛽 的应尽可能为问题平台; 正常平台的 𝑆 值应尽可能⾼高并接近 ,⽽而问题平台的 𝑆 值应尽可能低并接近 ; 将所有平台按 𝑆 值从⾼高到底排列后,越靠前的平台中存在的问题平台应尽可能越少。 因此, P2P 平台风险量化本质上是⼀一个有监督的⼆二分类问题 [8] ,以上提出的三点性质可以作为模型性能的评估标准。为了从多维异构的平台特征中全⾯面准确地融合出风险信息并进⾏行评分,本⽂文提出了基于深度学习的
OMNIRank 模型。 深度学习在近⼏几年的研究中得到了蓬勃的发展和⼴广泛的关注 [9] ,随着
GPU 性能的提升实现了进⼀一步的普及,在⾃自然语⾔言处理、模式识别、语⾳音识别和信息处理等领域表现尤为卓越。深度学习模拟⼈人脑的思维模式,能够通过深层⽹网络抽象出更为⾼高层的概念并进⾏行决策,⽽而这正是投资者从纷繁复杂的数据海洋中概括有⽤用信息所需要的能⼒力。
OMNIRank 采⽤用多种深度学习模型组合成的神经⽹网络来处理不同形式(单个值或值序列)和不同类型(数值、类别值、⽂文本)的输⼊入特征,进⾏行全⾯面精确的
P2P 平台风险量化并⽣生成评分和排名。数值特征可以直接输⼊入到
OMNIRank 中,类别值特征需要经过
One-Hot 处理转换成 向量,⽂文本特征则通过
Word2Vec 模型转换成词向量并输⼊入。
OMNIRank
OMNIRank 的模型结构如图 所⽰示,共包含 类特征输⼊入,分别对应静态数值特征、静态类别特征、动态指数、动态新闻和动态评论。本⽂文采⽤用卷积神经⽹网络( CNN , Convolutional Neural Network )和最⼤大池化层(
Max-Pooling )处理静态类别特征,使⽤用全连接层(
Dense )处理静态数值特征;动态指数特征以序列的形式输⼊入到长短时记忆(
LSTM , Long Short-Term Memory )中,⽽而动态新闻和动态评论特征则输⼊入到
LSTM 和 CNN 的并⾏行组合中;以上⽹网络层的输出传递到隐藏层中进⼀一步融合和汇聚,并加⼊入
Dropout 层避免过拟合和提⾼高模型泛化能⼒力。 除此之外,本⽂文还考虑了不同类别输⼊入特征之间可能存在的相似关联和相互影响,并将两者组合到同
Fig.2 The framework of OMNIRank 图
2 OMNIRank 模型结构图 ⼀一个全连接层中,例如都属于平台固有属性的静态数值特征和静态类别特征,同样是数值类型的静态数值特征和动态指数特征,以及同样是⽂文本类型的动态新闻特征和动态评论特征。通过以上结构,
OMNIRank 能够综合
P2P 平台的多维异构特征,基于尽可能多的数据输⼊入从宏观和长期的⾓角度进⾏行平台风险量化。 模型性能评估 本⽂文使⽤用基于
Theano 和 TensorFlow 的开源深度学习组件
Keras 实现了
OMNIRank 模型,采⽤用 分交叉验证进⾏行模型训练和预测。由于在 P2P 平台风险量化这⼀一问题上暂⽆无相关研究和模型可作为⽐比较,本⽂文选择了⽀支持向量机(
SVM , Support Vector Machine )、随机森林( RF , Random Forests )和逻辑回归( LR , Logistic Regression )三种经典机器学习分类模型来⽐比较
OMNIRank 的性能。 根据性质 ,由于问题平台以及问题出现的时间都为已知,本⽂文选择每个⽉月为时间节点,使⽤用以上四种模型( OMNIRank 、 SVM 、 RF 、 LR )进⾏行风险量化和评分,并将评分排名中前 的平台标记为正常平台,⽽而后 的平台标记为问题平台。在每次评分时,仅使⽤用当下时间以前的输⼊入特征数据,⽽而排除当下时间以后的输⼊入特征数据,各个平台的标签同样结合当下时间和问题出现时间进⾏行判断和更新。相对于使⽤用全部输⼊入特征数据和各个平台的最新状态作为标签,以上⽅方法可以使得每个⽉月的评分结果更加符合实际。四种模型的标记准确率如图 所⽰示,可以看出从 年 ⽉月⾄至 年 ⽉月的 次测评中, OMNIRank 始终保持最⾼高的准确率,并且随着数据量的积累和增长,准确率整体呈现上升趋势,在最近的⼀一次评分中已经达到了 的准确率。 考虑到风险量化的最终⽬目标是识别出问题平台,本⽂文也使⽤用了
AUC 作为评估指标来⽐比较以上四种模
Fig.3 Comparisons of models’ accuracies 图 模型准确率⽐比较 型的性能。 AUC 值的定义如下:
𝐴𝑈𝐶 = 𝑆 ! ! 𝑀 × 𝑁 其中 𝑀 和 𝑁 分别为正例(正常平台)和反例(问题平台)的数量。对于每⼀一个正例 - 反例对(共计 𝑀 × 𝑁 对),假设模型对正例的评分为 𝑠 !" ,对反例的评分为 𝑠 !" ,则该正例 - 反例对的得分 𝑆 ! 根据 𝑠 !" 和 𝑠 !" 的相对⼤大⼩小关系决定: 𝑆 ! = 𝑠 !" > 𝑠 !" . 𝑠 !" = 𝑠 !" 𝑠 !" < 𝑠 !" 不难看出, AUC 值位于 和 之间且越⾼高越好,更⾼高的 AUC 值意味着模型给正例的评分整体相对于反例更⾼高,⽽而不需要⼀一个绝对的阈值⽤用于划分正例和反例,因此更适合于风险量化模型性能的评估。四种模型的
AUC 值如图 所⽰示, OMNIRank 的性能明显优于
SVM 和 LR 。尽管 RF 在 年 ⽉月的评分中 AUC 值略微⾼高于
OMNIRank ,但随着数据量的积累和增加,
OMNIRank 拥有更强的学习能⼒力、
AUC 值提升更快并超过了 RF ,在最近⼀一次评分中达到了 的 AUC 。 根据性质 ,风险量化的⽬目标是给正常平台尽可能⾼高的评分,给问题平台尽可能低的评分,从⽽而便于将两者进⾏行区分。图 显⽰示的是在四种模型最近⼀一个⽉月的评分结果中,正常平台和问题平台在不同评分区间的数量分布。可以看出, OMNIRank 明显地将正常平台和问题平台区分开来,并且在 和 处分别出现了两类平台所对应的峰值;相较之下, RF 的结果中,正常平台的评分不够⾼高,且不少问题平台得到了较⾼高的评分; LR 和 SVM 则表现更差,相当数量的问题平
Fig.4 Comparisons of models’ AUC 图 模型 AUC 值⽐比较 台得分和正常平台混叠在⼀一起( 和 附近),⽽而且 和 两端也没有出现显著峰值,未能明显地将正常平台和问题平台划分到不同的评分区间中。 Fig.5 Score distributions of normal and problematic platforms 图 正常平台和问题平台的评分分布 在评估 OMNIRank 的分类性能时,是通过⽐比较标记结果和当下时间的平台标签来计算模型的分类准确率。根据性质 ,为了评估 OMNIRank 的预测性能,本⽂文以下⼀一时间的平台标签为基准,统计当下时间评分排名不同区间中将要出现问题的平台⽐比例,例如,对于 年 ⽉月的评分排名,根据 年 ⽉月的平台标签进⾏行统计,以评估 OMNIRank 的预测性能。统计结果如表 所⽰示,可以看出六个⽉月以来,评分排名前 中没有出现任何问题平台,前 名中也只有在 年 ⽉月出现了 家问题平台,说明对投资者⽽而⾔言, OMNIRank 风险量化排名前 是⼀一个相对安全可靠的投资区间。除此之外还可以发现,随着排名区间范围的扩⼤大,区间所含平台的平均利率也逐渐提⾼高,说明⾼高回报确实伴随着⾼高风险,这为资深投资者 able 4 Evaluations of prediction performance of OMNIRank 表 预测性能评估 排名区间 平均利率(%) 前
20 0 0 0 0 0 0 10.71 前
50 0 0 0 0 0 0 10.99 前
100 0 0 0 0 0 0 11.42 前
200 0 0.5 0 0 0 0 12.64 前
500 0.4 1.0 1.0 0 0.6 0.2 13.58 前 全部 如何综合风险和利率以获得最⼤大期望回报提供了有⼒力的数据⽀支持。 数据可视化 本⽂文根据 OMNIRank 的风险评分排名,筛选出前 名平台,并基于其对应数据进⾏行了丰富的数据可视化和交互探索 ,以便投资者结合⾃自⾝身实际投资偏好选择适合⾃自⼰己的 P2P 平台,所使⽤用的数据可视化⽅方法和形式包括折线图、饼图、柱状图、散点图、雷达图、矩形树图、字符云、平⾏行坐标轴、平⾏行时间流、新闻时间流、知识图谱、演化时间线等 [10] 。 数据可视化部分设计了四个页⾯面,⾏行业概览、平台详情、平台对⽐比、懒⼈人选投,如图 ~ 所⽰示。通过⾏行业概览可以了解 P2P ⾏行业整体的发展趋势和统计数据,如平台知识图谱、地理分布、地域统计、指数对⽐比等;通过平台详情可以查看
P2P 平台的详细信息,如注册信息、⼈人员信息、核⼼心指标、舆情统计、历史数据、⼤大事时间线等;在平台对⽐比中可以选择任意两家
P2P 平台进⾏行全⾯面的对⽐比,懒⼈人选投则设计了基于选择的平台推荐、基于标签的平台匹配、基于图谱的平台关联三项功能。通过以上功能,投资者可以⾸首先选择是否要进⼊入
P2P ⽹网贷这⼀一⾏行业,然后选择⼀一些感兴趣的平台了解详情,通过深⼊入对⽐比进⼀一步决策取舍,并借鉴智能推荐作出最后的投资选择。 结束语 本⽂文针对国内愈发严重的 P2P 平台倒闭问题,提出了基于深度学习的平台风险量化模型
OMNIRank ,在获取和清洗了相关的海量多源异构数据之后,采⽤用数据分析提取了平台风险的多维特征,通过多种深度 在线可视化链接: http://zhanghonglun.cn/ppd/ Fig.6 Business overview 图 ⾏行业概览 Fig.7 Platform details, Platform comparison, Recommendations 图 平台详情、平台对⽐比、懒⼈人选投 学习模型组成的复杂⽹网络进⾏行风险量化。 OMNIRank 实现了优越的分类性能和预测性能,结合丰富的数据可视化和交互探索,能够为投资者辨别问题平台提供有⼒力的理论指导和实际价值。 考⽂文献 [1] Lee E, Lee B. Herding behavior in online P2P lending: An empirical investigation[J]. Electronic Commerce Research and Applications, 2012, 11(5): 495-503. [2] Freedman S, Jin G Z. Do social networks solve information problems for peer-to-peer lending? evidence from prosper. com[J]. 2008. [3] Lin M, Prabhala N R, Viswanathan S. Judging borrowers by the company they keep: Social networks and adverse selection in online peer-to-peer lending[J]. SSRN eLibrary, 2009. [4] Morris S, Shin H S. Social value of public information[J]. The American Economic Review, 2002, 92(5): 1521-1534. [5] Mitchell M L, Mulherin J H. The impact of public information on the stock market[J]. The Journal of Finance, 1994, 49(3): 923-950. [6] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3(Jan): 993-1022. [7] Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 151-161. [8] Carr M J, Konda S L, Monarch I, et al. Taxonomy-based risk identification[R]. CARNEGIE-MELLON UNIV PITTSBURGH PA SOFTWARE ENGINEERING INST, 1993. [9] Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8): 1798-1828. [10] Bostock M, Ogievetsky V, Heer J. D ³ data-driven documents[J]. IEEE transactions on visualization and computer graphics, 2011, 17(12): 2301-2309. 附录 全部数据集: http://data.sjtu.edu.cn/dataset/ppd-stay-foolish 2 OMNIRank : https://github.com/wang-haiyang/ppd_model 3 可视化代码: https://github.com/Honlan/ppd-magic-mirror 4 可视化链接:可视化链接: