非凡访谈丨大过年的聊聊反诈——2016年的百度T9为何创业做AI风控智能体
花名欧冶子,同济本科、北大硕士,08年毕业后进入建行总行从事应用架构和安全架构管理工作;16年加入百度,任主任架构师(T9),兼百度云技术部TC主席,是百度飞桨AI Studio第一任产品经理;18年加入贝壳找房,任高级总监,从零搭建贝壳找房的信息安全和业务风险治理体系;23年初创立欧冶科技,23年8月获得苹果资本天使轮融资,目前PreA轮融资进行中,由非凡资本服务。
回顾16年的职业生涯,从建行到百度、从贝壳到欧冶,每一次变化的背后都有相同的初衷,就是对“价值”的近乎洁癖式的追求。这个价值有几层含义:首先,是个人的价值认同。就是作为个体,你预期怎么样度过自己的一生?有人选择躺平,有人选择奋斗,有人选择投机,价值选择本身无关对错,更多是一种偏好;而我的选择就是奋斗,不仅是因为从小受到的教育是这样,也因为我的确想活得有意义。其次,是个体对社会的价值。就是作为社会中的一员,我所做的事,是不是能给社会带来独特的、增量的价值?而不是“炒冷饭”去做别人都可以做的事,这在某种程度上预示着我只能去寻找创新的事物。
AI是未来二十年最大也是最好的方向,它必然深度的重塑全世界。如果拿个人电脑的发展来对比,我们所处的时代就是PC的90年代。啥意思呢?在90年代初,PC作为跨时代的高科技产品已经广受世界瞩目。但还未来的及大面积的普及,从PC延展出的互联网就以一种更凶猛的方式快速的席卷全球。在这样的一个过程中,PC和互联网互相牵引:快速繁荣的互联网应用极大的促进了PC普及速度,而PC性能的提升又反哺了互联网更大的繁荣;是PC成就了互联网,还是互联网成就了PC,这是个无法探讨的问题,因为两者是融为一体的。
而今天的AI,就处在从PC(AI)到互联网(AI应用)的跃变临界点上。在未来二十年AI应用必然逐个重构每个产业,这样的一个过程会和PC/互联网的关系一样:AI应用对大模型等底层技术提出更多的诉求,而大模型AI技术的迭代将逐步扩大AI对产业的改造能力和效果。我们处在这样一个跃变的时代,没理由不投身这个方向。
至于风控场景的选择问题,就和个人过往的职业经历相关了。我信奉“一万小时定理”,就是一个人要对某个行业有理解、能跟行业里顶级大咖对话的条件是至少从事在这样的领域里从事10000小时。如果按一周5X8计算就是5年,如果按6X12计算大约是两年半。我见过一些聪明人,能快速的对行业有理解,但要做到既有框架又有细节,就非投入时间不可了。说回来,选择风控场景来落地是因为我对这样的领域更熟悉,也因为我不相信自身可以快速掌握别人多年都没参透的领域,我们很聪明、但别人也不笨。放弃自己过往的优势,而用自己的劣势去和别人的优势来竞争,不是一个理性的选择。
选择风控场景的另外一个原因是这样的领域原本可以庞大,但却被现实做的很弱小。今天普罗大众对“风控”的认知停留在“刷单薅羊毛”等有限的几个场景里,甚至不少的风控从业者也不理解“风险控制”和“风险管理”两者的差异。而事实上,每一项业务都伴随着“影子业务”:有贷款就有骗贷、有保险就有骗保、有销售就有私单、有物流就有暴力分拣、有红绿灯就有闯红灯的。但这么多的风控场景也无需每个都需要得到治理,我更喜欢用“企业的良性经营”来定义这个方向。凡是能对企业主营业务导致非常严重危害并且存在有组织的人为作恶的,都属于“企业良性经营”的范畴,这个方向是C端风控、B端内控和服务的品质、G端合规甚至G端国家对抗的复合场景。任何脱离主营业务聊风控的人,都会陷入为治理而治理的泥潭,这是没有价值的,至少不是主流的价值;事实上这也是这些年来风控作为一个行业无法壮大的原因,我认为市场上并不是没有需求,而是供给侧的缺失压制了合理的需求。
长期来看,以AI为基石、以“企业良性经营”为切入场景,是我们最终选择的一个企业未来的发展路径。未来,如果立足“风险管理”的垂直场景,我们可完全重塑这个行业,这是一个足够庞大的市场。当然,我们也可以横向选择更多的场景,因为本质上我们是一家大数据和AI技术的对抗型公司,技术能力是通用的,未来市场的横向扩张存在多种可能性。而当下的工作,是存活下来,让我们在未来有能去做一些选择。
数据是当今最大的生产要素,数据的流动和使用是当今最大的生产关系(数据不流动就没有大模型和Sora)。但至少对银行业来说,认知和行动上存在强烈的反差。一方面,银行信息化快速地发展20年、业务离柜率超过95%、数据被大规模采集;另一方面,数据的内部流转(且不谈对外的事)却受到苛刻的管控,数据实际上没办法得到真正的应用。这样的一个问题深层次的原因很多,包括银行业的认知、系统架构、IT组织、信息安全、部门权责等方面,这些都造成了数据的治理权和使用权的割裂。更进一步说,总行要治理而分行要使用、技术要治理而业务要使用。数据要发挥价值,这个堵点问题不解决,再努力也是徒劳的。
从乙方市场看,目前多数公司解决这一个问题的路径都是从下(技术层)向上(业务层)的,向银行业输出ML(机器学习)和DL(深度学习)平台、引擎、模型、方法论,技术上接不住、业务上无感知,技术、业务没办法真正联动就注定了银行的数据和AI技术没办法真正落地,数据自然就无法因技术创新而形成有效的流动机制。进一步说,在银行业里数据流动、技术进步、业务发展,这三者关系只能是业务发展做牵引、数据流动和技术进步做支撑;而目前多数公司采用的路径是科技做牵引、默认数据能流动、等待业务能见效;这是不可能成功的。因为大家尝试改变的,不是技术问题,而是技术部门在组织里的权责定位问题。乙方公司,何德何能来推动甲方内部的组织架构问题?!如此来看,ML和DL无法在银行内大规模、实质性使用也是情理之中吧。
那么好的解题思路是什么?是提供面向业务团队可直接用的数据分析工具。可以简单地理解为从业务场景入手,将底层模型、算法、数据封装成业务人员能开箱即用的工具,而不是策略研发或数据科学家才能用的工具。通过解决业务问题,来推动数据的流动;数据流动带来技术进步反哺业务,往复循环形成良性互动。我越来越坚定地认为这是在不改变组织架构前提下,银行金融大数据能形成智能的唯一路径。有人将这些认知称为场景KnowHow,我们对此理解深刻,表面上我们在解决风控的场景问题,本质上我们在尝试创造一些适配国有企业组织架构的数据分析产品。
世间难以定义的概念,往往是大家都有感知、能聊上几句的领域,“风控”就属于这种类型。但风控从业者之间的交流,就像中国人读日本字一样,乍一看都认识,但表达的意思却大相径庭。结果是大家聊得挺热闹,但多少有些鸡同鸭讲的嫌疑。问题出在张的风险和李的控制,无论在业务场景还是技术实现上都存在很大差异,甚至是理念也完全不同。高效对话的前提一定是概念被标准定义,这并不是一件容易的事。
是包括风险评估,也有叫风险暴露、风险识别等、风险确认(和风险偏好有关)、风险控制(狭义风控)和风险跟踪在内的风险管理全过程。不相同的领域的风险管理理论都有各自的定义,但本质差别并不大。风险识别是风险控制的基本前提,但并不是所有的风险都能被清晰地认知,也并不是所有被识别的风险都需要被控制。这句话看似空泛,但却是企业里风控团队常犯的错误。
除了上面几种场景外,还有一些典型的、企业痛点很高但并未得到解决的风控场景。例如商业窃密和反窃密,这是企业侵占企业利益的B2B场景。有一个真实案例,某地产公司每周一向管理层报送成交量、带看量等关键业务报表,这份数据会同一时间出现在竞品公司管理层的办公桌上,而且每周例行!丝毫没有悬念,这种明显有组织性的窃密行为,背后一定是巨大的利益驱动。还有个比较独特的场景,就是企业品质管理,属于企业管控员工的B2b场景(这个场景不是利益侵占,而是防止被侵占)。这个场景在服务型产业里痛点非常高,但处在风险无法被评估状态。例如一些劳动密集型产业里,高达3%的员工存在违法案底记录,大量的涉毒和经济犯罪、少量的暴力犯罪。对企业来说,保证服务品质就是管好人,管好人的前提是做好员工的准入背调。
可以看出,这种分类方法的第一视角是风控对抗的获利方和受损方。这样做的必要性是只有先明确谁受损,才能明确谁有充足的动力进行风险控制。有的从业者将其称为
,即风险发生的前提是攻击者能从中获取利益;反言之,风险控制的前提是被攻击者的利益被侵犯。对风控而言,技术和产品都最重要,但都需要在业务受损方的驱动下才能发挥作用。我们大家可以反向思考两个场景的风险控制为什么经常做不好:
第一个场景是电信诈骗为什么这些年越治理越严重?原因很复杂,但核心原因是客户骗客户的C2C场景下,网络站点平台、运营商、银行都不是利益受损方,甚至还是连带的获利方。如果不是2022年《反诈法》的颁布和执行,不客气地说几个相关方并没有主动治理的动力,毕竟电信诈骗的过程很容易证实“客户有过错”,而很难证实“银行无过错”。
第二个是营销拉新薅羊毛。这个场景下营销部门、风控部门的目标不是严丝合缝的相同。对风控部门来说,看到了虚假拉新现象;对营销部门来说,在满足业务指标的前提下,虚假的存在只是提高了拉新成本而已。是否对企业造成亏损,可能是一把手而不是部门要思考的问题。这个观点看似价值观不正确,但用价值观和道德来约束他人是对人性的挑战,好的制度设计总是符合而不是刻意挑战人性。这两个场景都是业务受损方不明确而造成风险控制的驱动力不足,所以很多公司风险问题解决不好是有共性原因的。更通俗的说法就是谁痛谁解决,谁真的痛谁就动真格的去解决。风控的分类方法要着眼于能否把有痛感的人准确识别和归类。
举个例子来说,如何在人群中寻找抢劫犯?专家规则系统给出的答案是膘肥体壮、手持砍刀、头戴,规则系统存在的最严重的问题是很难枚举所有特征,比如体重多少算膘肥体壮?水果刀算不算砍刀?穿腿上算不算?AI算法在很大程度上解决了这样一些问题,甚至主动给出专家不能理解但事实上非常准确的异常人群。但不论专家系统还是深奥的算法,本质上都是在找特征、做画像、做分类分级、做风险评分,
预测在很多时候只能给出相关性而不是因果性,而因果解释性却又是业务运营最关心的事。
其实存在已久,但可能受制于业务需求的发展,这个方向的技术产品处于空白状态。它的核心理念是通过追溯来寻找作恶证据。还是举例来说明,公安是如何破获盗窃案件的?常见过程是事件发生后寻找线索(比如凶器只能在某家商店买到)、锁定嫌疑人(只有几个人在这家商店里买过同类凶器)、寻找物证和人证(比如凶器上找到了嫌疑人的指纹)。通俗地说,举证理念是“你就是坏蛋”,理由是只有你和某件事有关。
从名字就能看出来是一种安全防御理念。信息安全领域经常讲“纵深防御”,实际上的意思就是将安全的认证和权限控制嵌入到业务流程中,防止攻击者单点突破即攻陷系统的情况。更通俗地说,银行的金库不能只设一道防盗门,最好是加个三五道。这个理念的背后是提升作恶门槛,形成和作恶者间的心理博弈,作恶者担心的不是这道门槛能否攻破,而是攻破后给他带来的是惊喜还是惊吓。
在数据方面,前边已经提到过:银行不是数据不够,而是数据权力的割据太厉害。数据权力割据其实不仅发生在总行和分行之间、业务和技术之间,也发生在技术的不同部门之间,这些割据的背后是银行内历史悠远长久的组织权益分配格局,越是大行越是根深蒂固、坚不可摧。以电信诈骗为例,这些割据的存在,最终让风控对抗犹如大明王朝和满清的对抗:一群优秀的、绝顶聪明的、资源充沛的精英,被草莽出身的诈骗分子打的没有还手之力。一边是冗长繁杂的流程机制和交错的部门分工,一边是高效直接的反馈机制和利益驱动而聚集到一块的团伙,这仗打不赢也在意料之中。
是的,而且这种组织架构几乎不可能被改变。我们总结真相,就往往会有“吐槽”的嫌疑,其实只有客观分析真相才能下对症的药。风控公司和风控产品的机会恰恰在这些或无奈或现实荒诞的真相里,能解决上边抽象问题的产品,必定会对这个行业产生改变。这样的产品没有办法靠商务关系、监管导向来达成,也没有可以绕路的捷径,只能硬碰硬地解决表层场景和底层组织的问题才能达成。这十分艰难,但也是巨大的商业机会。这也是我出来创业的原因之一吧。
这个时期,伴随国内主要银行的业务线上化,慢慢的出现一些针对电子银行的网络诈骗,例如利用病毒木马进行资金划转、使用钓鱼网站诱骗客户信息等。当时时四大国有银行每年处理的钓鱼网站数量在300~500左右。总体来说一些骗术和攻击手段慢慢的开始冒头,但总体处在偶发、试探状态,针对电子银行的全国性骗术并未形成。
2011年到2013年,针对一代网银盾的攻击开始大面积蔓延。这种攻击采用手机的方式,通知客户网银盾到期要升级,客户按钓鱼短信的提示插入一代盾并下载“升级程序”后,界面提示升级进度条。同时,木马后台开始通过系统底层API接口来调用一代盾种的网银证书;由于PC时代操作系统底层安全机制的架构设计缺陷,A程序能通过某些特定方式来调用B程序的链接库,木马恰恰利用这个设计缺陷。这波浪潮一直延续到2013年二代网银盾出现以后才逐步停止。应该说,这一段时期的诈骗活动,带有强烈的技术攻击色彩。
暴力猜解和盗刷是两种不同的形态。相比来说,暴力猜解出现的晚一些、盗刷更早一些,但两者的泛滥期同样在2013年—2014年。暴力猜解的出现和一次著名的互联网信息泄漏事件有关,即国内某大型技术开发者社区在2011年12月份的650万注册账号泄漏。事实上,这份数据在黑市上流传已久,但长期在小范围内使用。2011年12月的公开流转具有“打开潘多拉宝盒”的意义,自此之后几乎国内外所有大型网络公司悉数爆出批量甚至全量的信息泄漏,比如某米的1.8亿信息、某邮箱的3亿多用户、某涯的4000万用户,至于后续大众熟知的3000万开房数据就是更后续的事情了。说回正题,犯罪分子采集这一些数据之后,通过信息片段的关联就可以拼接出 “用户名和密码”的信息对,然后通过自动化登录程序进行密码的猜测,准确率高达11.7%。正所谓不怕贼偷就怕贼惦记,这11.7%的客群里很多人被犯罪分子长期跟踪。盗刷,线下的实体卡盗刷,这其实是一种古老的攻击形态,通过ATM侧录、POS改装等工序,就可以在用户插卡消费时获得密码二磁道等信息,然后通过读写卡设备制作一张白卡,就可以盗刷受害人的资金。
非技术纯骗术的事件早在2011年之前就存在,但泛滥成灾还是在2016年之后,标志性事件就是2016年9月发生的大学生徐玉玉被诈骗致死案件。电信网络诈骗从此陷入一直在治理、一直控不住的窘境。这一段时期开始,犯罪分子逐步完全抛弃技术攻击,转向纯“社工形态”的骗术。正所谓,越古老的形态越具有“生命力”。
对。对抗从来未停歇,一直在路上。这些年,银行的控制越来越完善、破解难度慢慢的变大,犯罪行为向“简单、粗暴、有效”的方向发展。从责任角度看,从“银行有过错”到“客户有过错”发展,银行资金安全防控工作慢慢的变多的带有监管和社会责任含义。另外,各个时期的诈骗行为,始终伴随着相同的前提;就是跨领域的客户信息泄露。了解这些看似对防控并无直接帮助,但
截止到今天,银行业反诈的总体格局不是“猫鼠游戏”,而是“狼吃羊”的游戏。“狼”就是洗钱团伙(不是诈骗团伙),“羊”就是各家银行。各家采用的策略是让自家的羊比别家的瘦,瘦到狼从你面前过都不稀罕去“牵羊”。说人话就是大面积限额、冻结、约束开户,大家都在拼谁的业务体验差,差到正常客户都不用,那犯罪分子也不稀罕用。
站在积极的角度上,2023年电信诈骗处在历史峰位,在监管主导下各家银行以政治任务的觉悟、不顾一切代价地与犯罪分子进行斗争,对快速遏制犯罪态势是必要且卓有成效的。但缺少内生治理动力、缺少长效机制建设、缺少体系性规划,决定了狼吃羊的游戏将会持续演进,直到银行建立反诈运营的框架(包括组织框架和工作流程)。从这个方面看,银行的反诈工作不是进入稳定期,而是才起步。银行的工作机制决定了极少有“烂尾”工程,而专业上这件事必须要做的工作又很多,所以这一个市场会比大家理解的要宏大很多,这点我非常笃定。
所以,围绕本质展开的破题之策能且只能是“建立全职且专业的反诈运营团队”。这个组织的设计,最好但并不全是实体团队,但一定具有绝对的资源整合权力。在国家层面,国反中心已经实体化运转,2024年一些大型商业银行也开始将反诈团队实体化,哪家银行先建立了实体化组织,哪家银行就在反诈的竞赛中优先胜出。我认为反诈组织实体化是这一个市场成立的重要标志,因为只有专职负责的人和组织,才会建立专业的流程和体系,而标准产品和服务都是体系中的必备要素。
粗俗的比喻是,想不挨揍就得知道别人是咋揍你的。目前,市场上做黑产情报的公司很多,但在银行反诈这个场景上问题比较严重的是
是没有办法做产品,我们的产品就很受欢迎,短短一年时间近百家银行和公安都使用了我们的产品,而且很多是主动联系试用的。
此外,目前黑产数据的挖掘深度也非常有限,原因可能是从事黑产情报职业的人员不了解银行业务,银行的业务人员也不了解黑产情报人员的“业务”流程。
需要特别指出的是,很多银行寄希望于黑产情报解决实际问题,现实是黑市的信息做到极致,也只能覆盖
的涉案卡。黑市情报的更大价值不是在覆盖率,而是在信息补齐和高层次的对抗突破上,更像特种兵单兵突破,而不是集团军冲锋。寄希望于黑产情报解决实际问题的,就跟特种兵和集团军正面冲锋一样,好兵也被用废了。
案件还原,是利用银行自有数据来进行涉案卡行为分析,找到涉案前犯罪分子的特定行为特征,并对其进行“犯罪业务场景”解读。
这依然是“知攻防”的思路,与黑产对抗的差别是案件还原的数据里糅合正常行为,对无经验的人来说更像是个海底捞针的工作。案件还原是个玄幻的工作,有的一周上手,半年就是专家;也有很多做了很多年依然摸不到门道的。但总体上案件还原是一门可被培训的手艺,尤其是配套一些易用工具的前提下。
一个案件还原的输出是什么人、什么场合、通过什么渠道、进入什么系统、做了一件什么独特的事。所有案件还原的数据就是针对某银行的攻击主要是什么场景、各自占比是多少。这些输出实际上的意思就是模型建设的输入,坦白讲,
银行今天缺的不是模型研发、模型决策和模型计算能力,而是模型建设的思路问题。
有点像建了很多超牛流水线,最后发现没原料,流水线用不起来的感觉。案件还原,解决的就是原料问题,这就是欧冶切入口,多模态大模型在信息获取、搜集、加工整理和业务分析上助力很大,属于以前想做但是做不到的事情。
简单总结,对银行甲方来说,可以不建自己的运营团队,但无法逃避需要运营这项工作;对乙方公司来说,所有胜出的机会都在帮助甲方建立可运转、可持续对抗的运营机制。
我们的团队不是戴着老花镜的老专家,我们是从风险场景里摸爬出来的老法师,我们不做预训练但开发智能体,我不是一个人在战斗,我们有美团的L10、百度5年连升四级的T7,还有超15年银行数据应用的老兵,我们觉得时机刚刚好。
在新的经济发展形势下,合规经营、降本增效是企业的刚性需求。企业的风险管理场景,天生具有强相关性。我们的远景是在企业良性经营的大赛道上,在金融风险AI智能体的产品底座上,更好、更快地解决企业经营风险管理问题,反背债、反查档、反洗钱、反信息泄露、反挪用资金等等,除了银行、公安,还有很多大规模的公司和行业(比如军队、国安等)要求我们去帮他们解决问题。
小学生放学太早无人接送?深圳有家长建议小学延时至18:30放学,教育局:课后服务原则上至18:00
有深圳家长在人民网留言板发帖称:小学放学时间早,不方便职工家长接送及看护,建议延迟至18:30放学。对此,宝安区教育局作出回应:课后服务时间原则上至18:00,有特殊情况需要延迟放学的,由学校予以妥善安排。
新华社北京4月7日电(记者阚静文)“住手!”“抗争”“我们不想要这样的美国!”,超1000场,逾50万人参与……美国总统特朗普日前签署最新的“对等关税”行政令,加之美国政府此前出台的一系列政策,引发美国国内及欧洲强烈抗议。连日来,多地民众走上街头,用行动表达不满与愤怒。
据美媒近日报道,作为对特朗普政府向中国加征一定的关税的回应,中国日前对多种稀土相关物项实施出口管制,其中涵盖了对航空电子设备领域至关重要的资源,这可能会极度影响美国第六代战机项目研发进展。特朗普上月在白宫宣布,选定波音公司来执行生产美国第六代战机项目。
距离“对等关税”落地生效不到24小时,特朗普又变卦了。北京时间4月10日凌晨,他在社交平台宣布,鉴于超过75个国家和地区已致电美国方面寻求解决方案,且他们没对美国采取报复性措施,为此已批准对这些国家暂缓90天实施新关税。期间,10%的所谓“基础关税”保留。
美国政府宣布对所有贸易伙伴征收所谓“对等关税”后,苹果等美国科技公司股票跌幅明显。有外国机构指出,加征一定的关税可能会使苹果手机价格持续上涨30%—40%。美国加征一定的关税的代价是什么?通过对一部苹果手机组成的拆解,或许能够获得答案。
美国东部时间4月9日0时,北京时间4月9日12时,白宫所谓的“对等关税”砸向全球数十个经济体。钢铝、汽车、芯片、大豆……都成为白宫的扫射目标,无一幸免。这场自诩为“美国优先”的贸易战慢慢的变成了一场“经济勒索”。
4月10日(报道)湖北武汉,男子到菜园摘菜 蜱虫钻入皮肤,欲自行取出却把虫拔断 虫头留在肉里,医生:被蜱虫咬后绝对不可以硬拽!(湖北日报)
特朗普称将对未采取报复行动的国家暂停加征一定的关税90天,但是上调对华关税至125%甚至有可能到150%,中国是否会继续对美加征更高关税?商务部回应。
“烧毁300辆、失控1000辆!”云南玉溪高速每公里十个警示牌,交警:全国最危险的路段
近日,有网友发帖称,在云南普洱到玉溪的一段高速上,每公里有十个警示牌。牌上分别写着“货车易起火路段,已烧毁300余辆”,“已失控1000辆货车”,“第1000辆”,“还有21公里长下坡“等等,引发网友热议。
在阅读此文之前,麻烦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持文、编辑小娄2022年12月29日这天,消失在大众视野许久的央视主持人朱军在社交平台上更新了一则内容。
上一篇:保险利益:数据赋能风控