编者按
《刑辩百人谈》是京都律师事务所刑事二部倾力打造的刑事辩护实务交流专栏,聚焦中国刑事辩护领域的前沿动态与核心议题。本栏目以刑辩实务为脉络,通过资深律师、专家学者及司法实务工作者的多维对话,深入剖析热点案件法律争议、疑难案件办理策略、新型犯罪辩护技巧及刑事风险防控等关键命题,内容涵盖实体法与程序法交叉应用、证据攻防实战经验、庭审实质化应对方案等专业领域,既呈现了刑辩艺术的思辨交锋,又沉淀了行之有效的实务智慧。现将2024年百人谈活动第17期文字稿整理如下,供大家参阅。
点击查看链接:京都动态|刑辩百人谈第17期:大数据刑事侦查与律师执业风险防范
主题研讨
黄凯
大家下午好,很高兴利用周五下午的时间跟大家一起聊聊大数据侦查这个话题。今天咱们立足于公安侦查的角度跟大家聊一聊大数据刑事侦查与律师执业风险防范的问题。我从市公安局辞职出来做律师,今年是第7个年头了,一直期待有机会跟大家分享一些侦查实务和刑辩业务相结合的内容。个人认为作为刑辩律师,掌握一些侦查方面的知识,对于拓展辩护思路是有一定帮助的。侦查学虽然和法学有比较紧密的联系,但是在性质、研究方法及原理上有自己的侧重。律师在办案实务中,特别是面对一些证据问题时,除了我们习惯的法学思维,如果能从侦查角度去审视一下案件,对理解一份证据的成因、取证目的和效果等,都有一定帮助。这也能让我们更好地透过证据问题找出包括侦查程序等在内的诸多方面的症结。
接下来步入正题,今天分享大数据侦查的问题,这个题目起得比较大,所以只能带大家做一个简单的梳理。近10年来受互联网、大数据、人工智能等技术发展的影响,公安机关也在大力开展智慧警务建设,不断强化大数据、人工智能等数字化技术的应用。在一些重特大案件当中,大数据介入侦查极大地提升了公安办案效率和准确度。大数据的应用在一定程度上已经颠覆了传统的公安侦查思路和侦查模式。以前公安机关面对现场类刑事案件,首先要利用刑事科学技术去做一些现场勘察,特别是各种痕迹提取,其次会利用人力手段去做大量的背景摸排、线索排查等工作,最后通过分析推理确定侦查方向,从而指导证据的获取。而在大数据侦查的背景下,侦查人员则越来越重视数据线索的提取和利用,比如办案人员到达案发现场后,可能会对现场周边的移动网络信号、摄像头分布等做基础采集工作,利用公安和其他行业收集的各种数据信息来进行碰撞。相较于传统的人力摸排、蹲守和推理,大数据的应用可以帮助侦查人员迅速缩小侦查范围、锁定犯罪嫌疑人,从而更加及时地将犯罪嫌疑人捉拿归案。
首先简单介绍一下大数据侦查的概念。从大数据概念的提出到公安机关开展大数据侦查系统建设,10年来随着科学不断进步,大数据侦查的手段和内涵也在不断深化。从公安系统建设角度来看,开展公安大数据侦查系统建设,第一步是对公安内部信息平台的整合、集成,比如将原有的刑侦、人口、治安、交管、巡察等各个部门独立的公安信息资源打通,集成为一个综合信息平台。第二步是整合外部的大数据资源。第三步是加强数据筛选、数据分析和利用能力建设。大数据侦查是一个动态发展的概念,是涵盖了侦查技术、侦查措施、侦查行为、侦查方法、侦查机制等在内的完整的概念体系。总的来说,它是指侦查机关对于犯罪行为和高度的犯罪风险,通过运用大数据技术去帮助查清犯罪事实和锁定、抓捕犯罪嫌疑人,进而实现一定时空范围内的犯罪趋势预测和犯罪风险防控等一系列侦查行为。不仅如此,大数据侦查还包含大数据技术和思维对侦查方法创新、侦查模式转型等方面的综合运用,所以说它是一个多维的、动态的、系统的概念。
其次整理一下大数据侦查发展的历史沿革。“大数据”这个概念首次提出是在2011年麦肯锡公司发布的报告中。到2013年前后,世界各主要国家逐渐重视并先后制定了一些政策去发展大数据。我国在2014年的政府工作报告中首次提到大数据的概念;2015年国务院出台了《促进大数据发展行动纲要》;2016年发展大数据就写入了国家“十三五”规划纲要。在公安侦查领域,大数据警务建设紧紧跟随国家战略的脚步,迅速发展壮大,在短短10年中取得了非常显著的成效,形成了涉及多警种、海量数据的综合应用平台,构建起了较为完善的数据信息分析、研判体系,并将数据信息研判成果运用于具体侦查办案过程中。
那么,大数据侦查目前都有哪些技术手段或者说侦查方法呢?要了解这个问题,我认为首先要理解大数据侦查手段的主要工作对象。如果说传统的侦查技术和侦查手段主要是对显性犯罪证据和线索的挖掘,那么大数据侦查在技术层面,更加侧重于对一些隐性痕迹线索甚至是潜在规律的获取。这些隐性的痕迹、线索是在社会生活中生成的,并非必然和犯罪行为直接相关,因此与侦查活动相关的信息数据,往往具有碎片化的特点。大数据侦查的作用或者说工作方法就是对海量的碎片信息进行提取,通过深度加工、整合,继而发现对于公安侦查活动有价值的线索甚至是证据。在公安实践当中,大数据侦查的具体技术方法主要包括数据搜索与整合、数据碰撞、数据挖掘、数据画像等。
数据搜索就是依托海量的信息数据,从中直接筛选出对侦查活动有价值的案件线索和证据。
数据碰撞是对来自不同“数据库”的信息数据进行碰撞比对,对其中的重合或差异数据等进行分析研判从而找出犯罪线索的侦查方法。例如,针对一些跨地区连环作案的案件,侦查人员可以对不同现场的手机基站数据进行碰撞,通过分析其中的重合信息,缩小犯罪嫌疑人的目标范围。
数据挖掘是通过多种技术对显性数据规律进行综合分析,从而获取隐性侦查线索的方法。举例说明,在一起案件中,侦查人员对犯罪嫌疑人的手机信息进行数据挖掘,通过对其WiFi连接场所、手机信令数据等的分析,发现了其与异地另一起案件存在关联可能性,进而破获新的案件。
关于数据画像,我举个例子,我们都知道在传统侦查活动中,公安人员可能依托现场遗留的足迹特点、痕迹,目击证人的描述等信息,通过画像的方法,判断出犯罪嫌疑人的外形和身份等特点,从而锁定犯罪嫌疑人。数据画像即这种方法在大数据环境下的应用。比如,在对某犯罪嫌疑人讯问过程中,通过对犯罪嫌疑人供述的大量碎片信息的整合,形成该犯罪嫌疑人的行为、心理标签,从而帮助侦查人员对尚无法确定的犯罪手段、犯罪目的等内容提出假设,通过一定的讯问技巧,攻破犯罪嫌疑人的心理防线。
那么大数据侦查具有哪些特点呢:我认为相较于传统侦查活动,大数据侦查具有以下几个特点:一是将侦查活动的关注点从“现场”扩展到“数据”,从以往对案发现场的勘察和物证、痕迹提取扩展到对数据痕迹的提取;二是犯罪线索获取渠道的扩大,一些在传统侦查中似乎没有关联性的信息,可能在大数据整合和碰撞过程中形成侦破案件的关键线索;三是侦查效率的提升,特别是通过大数据侦查的应用,扩线侦查和对犯罪团伙上下游犯罪的侦查效率大大提升;四是侦查活动的全局性和全时性,随着大数据侦查建模的应用,相较于传统的“被动破案”,大数据侦查在主动预防犯罪方面将更加有所作为。
最后,我想简单总结一下大数据侦查给传统侦查理念和侦查模式带来的变化:
第一,大数据侦查丰富了传统“侦查”的概念,其是大数据时代高新技术在刑事侦查活动中全方位的应用,既不同于传统的侦查取证,也不能简单理解为“技术侦查”,与现行法律中对“侦查”行为的界定有所不同。
第二,大数据侦查相较于传统侦查,从理念到手段皆变“被动”为“主动”:由于信息获取能力的大大提升,侦查机关通过个案破获串案,通过个案打击上下游犯罪、打击团伙犯罪,从被动侦查到主动预测和预防犯罪成为可能。
第三,大数据侦查带来侦查思维和理念的创新。相较于传统的侦查思维,大数据侦查给侦查机关带来了从因果性思维到相关性思维,从回溯性思维到预测性思维,从被动破案思维到主动干预思维,从孤立思维到多手段、全时空全视域合成作战和共享协作思维的转变。
在大数据侦查理念的影响下,随着云计算、5G、物联网乃至人工智能等新技术与大数据侦查手段的交汇融合,人们在日常生活中通过各种终端包括汽车、手机、电脑乃至家电产生的海量碎片信息,形成了巨大的电子数据流,大数据侦查体系将这种海量的碎片化的数据流进行分析和整合,不但能够对现实犯罪进行全视域、无死角的侦控,而且对于大团伙犯罪、上下游犯罪的侦破效果非常显著。甚至通过大数据建模对未来可能发生的犯罪和风险进行精准的预测,从而提前展开侦控和施加干预。所以说大数据侦查的发展带来的不仅仅是侦查手段和侦查技术的提升,而且是整个侦查活动理念的创新。
说了那么多大数据侦查的好处,反过来说,大数据侦查发展过快带来的问题和隐患也是有的,比如手段滥用和数据泄露的风险。
对于辩护工作而言,侦查手段的过度膨胀可能带来控辩关系的失衡。首先,大数据侦查毕竟不同于传统的侦查活动,侦查机关能够运用更多的技术手段和隐蔽侦查模式,这一定程度上弱化了辩方对于侦查手段滥用的制约作用,也使传统的质证工作变得困难。其次,控辩双方在数据获取能力、数据分析能力上存在越来越大的差距,也对辩护人的辩护能力提出了新的挑战。例如,辩护人对于电子数据、专业鉴定合法性、真实性的认定能力亟待提升。最后,也是我近期办案实践中的一些感悟,我国刑事案件一直是单轨制的侦查格局,刑事辩护律师的主要工作是对侦查机关的证据体系和定案逻辑进行解构,如果侦查机关为了追诉犯罪的便利,怠于提供有利于犯罪嫌疑人的大数据信息、电子证据,那么辩护律师在现实条件下将更加难以应对。
此外,关于辩护执业风险防范,我简单说两点,时间关系不过多展开:
一是对于辩护律师而言,律师执业风险的根源在哪儿?一方面是侦查权滥用的问题,这要求我们对大数据侦查有更全面的认识,提升风险预警能力,另一方面要规范自己的行为,在传统的侦查模式下,个别辩护律师可能会有一些“违规”“踩线”的行为,难以被司法机关掌握,但是随着大数据时代的来临,辩护人一定不能再有侥幸心理,务必规范自己的言行。
二是在大数据时代,虽然侦查权在公安机关,但辩护律师实际也面临着更多的获取隐私证据、敏感信息的机会,这种情况下,我们要更加深入地学习和掌握好这些信息的获取和使用规则,防止失密、泄密,防止因个人对敏感信息处理不当,造成国家秘密、商业秘密和当事人隐私信息的泄露,从而给自己带来执业风险。
今天的分享就到这里,谢谢大家!
康乐
各位领导,各位专家、各位同事,大家下午好。很高兴有这样一个机会能够跟大家分享关于网络安全、大数据技术在公安行业应用的话题。因为时间的关系,今天准备的这些内容可能相对来讲范围比较广,涉及的内容会比较多,后续有机会跟在座的各位多多深入交流,就与网络安全、警务信息化、公安大数据建设和应用相关的话题,和大家互相学习,共同提升。现在开始下午的分享。
下午的分享包括四个部分,前三个部分整体上是网络安全、大数据相关技术背景的一些分享,介绍一下信息化和目前的网络安全形势,包括国家在网络安全上的监管及国家这几年在网络安全方面法律法规建设上的一些成果。第四个部分就是跟大家聊一聊目前公安大数据的应用情况、发展理念及针对未来可能面临的挑战需要完善的几个方面,那我们现在就正式开始。
第一个部分,我们介绍下新时代的网络安全观,为什么讲新时代?因为大家可能自己也能感受得到,包括刚才黄凯老师也提到,最近这10年出现了很多新技术,如大数据、云计算、物联网,包括大家用手机能够这么便捷地上网,其实也就是最近10年的事情,10年前的时候买流量还是挺贵的,而且那个时候在网络世界上,你可能还享受不了特别好的服务。但最近这10年我们在技术上取得了很大的进步,包括产业的升级、技术的升级,相应的国际和国内网络安全形势也发生了特别大的变化,包括过去疫情这几年带来的一些影响。总结一下,我们认为现在正在重新树立新时期的网络安全体系,这里面就牵扯到了刚才说的这些产业的升级、技术的升级、技术架构的升级。而且在网络世界上的对抗其实越来越多了,我们看得见的、与个人相关的如电信诈骗、电话骚扰、各种各样的垃圾邮件等,其实都算是网络攻击的一种,非常普遍。还有很多我们大家看不到的,比如对企业网络空间的攻击、破坏,对企业数据的窃取。从宏观来看,还有国家层面的对抗,我们知道在2022年冬奥会闭幕式结束之后大概不到一个月,俄乌之间就展开了地面冲突,但实际上我们作为网络安全厂商在地面冲突前几个月就已经看到了在网络空间双方的大量对抗,双方已经对对方公布在互联网上的政府网站、金融网站、媒体网站等目标展开了多番的破坏渗透,包括一些权限的提取、数据的窃取、系统的破坏等。举这个例子,其实想说明现在任何的对抗,都是网络战先行,都是先通过网络的方式互相去渗透对方比较有价值的目标,特别是政府、金融、传媒等对外服务的网站和系统。由此背景引发了我们对新时代网络安全的思考,需要去判断这种环境下有哪些未来发展趋势,从蒸汽时代、电力时代到信息化时代大家都非常了解,而现阶段我们认为正在面临新的产业升级,或者说是技术推动升级,我们称作A、B、C和M。A就是AI,或者叫作人工智能;B是大数据;C是cloud,指云计算的一些技术变化和业务形态变化;M是移动互联网。现在移动互联网已经变成了一个大家日常工作、生活的标配了,手机、平板、笔记本电脑是我们每天最经常使用的设备。再有就是物联网,现在能实现联网功能的设备越来越多。比如家里用的智能门铃,有人在你家门口待的时间久了,门铃就会给你告警,告警信息直接到你的手机App上,告诉你是谁在你家门口徘徊;又如智能手表,里面都有与个人健康相关的隐私信息。这些例子充分证明现在人工智能、云计算、大数据、物联网及移动互联网给我们带来了很大的冲击。
我们再看看背后的安全威胁,对此我们也有个大概的划分,这个划分并不绝对,但是基本上符合安全威胁在最近这些年的发展趋势。首先是它出现的时代。那个时代网络上的威胁或者叫作计算机的威胁,相对还是比较简单的或者说传播的范围比较小,因为那个时候的网络不太发达,应用系统没有那么复杂,逻辑架构也没有那么严密,所以以直接破坏为主。其次是2000年前后开始出现黑客的时代。黑客都经过了计算机的启蒙,其中有一部分人走向了安全厂商,或者从事正面网络安全防守的工作,还有一部分人进入了黑客黑产的范围,通过做破坏、开发工具偷数据等手段,获得不法收益。再次,大致从2006年开始,有组织的黑产活动越来越多,甚至可以说黑产已经在产业化了。产业化就意味着这里面有明确的分工、有具体的流程、有收益的模式,包括分工协作的模式,整体已经很完善了,有人负责开发攻击的工具,有人负责传播这些工具,有人负责开发各种话术,骗取受害人的信任,有人负责骗来的钱财的提现,包括进行分配等。现在这些产业化的团伙还在陆陆续续地开发新的诈骗场景脚本,或者是展开一些场景化的诈骗业务,这方面的从业者非常多。最后,从2010年前后开始,随着国际形势的变化,网络空间中国家与企业之间、行业之间的对抗变得越来越多,网络空间中的对抗变得特别强烈。这里我们大概把安全威胁做了一个简单的划分。
为什么现在大家觉得网络安全非常重要?其实并不是因为自下而上的这种驱动,这只是其中的一个驱动力,自上而下的驱动力也是非常强的。习近平总书记非常重视网信工作,亲自参与过很多次的网信工作座谈会,推动网信产业或者网信工作的落地和发展。这也代表了国家现在对网络安全、信息安全的重视程度,因为网络安全如果出现问题,带来的损失是非常大的,往小了说可能会影响系统的可用性,影响系统安全、数据安全,往大了说可能会对一些产业、大型企事业单位的运行产生很大的影响。这里举一个例子,国家与国家之间的对抗中,网络空间的攻击都是高级可持续性威胁(APT)。有一个著名的APT组织叫作海莲花,大家可以在互联网上搜到相关信息,它是被我们跟踪了很久的一个组织,成员来自东南亚沿海一些国家。该组织瞄准了我们国家一些跟海事相关的科研院所、大学教授、研究人员等,对他们展开定向的系统渗透跟数据窃取,目的就是获取南海岛礁的勘测信息和数据,包括我们的发展计划以及一些工程信息等。这个组织是不定期的活跃,因为它的行为一旦公开,肯定有很多人监测甚至包括国家层面的组织,也有像我们这样的安全厂商,获取它的工具以及使用的代码之后,就可以很容易地去拦截它、监测它,所以海莲花得手一次之后一般都会沉寂下来,再重新找新的突破点,找新的攻击漏洞,然后等待下一次的时机成熟,再发起攻击。它大概隔个一两年就会重新活跃一次。我们现在国内发现的这种类似于APT的组织有针对教育的,也有针对政府的,还有针对军事目标的,我们现在监测到的APT组织其实已有几百个,但是这些仍然只是冰山一角,网络空间的渗透是非常常见或者说普遍的一个行为。
这里举几个现实中发生过的,在互联网上就能够搜到的例子,这些例子都是新闻公开报道过的。第一个是“震网病毒”事件,这是美国的一些黑客组织牵头的针对伊朗核设施的网络攻击。伊朗以民用核设施开发建设的名义进行核武器的开发,而核武器的开发离不开原材料,像提炼铀等都需要用离心机,但是在一段时间内整个伊朗的离心机故障率都特别的高,远远高于一般工程上认为的合理故障率,基本上是用一段时间马上就会坏了。离心机一坏就意味着提炼原料的工作无法开展,没有原材料也就不可能再去做一些跟核武器相关的工作。后来经过披露以后,我们才知道是黑客用了定向攻击的手法,把代码通过U盘不断地拷贝跟传播,带进了伊朗内部的网络,这个代码运行的时候就会监测控制台跟后端设备之间的信号传输,提取里面的特征以及操作的一些指令,进而去修改指令,比如说某一些数值。这意味着什么?意味着可能表面上看机器的温度或转速都很正常,但是实际上离心机的工作已经是不正常的状态。这个就是非常常见的一种网络攻击手法。
第二个是乌克兰停电事件。乌克兰之前经常发生大规模停电的事故,特别是在冬天用电高峰的时候,这类事件发生过很多次,现在也被确认了基本上是黑客组织利用远程攻击的手法,对电网调度系统展开了相关的破坏。而电力行业是一个比较特殊的行业,它是一个发送、输送一体化的行业。换句话说,电力是不能发出来像石油似的存着的,等到什么时候用就提出来,用完了再往里存,它是一个高度一体化的系统,所以它的调度工作特别重要,发电、输送与用电端要高度匹配,不然这个系统就会出问题。委内瑞拉大概是在2019年,出现过这种电网大规模崩溃的安全事件,导致大范围地区没有电力供应,采取的都是类似的工具和手法。
第三个是希拉里“邮电门”事件。该事件是希拉里的助手用希拉里的谷歌邮箱接收了一个谷歌的管理员邮件,邮件中称她的邮箱密码强度不够,如果要保证邮件安全,就需要升级密码,下面有一个“change password”的按钮。改密码时先要输入原来的密码,验证身份,然后再输入新密码,但实际上因为它是一个钓鱼邮件,输入旧密码的时候,邮箱信息就已经被人看到了,大约有近万封邮件被黑客下载。如果说她只是个人邮箱被钓鱼了影响还没有那么大,但是最重要的是这里面的很多邮件是跟办公相关的,按照美国的要求是不允许用她的个人邮箱去进行这种对公往来的。所以说当时这个事件的影响也非常大,虽然不能说完全因为这个事件她就输掉了竞选,但是可以说是压死骆驼的最后一根稻草,希拉里的败选和“邮件门”事件一定是有关系的。
第四个是2017年的“永恒之蓝”事件,这是在全球爆发的一次安全事件,也包括中国,特别是国内一些隔离网络的主机,很多感染了“永恒之蓝”勒索病毒。隔离网里面很多计算机的补丁打得并不是特别好,这个事件中被利用的漏洞其实微软在当年的4月就已经发布过了,要打一个补丁才能修复这个漏洞,但很多隔离网系统跟互联网的交互不是那么的便利,特别是一些特种行业,咱们公安系统也是其中的一种,还有像保密、科工的一些网络都是与互联网隔离的状态。一般认为隔离开了肯定是安全的,但跟互联网隔离开意味着什么?意味着上面运行的很多系统、软件程序等没办法第一时间得到补丁的保护。当然了,你可以说我有技术手段,可以在内网实现全网打补丁,但是全网靠人工打补丁,或者是靠再做一个工具、一个平台去打补丁,这个效率是非常低的。所以很多时候这样的隔离网里面打补丁的工作慢慢地就不再做了,这也就意味着系统或者软件得不到最新的补丁保护。就像一个成年人的免疫能力还停留在三四岁孩子的水平,但是人已经进入很复杂的、病毒很多的一个环境里面去了,接触不到病毒还好,只要接触到病毒,因为一点防疫能力都没有,可能会迅速被感染、被破坏。2017年的“永恒之蓝”事件就是在全球范围内大范围爆发的勒索病毒事件,我们作为安全厂商,当时也是服务了很多的客户,包括去现场做病毒查杀、系统恢复,以及隔离一些被感染的设备。我们当时内部认为这是一个网络战争的雏形,因为它爆发的范围比较大,影响的面比较广,未来并不排除再爆发类似事件的可能。
接下来是个人数据这一块,刚刚黄凯老师也提到了个人数据,在大数据环境下,很多个人的隐私信息已经被各种各样的应用系统数字化存储、使用了,并且留存在各种各样的系统中。上学、结婚、买房、生子都需要填写个人信息,孩子上学也需要填家长的信息,我们的个人信息已经被复制过无数次,存在各个行业的数据库里面。他们如果都保护得非常好,那没有任何问题,但是我们现在确实很多系统对数据的保护不够到位,包括外部的攻击,以及内部人员有可能会有一些有意无意的泄密行为,这些都会导致我们个人隐私信息的泄露。2023年网络上的公开个人信息大概有580多亿条,平均到14亿人的身上每个人有42条,但是这14亿人里面有很多是不接触互联网的,还有一些人可能没有用到这么便利的网络工具,所以说算下来经常上网的人的个人信息被交易过多少次已经算不清楚了。一些相对公开的信息如姓名、身份证号、手机号码基本上在黑产的数据库里都能检索到,这也是我们现在网络世界对抗的一个很重要的背景。
第二个部分,我们面临网络安全形势变化、监管力度提升的背景下刑事辩护需要改进的地方。首先,我们大概捋一下时间线,互联网在家庭中的应用最早可以追溯到1994年,为什么是1994年?因为中国第一条连接世界互联网的专线是1993年开通的,由中国科学院高能物理研究所申请。当时的网速只有64K,我们现在的手机、电脑的速度都是几十M、上百M,所以说1993年计算机开始进入科研院所,一些富裕家庭1994年的时候可能也用上了比较早期的电脑。我1995年来北京上大学,攒出了第一台电脑,花了很多钱,现在回忆那个电脑的性能还是非常的感慨,当时的内存只有4M,硬盘只有270M,现在的硬盘起步容量都是500GB了。而且那会儿还买不起显卡,光驱也买不起,一个光驱都要两三千元,两三千元就意味着我们一个人一年的生活费加上学费了。但是从那时候开始,计算机已经进入科研院所、一些重要的单位,金融行业也已经开始“电算化”,并逐步向信息化转变。国家也开始意识到网络信息,包括计算机设备需要被保护起来,所以说有了最早的条例,陆陆续续建立起网信工作的网络安全协调小组,一直到2014年,比较重要的是成立网信领导小组。之后《网络安全法》《密码法》《数据安全法》等法律法规颁布并施行。这背后反映出来的是国家对于网信工作的高度重视,因为网络的破坏力量特别巨大,信息化发展得再好,不重视网信工作,没有网络安全去做保障,问题一定会非常多。
我们对整个国家战略也进行了梳理,即“五法一条例三办法”,“五法”就是《国家安全法》《网络安全法》《密码法》《数据安全法》和《个人信息保护法》,“一条例”指的是《关键信息基础设施安全保护条例》,“三办法”主要是《数据出境安全评估办法》《党委(党组)网络安全工作责任制实施办法》《网络安全审查办法》。这里再插一个题外话,有了相关法律法规之后,网络安全工作才真正开始变得更加重要了。因为之前网络安全工作最高的参考文件其实就是《网络安全等级保护条例》,但其只是公安部发布的条例,与法律的作用是不一样的,在座都是很专业的法律行业从业人员,可能会更深刻地理解有一个成文法律对这个行业的影响到底有多么巨大。我们简单看一下这几部法要求的一些内容,《网络安全法》是我们现在最重要的一部从事网络安全工作参考的法律,它明确了网信、工信和公安是网络安全主管单位及执法单位,特别是对网络运营主体责任也做了明确的说明:一个机构进行了信息化建设,建设了网络系统,那么不管是用于办公还是用于对外提供服务,对系统上面发生的行为都有相应的责任,不能说我只是提供了一些基础设施、一个网络,而对相关问题无须负责,这是不行的。
等级保护中也对系统做了分级的要求,共计五级,我们绝大部分企业的系统是按照二级或者三级来做的,重要的系统通常是等保三级,等保四级跟五级都是国家非常重要的像金融或者军事类的网。为什么有了等级保护还要制定一部关于关键信息基础设施安全保护的条例呢?《关键信息基础设施安全保护条例》针对的是对国家非常重要的一些核心行业,主要是在国家与国家之间发生对抗时,甚至说可能进入地面战争的状态时,对这些行业的保护是有一定的要求的,或者说它们不会立即就被攻破,也不会立即就瘫痪。公共通信和信息服务、交通、能源、金融、水利等17个行业是国家定义的关键信息基础设施,这些行业有重点的防护要求和手段,目的是保证在出现特别极端的情况时,这些行业的系统能够有一定的防护能力,包括能够继续提供服务。这是此类保护的要点。
《个人信息保护法》主要是对个人信息、个人隐私保护的要求,这部法律出来了以后有很多的争议,还有很多不同的理解。现在我们这么依赖网络,这么依赖移动互联网,这么依赖各种移动App的使用,那么个人信息的适度出让是一个前提。例如,用高德地图打车时,如果不提供手机号,不提供位置信息,自然就无法享受这个服务。叫外卖时也要提供家庭的住址,提供个人的手机号码,可能还要有支付信息,这些个人信息都不提供那怎么享受服务呢?所以说个人信息的适度出让与使用是享受互联网服务的一个前提。而且过度地保护个人信息,反倒会容忍网络犯罪,这个怎么去理解呢?我们大家知道,现在除了公开的互联网能够访问,还有暗网这么一个可供接入的空间,在暗网里面完全追溯不到你的真实姓名,不会看到你注册的信息、身份信息,使用的用户名,注册的邮箱、手机号,这些都完全是加密的状态。乍一看会觉得这很好,保护个人信息,避免暴露隐私,但实际上对于犯罪分子来讲这是一个很好的空间,他在上面做什么事情都没有人能够追溯到他的身份,他卖一些用户的数据,卖一些黑产的信息,都是在暗网上操作,所以说过度地保护个人信息,某种程度上反倒是纵容了网络犯罪。再有就是公共空间的监控探头。最近这一年特别火的一个事情,是说很多国外的旅游博主到中国来拍旅行vlog,然后发到国外去,绝大部分的博主主要在表达中国又安全,吃得又好,旅游环境又好,但也有个别的博主说到处都是摄像头,会不会涉及个人隐私问题。所以说对于个人信息的使用要有一个度的概念,做到既能保护我们的安全,又能够让我们更好地享受到网络服务。
接下来重点讲解一下帮信罪,全称是帮助信息网络犯罪活动罪,可能很多律师没太接触过这类犯罪。这类犯罪的一种情形就是他人利用你提供的网络平台服务去实施犯罪,你要有连带责任,譬如虚拟运营商提供非实名注册的号码,而用户是黑产从业者,这是未来要重点防范的一个领域。我这里收集了一些这两年国内比较重要的或者是罚款金额比较多的、处罚比较严重的案例。《网络安全法》发布施行以后有大量的因为违反了《网络安全法》而受处罚的案例,一些银行对数据的保护、对系统的保护问题很多、之前很轰动的最终处罚了7000万元的中国知网案也是因为触犯了《网络安全法》。此外,《数据安全法》《个人信息保护法》也有很多相关案例,比如滴滴在美国上市以后被处罚就是因为过度地收集了注册或使用App的用户的个人信息,而且用这些信息又加工了一些报告去传播、发表,以及其他一些越界的行为,最后罚了大概80亿美元。关于这个数据,查法律条款后发现,顶格的处罚就是上一年度营业额的5%,正好上一年滴滴营业额是1700多亿美元,这样罚5%差不多就和80亿美元的数字对上了。这都是在国内比较受重视的案例。
第三个部分,网络安全,我们刚刚也提到了有很多层面的威胁,包括个人信息层面、国家对抗层面的威胁等,国家也已经在这方面做出了一些监管和保护的尝试,很好地推进了网络安全工作的开展。所以我们接着这里聊聊,现在网络安全防护的理念是什么样的。首先对于网络安全防护有四个假设,并且认为任何一个系统都适用于这四个假设。
第一个假设是系统一定存在漏洞。一个系统的开发涉及操作系统、软件开发技术以及各种中间衔接的技术领域,所有的代码都是人编写的,那么就一定会存在漏洞。
第二个假设是一定有已知的漏洞没有被修复。对绝大部分公司来说,即便找了安全厂商去做漏洞的发现,尽量做到主动发现漏洞,不等原发厂商推出补丁才去修补,也一定有已知的漏洞存在,这就意味着我们给攻击者始终是留有攻击窗口的。
第三个假设是系统一定已经被渗透。任何一个系统,包括我们现在用的OA办公系统或邮箱系统等办公类业务系统,一定会有被渗透的痕迹,只是渗透程度深浅的问题。虽然不一定已经拿到了足够高的权限,拿到了敏感的数据,但是被渗透一定是会有的。因为只要我们把链接、网址发布在互联网上,或者说对外提供服务,无论是官方网站,还是一些业务交互类的网站,都会有各种各样的组织不断去扫描,去找你的漏洞,然后尝试着破解、渗透进网络里面去。
第四个假设是自己的员工不可靠。一个企业如果员工多了,或者说组织庞大了,那么就可能既有自己的员工,也有一些外包的第三方人员,更加不能保证每一个人的操作都完全符合企业的网络安全要求,可能会出现一些不可靠的操作和行为。
在确立这四个假设之后,网络安全建设相应地也大概经历了三个阶段:第一个阶段是围墙式安全。这个很好理解,就像盖好了一间房子,要考虑选择什么样的防盗门和窗户,能够在边界构建安全可靠的防护体系。第二个阶段是外挂式安全,在第一个阶段的基础上更加高级而完整。比如在房子的墙壁上加了一些监控探头,或者有摄像头的智能门铃,类似于安防的监控系统,通过人员或行为检测去进行当前安全状态的判断。第三个阶段是内生安全。内生安全强调建设一个信息系统的时候,就把对安全的要求分布在信息系统的规划、建设和运营三个环节之中。拿一个大楼来举例子,我们能看到的是漂亮的外立面,有出入口、有窗户,有能够看得见、摸得着的这些设施,但其实它的底层或者它的内部还有大量的管道、线缆等,它们是支撑大厦安全运行的一些基础设施,这些都是在做信息系统建设的时候提前要考虑到的。我们现在更多地提倡信息化发展,那么在规划、建设的时候就要考虑到安全要求,以及相匹配的安全能力如何去完善,不要等到系统建设完之后,再考虑安全防护怎么来做,那样可能就会出现不协调之处,就会给攻击者留下很大的空间。
分享完前三个部分,跟大家聊了聊网络安全的一些相关背景。第四个部分我们来看一看公安大数据体系的现状。刚才黄凯老师也提到了,大数据技术本身是对海量数据的采集、对海量数据的存储和使用以及各种场景化应用的技术。大数据技术本身并不是一个技术,而是很多技术的整合。它牵扯到数据的采集,但数据的采集又不仅仅是大家现在理解的简单的信息化系统运行时相关数据的收集。大数据里面可以容纳更多的异构数据,除了文本这种数据类型,还包括图片的信息、语音的信息、视频的信息以及很多其他异构的、非标准的信息,大数据技术对这些数据都可以去采集、加工、使用、消费。现在大数据技术发展的重点是将这些数据和模型与应用场景结合,具体到公安行业,人口管理有人口管理的要求,刑侦有刑侦的要求,经侦有经侦的要求,各警种对大数据的使用都有自己的场景化的特殊要求,如果跨不同场景应用,那特殊化就更为明显了。所以说大数据是一个概念的范畴,它并不严格代表某一个单独技术,这里面可能涉及很多技术的使用。
大数据技术有四个特征跟大家分享一下。第一个特征是value,是价值高。因为大数据可以容纳各种各样的异构数据进来,可能单独看某一块数据或者单独看某一个时间片段的数据,看不出来特别有价值的信息,但通过大数据的方式就能够将其发现。
第二个特征是volume,体量大。通过大数据技术可以存海量的数据,我们之前理解数据只能存在硬盘上或者服务器上,扩容起来很麻烦,想升级也不那么方便,但随着分布式计算、分布式存储以及云计算技术的落地,海量的资源其实是在云上等着我们去使用,只要能够提出明确的需求,就能够在云上对信息进行使用。无论是通过自建云,还是通过阿里云、腾讯云等公共云服务都能够满足个人对数据的存储和使用要求,而不用担心这些数据生产之后没有地方存,或者是检索不到、检索过慢的问题。
第三个特征是velocity,速度快。可能有的人会觉得这么多数据存储在一起,检索一个信息或者编辑一个文档应该会很卡,单机情况下有时候编辑一个大文档需要几十M、上百M,可能打开就特别慢。但是云上数据不会,因为它的存储是分布式的,它的计算资源是随着请求发起而去匹配进行合理计算的,这和我们使用电脑的逻辑是不一样的。
第四个特征是variety,容纳信息种类非常多。大数据技术允许更多形式的数据源被容纳进来,不仅是传统的结构化的数据。我们之前做数据库有的会限制字段、姓名、身份证号这种传统的数据形式,但是各种各样的异构的数据,都可以在大数据里面找到存储、使用、消费的方式。
公安最近10年也做了大量与大数据相关的工作,主要在六个方面取得了很大的突破。
第一个是数据采集与整合。数据采集分为几种方式:第一种是通过系统的对接,譬如对接金融行业获取到相关的金融用户的信息、交易的信息,对接运营商获得用户通信的信息,甚至是短信的信息,包括向工商行政部门获取一些企业的注册信息。这都是很好去理解的。第二种是公安机关会有很多之前自己积累的数据,现在全部都数字化了。传统的户籍管理是线下一册一册地管的,现在基本全部都线上化了,这是自己生产的数据被整理到线上。第三种是动态生成的数据,这里主要包括在日常的公安工作过程中可能涉及的一些取证手段。举个例子,我们抓获了一个电诈团伙,可能一下子就会收缴几十台服务器、几百个手机,还有很多的账号、银行卡号,这些东西收缴之后,公安肯定要先封存作为证据,封存完之后立即找合适的鉴定资源。这个鉴定资源可能一部分来源于公安自身的鉴定所,在鉴定需求比较大的情况下,可能同时有很多案件的取证任务,有司法鉴定资质的第三方鉴定所也会去协助公安做相关的电子取证工作,这个取证工作其实就是生成一些动态的数据。根据案件的发展,几乎包括了所有电子设备的取证,像手机、平板电脑、笔记本电脑或者说台式机,甚至于服务器等都是可以的。第四种是网络空间的取证,这意味着你的社交媒体账号的很多信息可以从你的手机或者服务器上直接提取出来,还有你在网上发布的言论、各类信息,都是网络空间取证的一部分。这些取证工作,共同构成了数据采集和数据整合的基础工作,这也是公安机关在过去积累出很大成果的一个方面。
第二个是数据存储和管理。对于公安机关来说,上至公安部下至各警种,以及各省机关都建设有自己的大数据中心,无论是公有云还是私有云的形式,总会找到一个合理的计算空间或者合理方案去存储大量的数据,保证这些数据可以调取、检索、碰撞,辅助公安机关开展各项工作。
第三个是数据分析与应用。这一部分是公安领域大数据应用的核心,因为数据拿过来存储的目的不是简单的归档,最重要的还是消费、使用,从里面发现我们想要的信息,这就涉及对大数据的分析使用和一些场景化的建模。比如针对某一个电诈的场景,需要调取哪些数据、提取哪些关键词,如何根据诈骗的类型开发检测模型,这些都是需要去专门对应用系统来做设计的。
第四个是数据共享与协作,因为数据不流动,价值就会打折扣。换句话说,譬如对于人口数据如果只做存储,而不让调用、不让使用,那它的价值就很低,很多案件破获就会很慢,所以数据一定要流动起来才能有更大的价值。近年来,这种协作共享有非常大的提升,因为现在的各种信息都系统化了,通过接口的方式可以很方便地实现数据的流转和使用。
第五个是实战场景的设计。随着侦破手段越发先进,新型案件也在不断出现,特别是随着信息化、网络化的发展,犯罪手段变得非常多,场景也非常复杂。我自己也经历过,比如说总有人发短信说我的ETC(电子不停车收费系统)卡过期了,给我发个短链接,弹出了一个跟高速的ETC卡网站一模一样的钓鱼网站,让你填手机号和银行卡号,这其实还是为了诈骗。包括最近这些年,还有打电话告诉你说你的航班因为天气原因停飞了,要给你提供另外一个航班,然后诱骗你点击对方发来的链接,在你在上面输入个人信息之后展开诈骗。之前我们跟一个客户聊电诈这个话题的时候,现场有一个听众就举手了,说最近支付宝的钱刚被骗了,然后她就分享了一下被骗的经过。她是一个母亲,可能经常在网上给孩子买东西,有一次她买了一个东西,一直没发货,常规操作是客服可能会在App里面告诉你这个没有货了,或者你可以等,也可以退货退款。但是她接到个电话,电话里还能准确地报出她的淘宝用户名、订单号,以及购买时间、购买物品,所以她一下就信了,然后对方告诉她这个发不了货了,给她发个链接,让她上去退款。不出意外这又是一个诈骗的钓鱼链接,上去之后让她提供各种身份信息、银行卡号、手机验证码等,然后就被骗了。大家有没有发现这有一个破绽?这个破绽就是现在电商系统已经是高度完善和闭环的了,中国电商发展这么多年已经是非常成熟的一个体系了,任何一个电商平台的问题都是能在电商自己的体系里面去解决的,无论是投诉、退款、退货、换货等操作,都应该是在电商的这个系统环境里面封闭地去解决,怎么可能说跳出这个环境接受第三方的通知?包括像刚才说的飞机延误,航空公司肯定有自己的官网,自己的App和通知方式,怎么可能通过一个第三方的链接进行通知和信息收集?当然链接可能做得非常像,可能非常难以判断,所以这里就是一个场景的应用,要针对不同的场景,把大数据的技术和它紧密结合起来,去实现检测和威胁的发现,展开相关的大数据落地使用的一些工作。
第六个是数据保护与安全,这么多的数据在流转、收集、使用、消费,经手这么多的环节、这么多的管理人员或者用户,数据的隐私保护与安全性是非常重要的。什么样的数据该加密,加密到什么程度,什么样的数据在调用的时候要脱敏,什么时候又需要真实的第一手数据,这种情况怎么去申请,怎么保证使用的安全性,这些都是非常重要的话题,公安机关也投入很多精力在做这方面的系统改进,包括对数据的加密、对各个内部人员权限的管理等。目前公安也有自己专用的一些办公App,不会使用第三方软件,比如企业微信或者钉钉这种互联网公司的软件,从而保证身份、权限和安全的管理。
最近这些年大数据技术在公安的应用主要有三个方面的要求:第一个是先进的技术能力,技术能力就是对数据的提取、加工、收集、存储的能力。第二个是组织管理能力,要有专门的人去研究数据怎么应用,给不同的应用场景建模,开发出符合警务工作需要的一些系统。第三个是人员能力的提升,因为大数据技术的应用还是比较多层面的,包括对信息化网络安全数据的理解以及一些软件能力要求,所以人员能力的提升也是需要考虑的一个重点方面。
我们以一个打击电诈的平台举例,了解这样的一个平台是怎么去建设的。以反电诈平台为例主要是因为电诈的作案手法高度依赖线上途径,大部分犯罪行为是发生在线上的,这就对大数据技术的应用提出了很大的挑战。因为没有大数据手段和技术的话,去获得这些信息,进而检索出相关线索是非常难的。针对这种电诈的场景,要做四项工作:第一项是数据的采集跟整合,以及多元异构数据的筛选。这里面的数据来源非常多,可能有运营商、其他行业的数据,还有一些自己取证或者调研的数据会进到系统中来。而数据一旦进来,就要首先对数据进行清洗和融合,要提炼出真正有价值的数据放到数据库中,因为其中可能有大量重复的、无用的或者说是有缺失的、可能根本就用不上的数据。所以必须有数据清洗的过程,然后才能做关联和匹配。第二项是做模式识别和风险的评估。对于电诈案件来讲,通常有两种技术手段使用比较多:一是关键字识别。聊到某些场景的时候我们会有关键字的字库,这个字库要动态地去更新、维护,如果频繁地匹配到,我们就重点去关注这些相关的信息。二是风险识别的建模。因为海量的数据里面会有大量的人员身份信息、交易信息,甚至位置信息、交通出行信息,这些都会去做风险识别相关的建模,从而形成对大数据的使用。第三项是平台化。直接去大数据系统里面检索数据,然后手动地做相关工作效率太低,一定要把它平台化。平台化就意味着一线的警员或者一线的技术员也可以去操作这个平台,只要提出需求,就可以通过平台对接后面的数据库,然后形成相关的报告跟结果。对于平台的建设则完全按照信息化的要求进行,平台的设计会有数据层、处理层、应用层,以及最后展示出的可视化层面和功能建设,从而变成一个平台化的工具交给公安机关的人员去使用。第四项是数据的共享与联动。现在像电诈等场景中,大量的行为发起地点或者人员的物理地点不在国内,这样做的目的就是躲避打击和追捕,那么这就牵扯到一些跨地区的、跨国家的警务合作、联合执法等。除此之外,还有数据的准确性,数据的跨区域联动、共享的一些接口的设计等,这都是我们未来需要去解决的问题。
我们以电诈举出了这样一个简单的例子,在不同的场景下,比如人口管理或者出入境管理都有类似的系统,包括公安交通信息的管理系统,都是类似的模式,有大数据的采集、存储、使用和针对业务的建模系统的设计,最后再形成联动,形成数据的共享。
最后跟大家聊一聊,未来公安大数据持续创新或者持续改进的几个方向:第一个是技术支撑的能力还要持续地去提升。因为随着数据量的增加,数据类型变得更加丰富,对于我们软硬件的基础要求会更高,存储空间的设计、平台的智能化、数据的管理能力都属于技术能力支撑方面要持续去提升的。
第二个就是组织管理的能力要提升,如何打通“最后一公里”的问题要解决。设计了一个很好的平台后,要考虑是不是真的能够让一线的警务人员方便地、快捷地、安全地去使用它,如何让它落地。
第三个是人员的水平要不断提升。我们要有更多的对信息化建设的培训赋能,让大家能够更好地去吸收、消化、理解、使用这种大数据的平台给大家带来的便利。
第四个是促进成果转化。如何把大数据技术,包括分析研判的结果,大数据碰撞出来的线索或其他信息,和实际警务工作紧密地结合起来,使其成为案件侦破的推动力,是未来深入推进大数据应用的一个重点方向。
这四个放在一起就是公安部门在大数据上,未来持续要去突破或者投入的方向。
今天和大家聊了这么多信息,里面涉及的很多话题需要我们持续去关注,因为大数据的应用一定是未来几年、几十年我们工作的重点发展方向。希望未来能够跟大家有更多的交流和互动,更好地去理解大数据在公安或者其他行业的应用情况。这就是我今天的分享,谢谢各位同事。
张春喜
非常高兴也非常荣幸来参与今天的活动。大数据技术现在真是参与了我们生活的方方面面,想和它保持一定的距离都很难。我之前在几家互联网公司都做过这方面的法务工作,配合公安机关进行案件调查取证的工作也都接触过,工作当中有一些体会,也正好借这个机会,跟大家交流一下。主要是从一个互联网企业的视角来看待大数据背景之下,大数据侦查这项工作当中互联网企业的职能定位:它怎么样才能既配合好公安机关调查取证,履行社会责任,又依法依规、合理、稳妥地处理用户个人信息。这两个方面实际上还是存在很多矛盾的。刚才黄律师也提到这一点,公安机关的数据需求、调查需求可以说是无限扩张的,但是如果扩张到互联网企业就会出现磨合问题。互联网企业肯定要依据自己的合规经营框架开展相关工作。值得探讨的是,企业在合规经营框架下怎么去配合公安机关来做好相应的工作,才能实现双方的共同目的?
另外,借这个机会,我大概梳理了一下刑事案件当中涉及的网络信息数据的分类。大家也都知道,我们生活当中经常可以接触到的网络信息大体上可以分为两大类:一类是对公的,另一类是对私的。所谓的对公数据,就是商事主体在经营活动(包括网络经营活动和线下的经营活动)当中所产生的网络数据。如果涉及具体刑事案件,可能会有公安机关进行调查取证,需要相关的企业配合工作。企业这一块的网络信息数据大体上可以分为三个方面:第一个是广告推广,第二个是金融支付,第三个是平台运营。关于广告推广,根据企业自己的推广渠道不同,可能涉及不同的网络广告服务企业,包括搜索广告推广、信息流推送以及其他的一些网络平台的广告推广,企业根据自己的业务特点可能会对应不同的形式和供应商。金融支付和调取银行卡流水基本是一个类型。平台运营大体上分为两种情况:一种是自主运营一个自建网站,有自己的独立域名和运营团队,企业租用的服务器或者云服务提供商可能在案件中需要配合调取相关运营数据。另一种可能规模小一点,会寄生在一些大平台上进行经营行为,像微信的小程序等。这种情况可能就涉及它本身的数据和作为承载平台的企业的数据调取。对公的数据简单来说就是上面这些情况。
对私的、个人的数据的分类标准更细一些,在不同类型的案件当中,体现出的特点和价值不太一样,我只是做了一个大致的、比较粗线条的划分,不一定非常全面、非常准确。
第一类是网络浏览数据。浏览数据主要包括搜索、浏览、阅读、收藏、关注等,这些网络浏览行为实际上反映的是这个人的兴趣爱好,或者说是内心的思想动态。这些数据对于公安分析行为人思想意识、犯罪动机、犯罪倾向,都有很大的帮助,当然行为人犯罪前甚至犯罪后的一些行为表现,也能反映在他的网络浏览行为当中。
第二类是网络社交方面的数据。大家每天都在使用各种各样的网络社交软件,其形成的数据也可以分为两类:一类是通过比较大的,或者说我们经常使用的主流社交软件进行社交活动,或是熟人社交,或是半陌生人社交,至少是在一个网站、一个软件、一个体系内进行社交活动,从而形成相关数据。像微信、钉钉、飞书,这些软件能够反映出人与人之间的沟通交流情况,在有些案件当中它就是很重要的数据。互联网企业在配合调证的过程当中,每年都会接到非常多的这种调证需求。另一类是开放式的社交数据,比如微博的评论、百度贴吧的跟帖、一些App里的私信交流等。
第三类是公安机关非常重视的行踪轨迹数据。这类数据以前更多的是依赖手机、监控设备等传统的设备采集,但是现在互联网已经深入我们生活中的方方面面,移动互联网服务过程中实际上掌握了用户大量的行踪轨迹信息,比如地图的导航、网约车的使用、共享单车的使用、智能网联汽车的驾驶等产生的数据。
第四类是网络支付和娱乐消费数据,就是在网络上花钱所形成的支付数据、消费记录等。之前我在直播行业工作过,每年都会有办案机关找到平台企业,要求调取用户的平台消费数据。这类数据实际上更多的是与犯罪以后对于犯罪所得的使用相关,也就是赃款的流向。用非法吸收的公众存款或职务犯罪等犯罪所得的赃款在网络上进行消费,进行打赏、充值等时,这些钱款到底能不能追缴,应该向谁追缴,也引发了很大的争议。
第五类是云存储数据。进入云服务时代之后,存储数据量变得非常大,不仅是企业单位,在个人生活当中,实际上也经常借助云存储的形式来存储自己的信息,比如使用网盘、租用服务器等。这些云存储数据也很受办案机关关注,可能跟一些具体案件有很密切的关联。
第六类是人工智能设备数据。随着人工智能的发展,人工智能交互设备现在用得越来越多,比如智能音箱、智能屏等具有交互功能的设备。其在家里、公共场所或者工作的场所产生的一些数据可能也会和刑事案件产生关系。因为这些人工智能设备不仅有录音、录像、拍照功能,也会根据人的指令进行其他活动,比如聊天、交互,另外根据指令还可以远程对家庭联网设备进行操作。这些人工智能设备使用过程中产生的数据,可能会和某些案件产生联系。比如入室盗窃等在室内发生的案件,就可能涉及室内安置的智能设备相关数据的调取。以上是简单地给大家介绍一下数据的分类。接下来我想谈一下开头提到的引发我思考的问题,也就是黄律师提到的公安机关大数据侦查的理念和需求与互联网企业合法合规做好数据处理之间的矛盾冲突怎么解决。从合规的角度看,律师如果说给互联网企业做法律顾问,就可能会碰到这样的问题,办案机关找企业要数据,企业到底能不能给?怎么给?通过什么渠道给才是合法合规的?对企业来说需要摸索出一套稳妥的、没有风险的工作机制,这些方面的问题是非常值得研究的。
我觉得可以分为两种情况:第一种情况就是在正常的刑事诉讼程序当中,在有正常的程序、正常的文书调令的情况之下,企业来配合调证就没有太多有争议的地方。第二种情况就是在没有形成具体的案件,没有具体的刑事诉讼程序为背景的情况下,公安机关出于预防犯罪目的或者线索收集预警目的,对于企业可能会有一些数据收集的需求,在这种情况之下,企业应该怎么来看待这件事?怎么来应对?对这个问题确实还需要继续摸索。我个人觉得这种情况之下,首先来说,企业配合公安机关也好,配合其他有侦查权的机关也好,来做这些证据的调取,是有相应的法律依据的。《数据安全法》《反电信网络诈骗法》《反有组织犯罪法》以及两位老师刚刚介绍的网络安全管理法律体系中都有相应的原则性规定,但是不是很具体。这些原则性规定类似于提供了一个概括性授权,但是在具体操作层面上,从企业角度来说确实存在很多不太踏实的地方,这个是可以理解的。从企业的角度来说,对于在工作当中收集到的可能涉及刑事案件的线索数据,如果它能够形成一个明确的判断,认为它确实能关联到具体的一个犯罪,那么无论是主动报送,还是配合调证,进行数据提交都没有问题。但是还有一类数据是偏中性的,从企业的角度来看其是一些没有明显的犯罪指征的数据,但是在侦查机关看来可能是很有价值的数据素材,如果是这种情况,需要在现有的法律框架之内慎重处理。制度规范层面上期待有一些比较细化的法律制度和操作流程,整体上再细致一些,这对各方都是有好处的。
企业在对外提供涉刑事案件的大数据这个问题上,除了面对有关部门、侦查机关的需求,有时候也会遇到用户有这方面的需求。用户自己可能会涉及一个刑事案件,可能是以被害人的身份来要求运营网络设备或者网络服务的企业,为他提供相关的证据。这一类问题我们之前也研究过,大体上也是要按照这个原则处理,就是根据平台的隐私政策,对于用户自主处理范围之内的数据,如果他自己保存不善缺失了,那企业可以给他补充提供。如果说超出了这个范围,可能要用于刑事案件来证明犯罪事实,那原则上建议用户去公安机关报案,转化进入案件调查程序,再通过公安机关来调取相应的证据,这样会比较好。这也是一些之前在法务工作实践中的做法和体会,借这个机会跟大家汇报一下。
最后谈一下总体的感受,律师执业风险防范是每一个律师都应当高度关注的问题。黄律师的讲解告诉我们,在当今的大数据时代,最好的执业风险防范办法只能是从自身做起,严于律己,合规稳妥地开展执业行为,从源头上规避律师执业风险。
这次就分享到这里,谢谢大家。
刘记辉
大家下午好,我是京都律师事务所刑事诉讼部的刘记辉,很荣幸能作为与谈人,与大家进行交流。
康老师和黄律师的讲解,使我更体系性地了解了数据安全的发展、大数据底层原理以及大数据侦查的情况。就我个人而言,第一次真正接触大数据侦查是在2015年左右,当时我还在警察系统内,公安内部有一个大数据侦查发展规划,对人在互联网上的各种行为进行分析画像,从而判断一个人的行程规律、生活规律及偏好等。比如,有个人想违法制造枪支,那在他购买各个制造零件达到一定的数量时,大数据系统经过分析就会自动发出警示,像这样的大数据侦查分析视角有很多。当时我就觉得如果这个投入使用,我们每个人其实就成了透明人。以上是从大数据侦查方面来讲的。2024年3月我参加了中国人民大学刘品新老师举办的电子证据与信息化办案高级研修班。课程内容主要是如何利用公安机关附卷的电子数据进行有效辩护,我总结了一下主要包含两个方面:一个是对定罪的电子证据进行有效质证,这个是刑事律师的常规操作;另一个是通过一些专业软件从附卷的电子数据中充分挖掘对当事人有利的电子证据,我个人觉得这一方面对辩护来说其实更重要,是在做增量,不仅能跳出指控的证据范围,更能够实现有效辩护。这个课程是从辩护角度来说的,所以我也算接触了大数据侦查和辩护相反的两个方面。
其实,在法证学上,有个著名定律——罗卡定律,核心意思是凡有接触,必留痕迹。而对于侦查的发展来说,本质上来讲就是通过技术的发展和各种手段,尽可能多地获得这些“痕迹”证据。大数据技术就是其中一项非常重要的推动技术。
大数据概括来讲就是在互联网上的行为所留下的数据信息。网络世界有一个非常显著的特点,就是在互联网上所有的操作,包括浏览、更改、删除等都会被记录下来。只是我们自己平时看不到,但专业人员和机构通过后台或一些专业软件完全可以获得;当然这里边有一些原始设备是否损坏、获取是否及时等要求。
虽然罗卡定律提出时,是针对现实世界(相对于互联网世界来说)的,但互联网的留痕特点却与罗卡定律具有天然的适用性。再加上我们的工作和生活越来越互联网化,每个人在网上的时间也越来越长,这就给大数据侦查提供了越来越多的数据基础。也就是说我们在大数据侦查面前会变得越来越透明。如果不考虑公安的大数据侦查行为是否合法,只要公安机关对你进行大数据侦查,你其实就没有秘密可言。
以上是我对大数据侦查的理解。我下面讲一下大数据侦查对办案实务的影响:对于一些真正的犯罪行为,通过大数据侦查,公安机关会收集到更多的客观证据来证实犯罪,这会压缩事实认定的辩护空间;但对冤假错案来说确实是好消息。这就要求我们在办案过程中,要有意识地去收集这些电子证据,从而更好地帮助当事人。简单讲一个我自己办理的案件:我在一个已批捕的案件中,就是积极主动去寻找大量的电子数据进行分析,填充行为与结果之间的时间空白来还原事实,进而切割行为和结果之间的因果关系,最终实现了不起诉。我今天就分享这么多,谢谢大家!
刘立杰
非常感谢大家参加刑事二部的活动。今天这个题目其实挺大的,既涉及技术问题,又涉及电子证据问题,我结合3个小案例谈一下个人的体会。刚才黄凯律师讲的是大数据刑事侦查,我下面要讲的案例既包含侦查的角度,也包括律师如何运用大数据开展刑事辩护。
我较早承办的和大数据相关的案件是一个电信诈骗案件,此类电信诈骗将原来的一对一、点对点的诈骗行为,发展成群发短信这种“大数据”诈骗。根据被告人的供述,他们每天通过自动群发短信的技术方法发送15万条诈骗信息,比如说从非洲诈骗网点每天群发到中国来,这15万条诈骗信息的主要内容是“你的医保卡被冻结了,如有疑问请拨打电话询问”等。这些诈骗信息发送的成本很低,但电诈集团并不在乎接到信息的是警察还是普通老百姓,仅从概率上看,15万人里总有“上钩”的。电诈集团反馈的数据显示,15万条短信中每天能回复的大概有200个,能形成有效诈骗,使被害人真正相信的大概有5个到10个,其中账上有钱,最终被成功转走的可能也就两三个人。但因为实施诈骗的成本很低,所以只要有被骗的,诈骗集团原则上就不会赔本。因此,现在这种大数据背景下碰到电信诈骗和在大街上碰到一个交通事故这种偶发事件的概率是差不多的。而在北京,我估计交通事故概率要超过十五万分之一。所以说大家不要觉得是现在人都变傻了,所以才有电诈的空间,不是这样的,实际上是因为现在手段变了,数据量不一样了。传统的诈骗完全是通过人力和线下,成本太高,风险也高,现在电诈集团采用的是大数据、低成本的诈骗方式。
在美国很早的时候就有一种电子邮件诈骗方式,比如说我先群发10000封电子邮件,然后预测哪个球队会赢,你听我的预测去赌球肯定能赢。如何让接收邮件的人相信呢?因为概率上,两个球队比赛,绝大多数是一个赢、一个输,平局概率低到可以暂时忽略不计。群发的10000封邮件里,预测同一个球队输和赢两种结果的各有5000封,一场比赛结束后大概就有5000封邮件是猜对了。如果第一次收到预测对的邮件的人开始并不相信,觉得这种预测是巧合,那么行为人就继续采用同样的方式发送预测邮件,但只给第一次预测对的那5000个电子邮件继续发送预测邮件,然后两次收到预测对的邮件的就剩下大概2500人了。这2500人还不信怎么办?那就再发起第三轮预测,最后同理能筛选出大概1250人……以此类推,就这样不断重复,一直到最后锁定某一些人觉得发邮件这个人确实厉害,深信不疑,准备赌一把大的,结果最后一下注,就被骗了,这也是典型的大数据诈骗。这是从大数据犯罪角度讲的一个案例。
下面讲一个大数据侦查角度的案例。在内幕交易、侵犯商业秘密等一些比较隐蔽的经济犯罪里,司法上很多是根据接触推定主观明知的,比如你和内幕知情人员接触了,在敏感期内又买了相应的股票,就可能推定你是主观明知的。那么怎么判断你存在接触呢?除了短信、微信聊天记录,还可以通过行程轨迹,比如有没有同乘一架飞机,同住一个宾馆。在此类案件中,我们能够看到卷宗里是有相关的证据的。还有在商业秘密案件里,一个老板辩解他和自己的技术员工不熟,技术员工非法获取他人商业秘密的事情老板并不知情。然后侦查机关就调取了老板和员工近5年来的同行记录,发现这两个人几乎形影不离。在很多案件中,侦查卷宗里会通过大数据信息,标明犯罪嫌疑人的第一关系密切人、第二关系密切人。这个案件中,在大数据层面,这个男领导的第一关系密切人不是他妻子,而是这个技术员工,二人在互联网上能够查到的飞机、高铁、住宿关系紧密度,要比他和妻子的关系紧密度还高。所以,在侦查机关眼中,犯罪嫌疑人线下的第一关系密切人可能是他们的家人,但是家人不一定陪他们时间最长,陪他们时间最长的可能是犯罪嫌疑人的共犯。
第三个案例是关于大数据电子证据的问题。在传统的非法吸收公众存款、传销等涉众型犯罪案件中,司法机关要认定被害人或者投资人,往往需要找到他们做询问笔录进行核实调查,当时的涉案人数不太多,不管是10个、100个还是1000个,公安机关出动一个小分队肯定是能做完的。但现在的非法吸收公众存款、传销等案件中,被害人动辄十几万人甚至上百万人,涉及百亿元、千亿元的犯罪金额,如果全部线下核实,恐怕公安机关全员出动干一年也干不完。这就倒逼审判机关在采证的标准上,基于这种海量的数据开始允许抽样核实,同时借助电子数据印证来确认被害人身份。换言之,只要有账户、有资金流入,那么这个数据就可以代表一个被害人,除非有反证可以推翻。这时候说对每一个当事人做一套笔录,证明其是被害人或者投资人,记录身份证号,现场签字、按手印,已经不现实了,所以它也影响了法院对证据的采纳。
从以上这三个案例能够反推出来,既然在大数据背景下,犯罪、侦查、指控证据发生了这样的变化,那作为律师来说,我们也要与时俱进更新辩护思路。大数据的特点决定了它在司法实践中有两类运用形式:第一类是作为直接证据用来证明案件事实。比如上述案件中,通过数据就可以认定被害人,跟平台有资金往来就属于直接证据;电信诈骗中,你接到了群发的短信,然后汇款给犯罪分子就能证明你是被害人之一。这些都可以作为案件的直接证据。第二类是利用大数据间接做出推定,比如上述案件中,用大数据证明犯罪嫌疑人说谎,老板称和技术员工接触不多,但是数据显示他们接触很多,从而推定老板存在犯罪故意等。
我们知道,第一类直接证据一般无法直接推翻,所以辩护时一般会称证据收集、提取、保存等过程中可能存在不规范的情况,从办案机关程序不合法的角度进行辩护。比如快播案件就很经典,虽然其在服务器上储存了大量的淫秽影片,但办案机关没有及时封存导致可能存在数据删改的情况,对于这部分电子数据是否经过修改就是存疑的。而对于推定类的大数据证据,我们可以用反证的方法。比如虽然你用大数据证明我们有频繁接触,但是我提出一个反证来证明你的推定不成立。比如有个传销案件中,检方指控犯罪嫌疑人用自己的手机控制了这个传销平台,但经过了解,犯罪嫌疑人称虽然手机是我的,平台的各种维护费用、服务器租金也都是以我的名义交的,但是控制平台系统的手机不是我操作的,是我老公做的,我只是个家庭妇女,什么也不知道。那怎么证明是她老公干的呢?犯罪嫌疑人被羁押之后,人已经到看守所,手机也已经被扣押了,但服务器后台仍然显示有人登录,而且登录地址就是犯罪嫌疑人老公的住所地。这种情况下就会形成一种反证,从而削弱指控证据。
还有一类反证的方式,这个比较细,与大数据的关联稍微远一些。比如我们最近接的一个案件中,检方称当事人伪造公司印章,公章上多出了一个18的数字,即“某某公司(18)”。我们疑惑为什么当事人要伪造一个长得这么不像的公章,还要加个18呢?犯罪嫌疑人解释说,因为被伪造公章的那个公司带着他刻的这枚公章,该公司授权同意他使用,还说他是第18家被该公司授权的,前面1号、2号、3号、4号一直到17号都有公司在用了,所以是第18号公章,并不是伪造的。我们根据这个线索,去裁判文书网上搜索了相关的公司,结果发现使用第5号公章的人几年前也因为同样的原因被这家公司控告。据此,我们向法院提出,这个伪造公司印章的案件不符合逻辑,如果真要伪造为什么要加一个18,肉眼就能看出来有问题,都不用鉴定。现在有一个5号公章事实存在,为了增加说服力,我们尝试通过各种途径包括税务记录查询,看能不能找到1号、2号或者其他编号的公章,即便不能全找到,如果再找到其他号码的公章,也有可能证明控告人是在设套陷害这么多家公司,或者至少说明我们不构成相应的犯罪。这也算是通过大数据来找反例的情况。
今天我们的讨论还涉及执业风险防范的问题,我举一个亲身经历的案例,从某种意义上讲也是大数据“救”了我。在疫情期间,我的当事人涉嫌恶势力犯罪,二审期间当事人的女儿找到当事人的弟弟录视频取了一份证据证明当事人可能不具备作案条件,当事人的女儿把录制的视频发给我,我刻成光盘邮寄给了法院。后来二审法官跟我说,他认为这个证据确实是新证据,所以让二审的检察院去重新取了证,因为对于律师交的新证据他肯定要再核实一遍。侦查人员就找到了当事人的弟弟核实,但是在核实笔录中当事人的弟弟说“本来我不想说,律师来了非得让我说,我没办法,律师逼着我让我把这个证言给做了”。二审法官就打电话非常严厉地跟我说,刘律师你也是做过法官的人,怎么能做这样的事?我说我才不会干这样的事。他说那你怎么证明呢?现在公安取的证言证明是你撺掇证人改变了证言。我说现在是疫情期间,我有行程码、健康码,还有取证当天在北京做核酸的记录,都给你发过去,这些证据都能证明我在此期间就没有去过当地,连证人都没有见过,怎么去取证呢?
刚才在听各位律师、专家分享的时候我一直在想一个问题:大数据侦查、辩护中,是不是也会存在幸存者偏差的问题,或者说统计谬误的问题。“二战”的时候有个国家的战斗机制造厂商统计飞机着弹点,他们统计的是平安飞回来的飞机,认为凡是有弹点的地方肯定容易受到攻击,所以就想着如何加固这一部分。后来有一个统计学家指出,子弹打到这里还是飞回来了,说明这个地方不用再加固了,反而是应当加固其他地方,因为那些真正被击落下去的飞机被打到的应该是别的地方。同理,对于大数据反恐来说,那些用大数据侦查锁定的犯罪嫌疑人,其实可能不通过这些方式也能抓到,因为他的特征本身就比较明显,反恐部门更应当关注那些没有发现的恐怖分子是如何逃避侦查的,应该重点加强那些大数据看不到的环节。当然我不是说大数据没有用,只是说我们通过大数据筛出来的都是表面上应该筛出来的,那些我们没有筛出来但实施了犯罪的,或者说至少暂时逃避了法网追究的才是我们更应该关注的。
最后,从执业风险的角度来说,我们自己要“行得正”。如果自己行不正,根据刘记辉律师所说的罗卡定律,你的行为肯定会留痕。留下痕迹,被查、被追究只是早晚的事。所以借此机会,作为刑事二部的负责人,我也希望大家严守律师执业规范,做一名靠专业而不是靠歪门邪道立足的刑辩律师。谢谢大家!
注:摘自刘立杰主编:《刑辩百人谈·专业篇》(2024年特辑)第561~599页,法律出版社2025年3月出版。


