开云体育
开云体育官方75号咖啡丨DeepSeek+检察 ——人工智能融入检察业务的前景与挑战
党的二十大擘画了以中国式现代化全面推进中华民族伟大复兴的宏伟蓝图,特别强调加快建设数字中国。最高人民检察院检察长应勇指出,数字检察是数字中国的重要组成部分,是数字中国在检察机关的具体体现。近年来,检察机关深化实施数字检察战略,紧紧围绕“业务主导、数据整合、技术支撑、重在应用”要求,积极推进数字检察工作,构建了一批大数据法律监督模型,人工智能技术在检察履职办案中的应用深度和广度日益扩展,以数字检察赋能法律监督的成效愈发明显。人工智能作为专注于算法突破的高新科技产业,若融入到检察工作体系中,势必会带来办案模式、司法监督等全链条的变革,进而也势必对检察工作带来挑战。本期75号咖啡·法律沙龙邀请法学理论、检察实务、人工智能等领域学者专家共聚一堂,聚焦“人工智能融入检察业务的前景与挑战”这一主题展开研讨,以期为人工智能时代检察机关更好运用人工智能技术、推进数字检察工作、提高检察办案质效提供有益参考。
人工智能(AI)技术的概念和基础可以追溯到20世纪中叶,现代AI的爆发源于2010年代的深度学习革命,而其应用于生活和工作实践,比如图像生成、语音助手、自动驾驶等,是近几年科技大爆发的突出表现,其中大语言模型的开发和发展,正在使我们所熟知的工作和生活环境发生天翻地覆的变化。即便如此,代表现代AI技术发展最新成果的大语言模型自身仍然存在一定的局限和不足,这是事物发展规律使然,也是科技进步的必经阶段。直面问题不足、找到解决方案是我们推进科技发展的可行路径,在应用大语言模型过程中,哪些问题需要我们重点关注呢?
DeepSeek等大语言模型实践应用中,有一些问题需要我们预判和解决:一是数据来源的问题。特别是监督类数据。数据互联互通这项工作已经推进了很多年,但是实务中还是存在跑数据、要数据。有些数据还涉及到保密,不同机构的网络保密等级不同。二是还存在数据真假辨识的问题。之前媒体报道过,美国律师提交辩护意见,其中多个判例另外一方辩护人检索不到,法庭向作出上述判决的法官核实后发现,系AI自动生成的虚假案例。前两周我们涉外团队检索在中国取得永久居留权外国人犯罪的法律地位相关资料时,发现有个“上海三中院判决的走私案件”,但是经查证我们院并没有起诉过,所以这个案例是虚假的。关于数据虚假的问题,我能想到的解决方法就是要标记数据出处,人工复核。以生成审查报告为例,证据证明部分,以及侦查监督线索是依据哪些数据形成,上述数据的原始出处在哪里,这些都需要标记,检察官人工复核。与此同时,还需要给数据库的数据写保护,禁止DeepSeek对原始数据进行篡改。
从技术应用的角度而言,目前大语言模型的检察应用还存在一些障碍。一是私有化部署的成本问题。私有化部署可以解决一定程度上的安全性问题,但是其部署成本很高。二是私有化部署仍然存在数据泄露的风险,仍有被他人攻击的可能。三是私有化部署需要持续的知识更新,可能会产生更新时效不足的问题。四是人工智能会产生数据幻觉,生成虚假的内容。五是人工智能当前大多仍为通用性的模型,专业性不足,无法满足检察工作个性化的需要。六是各地都在积极探索人工智能的应用场景,有可能会带来一定程度上的重复开发,造成精力、资源的浪费。
关于存在的问题和解决路径,我想到两点。一是关于数据核实的问题。当前使用比较多的技术是检索增强生成(RAG),它会根据联网的数据或者内部的知识库,在生成的内容最后做一个标注,不过有的时候,它会装模作样地生成一个看似合理的脚注,需要进行人工复核。但是总的来说,RAG技术当前比较热门,对检察办案过程中解决数据幻觉问题有一定的帮助。二是关于数据协同的问题。在其他单位未开放结构化的数据前,检察机关至少可以先将单位内部现有的非结构化的文书等,利用OCR技术转化为结构化的数据,从而搭建更复杂的法律监督模型。
此外,我觉得检察机关运用人工智能技术推进检察工作还存在一些风险与障碍,其中最大的障碍是,目前“满血版”大模型本地部署的成本较大,7B/14B等“蒸馏版”大模型又难以实现良好的效果,因而往往还需要依赖云端部署的大模型,这就意味着当我们“投喂”大量的数据给大模型时,数据也面临着泄露的风险。因此,我想到的一个解决方法是,使用开源的通用性个人信息匿名化预处理技术,将需要“投喂”的信息先进行隐私处理后,再“投喂”给大模型,从而避免一定程度的数据泄露风险。
虽然人工智能提高了司法效率,但技术边界是人工智能永远无法跨越的经验鸿沟。主要有以下几个方面:一是算法也具有“经验贫困”的困境。大模型的发展,高度依赖已有案件的资料和数据库,但是面对一些新型案件、新型领域和新型权利,因为数据库中找不到类似的资料,因此大模型所给出的答案可能是缺失的。上海作为很多新兴事物的首发之地,这些问题可能是人工智能无法关注到的,需要司法工作人员长期积累从而推动这些领域问题的法律发展和案件解决。
二是司法直觉具有不可编程性。司法直觉是司法工作人员在长期职业实践中所形成的、难以被理性规则描述的一种认知能力,它融合了法律知识、社会经验、伦理判断和价值感知。尽管大模型在数据处理和模式识别上具有强大能力,但是它的算法逻辑和司法直觉之间存在着根本性的鸿沟,这种司法直觉的不可编程性,不仅源于技术本身的局限,更局限于司法活动的本质属性。例如在家事审判中所形成的伦理判断的经验,可以直接迁移到遗嘱继承等案件的实质性争议的判断。司法工作人员对合理怀疑、显失公平等概念的把握,缘起数千起案件的积累与反思,而且这种司法直觉无法被还原为数据的特征。司法直觉在一些案件中也会带来一种顿悟的偶然性,而且这种顿悟的偶然性对于案件的处理有时候可以发挥着决定性作用。比如在一起合同纠纷案件中,司法人员发现签字的笔迹在违约责任条款处有轻微的颤动,进而发现胁迫订立合同的隐情,这种细微的敏感性是数十年甚至几十年来职业训练养成的一种条件反射,这种司法直觉是一种无法被可量化为数据处理的能力。因此我认为司法直觉的不可编程性、不可计算机化,也需要我们对大模型的发展保持着一种边界感。
三是技术理性的先天局限致使机械逻辑与司法实践存在鸿沟。我们都知道价值判断在所有案件审查中都发挥着一种巨大而危险的功能,但是如果离开了价值判断,整个司法是冰冷的、机械的,恰恰是因为人有这样一种价值裁量、价值判断,所以才使司法或者检察工作更加公正与人性化。拉伦茨在《法学方法论》中提到的一个核心问题就是,怎么通过成文法的体系解决法律适用者的价值判断的程序,他认为这是一个思维的程序。价值判断在他看来既发挥了巨大的作用,同时又带来了自由裁量的风险。如何推动价值判断,在客观的、有思维痕迹的、有方法步骤的过程中推动法学和司法的发展,这是他在这本书中探讨的核心问题。其实司法工作在这个过程中都离不开人类的价值判断问题,因为司法本质上调整的是社会关系,而人工智能算法逻辑难以兼容多元价值判断,难以平衡价值判断和合法的统一。
四是算法黑箱与司法存在伦理问题的本质冲突。司法公正不仅追求结果正确,更强调程序的参与性和可接受性。人工智能大模型生成的判决,包括它的裁量标准,因为没有经过当事人的充分论证、质证、参与,所以可接受性很低。大模型的发展能够推动司法公正的发展,尤其是在证据立体化审查、法律适用和裁判文书的梳理上,但是无法解决人类价值判断在法律适用中所发挥巨大而有风险的功能问题。对于人工智能大模型在司法领域中的运用,我认为应该取其所长、避其所短。
科技是一把双刃剑,AI技术、大语言模型等给我们工作和生活带来便利的同时,也带来了一定的风险隐患。比如,AI视频换脸技术起初只是人们用来娱乐的一种小程序,但是犯罪分子却嗅到了所谓的“商机”,通过不法手段获取受害人姓名、语言习惯、亲友联系方式等重要信息以后,叠加使用DeepFaceLab开源工具、语音模拟技术等,生成逼真的换脸视频,对受害人及其亲友进行诈骗。已有报道中提到,某地发生多起针对老年人的诈骗犯罪,诈骗团伙利用AI工具分析老年人亲友通话记录、社交活动等,筛选出诈骗对象,模仿亲友声音骗取老人钱财。这就要求司法人员既要对犯罪嫌疑人的新型犯罪手段和方法有所了解,也要对大语言模型等AI技术有所掌握,唯有知己知彼才能查实和证明犯罪。各位嘉宾们刚刚都提到了大语言模型自身存在的不足与问题,结合检察实务工作而言,人工智能时代还存在哪些风险挑战?对于这些问题与不足、风险与挑战,有哪些比较好的应对措施呢?
我认为人工智能技术对检察工作带来的挑战主要是会带来一些新型犯罪,比如刚刚讲到的声音、图像等深度伪造问题,以及反向提取信息等数据犯罪问题,还会出现技术失误,产生犯罪主体是谁的问题。比如,当人工智能自动驾驶时,发生了交通事故,那么责任主体到底是谁?此外,我认为人工智能还会对检察官的权威性以及整体的工作方式带来很大的挑战,检察人员势必需要思考如何利用好人工智能作为辅助办案工具,使得工作效率最大化。
针对前面提到的大语言模型自身存在的不足与问题,可以采取相应的对策予以应对。一是我们可以预先了解一下上级检察机关或者其他地方检察机关的人工智能部署方案,避开他人已经或正在探索的,再结合我们自身办理的案件特点,进行具有自身特色的数字化部署。二是我们要找到合适规格的大模型,既能满足成本控制,又能实现较好的效果。三是可以通过Manus等智能体的运用,或者搭建RAG知识库、优化提示词、参数微调等方式,来帮助解决生成式AI的幻觉倾向、专业力不足和时效性差等固有缺陷。在部署推进的过程中,我们需要注意几个平衡:一是安全与效率的平衡;二是是人工与智能的平衡;三是是成本与效益的平衡。
我认为人工智能技术可能会给检察工作带来三方面新的监督问题。一是Deepfake深度伪造问题。通过DeepSeek生成提示词,再通过这些提示词去其他软件中生成图片或者视频,就可以实现深度伪造的效果。二是个人信息保护问题。当我们在使用大模型时,实际上是将我们的信息数据嵌入到了大模型的神经网络中。某些技术黑客可以通过一些提示词,将个人的信息数据反向提取出来。三是知识产权侵权问题。如果将一本书籍以PDF形式上传,大模型可以很容易地就将其中一些片段改写,因而侵权问题可能不再像以前一样,是一种复制粘贴式的侵权,更可能是抄袭某本书的风格、情节或者其他内容等等。
大语言模型的便利和快捷为检察工作注入了新的活力,我们要牢牢抓住这一机会来推动大语言模型在检察领域的运用,但同时要时刻警惕人工智能带来的风险,充分发挥检察机关的法律监督职能。在司法工作中涉及大量的敏感信息和隐私数据,大语言模型的训练通常依赖大规模的数据集,而在数据采集、传输储存中,如何防范敏感信息泄露成为司法工作中一个亟待解决的问题。如果数据处理不当,可能导致涉及案件当事人隐私的泄露,引发对司法公信力的质疑。因此如何在利用人工智能数据处理方面的优势与保护隐私权之间取得平衡,我认为检察机关在维护社会公平正义和保障公民合法权益方面有更大的作为的空间。
一是加强跨部门协同监管。大语言模型涉及到的数据广泛,既有商业数据,也有公共数据和个人敏感数据、隐私数据。检察机关可以与网安、网络、市场监督部门建立高效的信息共享和联合监管机制,形成多部门的联动监管体系。通过统一标准、共享数据和信息互通,实现大语言模型在数据使用过程当中的隐私风险全链条监管,确保违法违规行为能够被及时发现和制止。
二是加强公益诉讼与刑事诉讼监督。检察机关在维护公共利益方面,尤其通过公益诉讼保护个人信息等方面,在个人信息保护法出台以后,可能在这方面的工作量会大大加强。当发现大语言模型企业或相关业务存在非法采集、滥用个人信息的违法行为时,可以依法提起公益诉讼,针对一些利用大语言模型实施诈骗、数据泄露等犯罪活动,可以通过监督公安机关刑事立案、侦查取证,严厉打击相关违法犯罪行为。
三是健全证据采信与技术鉴定机制。大语言模型在数据处理方面涉及复杂的技术问题,比如数据合成、深度伪造,这对传统的证据采信和司法鉴定提出了严重的挑战。检察机关应该加强与技术部门的合作,引进先进的数据鉴定手段,建立专门的司法技术团队,通过技术手段确认数据来源,追溯数据流向,确保在案件处理中能够充分准确认定违法事实,为依法追责提供有力证据。随着技术不断的迭代和法治社会理念的更新,司法机关在大语言模型隐私保护方面也在不断的探索与创新,尤其是技术不断的迭代发展,如何建立一套科学高效灵活的信息保护机制,我觉得这可能是检察机关未来面临的工作挑战。
当前大语言模型进步飞速,人工智能(AI)从以往的技术性辅助角色逐步向替代性职能过渡,其能力边界已从简单的工具支持(如文本纠错、数据检索)延伸至复杂决策与创造性领域,比如法律文书起草、学术论文框架构建等。那么对于检察机关而言,人工智能技术可以给检察工作、检察办案带来哪些便利和有益影响,究竟如何赋能检察业务发展?其前景如何?是否会替代检察官或者检察官助理?请各位嘉宾谈一谈观点和看法。
首先分享一下大语言模型与传统AI的本质区别,以及它的能力边界在哪里。大语言模型可以处理多种自然语言处理任务,包括Markdown、Html等标记语言或是其他计算机语言。任何只要能够以语言表达的内容,它都可以进行比较好的预测和生成。当前,市面上部分AI软件,之所以能够生成图像或视频,其底层逻辑即是使用了一套诸如Markdown的语言系统,随后通过大语言模型处理生成。
因而大语言模型的出现,一方面,允许检察人员进行更多轻量级的创新。过去,一般是由省级检察机关进行统一的信息化系统建设,个人如果有任何想法,必须嵌入既有的信息化系统才可以实现。但是有了大语言模型之后,每个人都可以成为超级个体,去进行一些业务创新。另一方面,检察人员能够更好地总结办案经验。检察人员可以将办案经验知识“投喂”给大语言模型,从而利用大语言模型进行高效地总结提炼。
由此,检察机关通过人工智能技术可以实现以下两方面的业务精进。一是可以搭建自己的知识库,针对检察官自身办案特点,通过对以往已办案件进行规律总结、经验提炼,帮助检察官形成具有个人特点的办案风格,同时还可从中发现有价值的办案线索。二是可以训练AI成为检察官助理,处理一些简单的案件。在对大语言模型进行办案规则、案件数据、文书模板等训练基础上,通过建立、优化提示词,使其能够一键生成法律文书、询问笔录、会议纪要等的初稿,承担一些事务性、辅助性工作。
我认为人工智能技术能够为检察工作提供以下帮助:一是实时笔录。目前上海检察机关已经利用检察业务应用系统2.0的微服务架构,研发出满足远程讯(询)问、本地讯(询)问使用的业务应用场景的“制作笔录一件事”子系统,将司法办案场所预约、警务管理等系统功能进行整合,实现笔录制作和案件直接关联、语音实时转写、电子签名捺印、智能笔录提示、同屏展示笔录、笔录自动入卷等功能,实现刑事案件讯(询)问及“四大检察”各类案件的询问,控申调查笔录制作等的业务流程的线上化和相关业务的数字化。二是生成会议纪要。前期上海市院已经通过与科大讯飞等公司合作,引入了讯飞语音助手等技术,可以实时记录会议发言并转换成文字,后期通过引入大语言模型,就可以一键生成会议纪要。三是案件评查、证据审查等。当然这些办案辅助工作理论上可行,但是由于相关案件的涉密性因素,需要本地化部署以后才能真正实现,为避免资源浪费,宜由上级机关统一推进实施。
从基础应用场景来说,DeepSeek可以为检察工作带来以下便利:一是文书校对。DeepSeek的基础运用是可以识别错别字、标点符号误用、语法错误及逻辑矛盾,并支持专业术语审查。进阶运用是可以将电子卷宗材料与审查报告、起诉书进行比对,核实当事人信息、品种、定量、价格、引用的法条等等内容是否存在错误。二是检索资料。首先是法规检索。在北宝、最高检相关规章制度等数据库中,从一个关键词开始,自主关联至相关法律法规。其次是检索案例。可以从本院已决案件数据库、上海市院已决案件数据库、最高检指导性案例、典型案例、最高法入库参考案例、刑事审判参考案例中,自动寻找关联案例。最后是检索其他参考资料。例如司法解释、相关工作机制的理解与适用、答记者问等材料。三是三书比对。帮助检察官进行起诉意见书、起诉书和判决书比对,发现监督事项。
从深度应用场景来说,开展权利义务告知、听取辩护人意见、讯问犯罪嫌疑人、完成案件审查报告撰写,DeepSeek与办案系统结合,可以自动生成权利义务告知文书并远程送达。目前系统里人工生成文书,仅能远程送达非监禁犯罪嫌疑人的权利义务告知书,但是法律规定三日内必须告知的委托辩护人告知书不能远程送达。法律文书中起诉书的生成相较于审查报告应更为可行,审查报告是检察官根据证据材料形成的法律文书,而起诉书是检察官在审查报告基础上形成的对外文书,可以探索生成审查报告,比如类案审查报告、简易程序案件审查报告。
DeepSeek在检察工作中另一个可以发挥作用的地方是生成数据监督模型。以我们三分院办理的海上绕关走私为例,走私船舶、人员多来自沿海其他省份,上海是海上运输和进入长江流域的必经地,江苏是卸货地。以往多地打击的走私犯罪分子都局限在本地。其实相关人员和涉案船舶、手机号、车牌号等信息在不同的案件中出现过,通过电子数据可以串并出很多线索。但是依靠人工的一一比对,效率低下。DeepSeek可以在长三角相关案件的数据中实现对线索的串并,从而推送很多走私人员未被追究责任的犯罪线索。我们可以预判在不远的将来,DeepSeek可以在上述工作中助力检察官。
DeepSeek可以生成讯问提纲、语音提问、语音转文字或者语音记录,形成最终笔录,但是这并不意味着DeepSeek能够成为检察官。如果由DeepSeek进行讯问,那么讯问可能会变成ATM机式一步一步进行,最终输出结果。美剧《Lie To Me》里,侦查人员可以通过微表情识别犯罪嫌疑人撒谎,DeepSeek可能也可以通过此方法辨别犯罪嫌疑人是否撒谎,然后不停提示“你撒谎,你撒谎”,但是遇到犯罪嫌疑人拒绝回答,DeepSeek如何处理?检察官的讯问可以通过语气、语速、表情对犯罪嫌疑人形成心理威慑,DeepSeek难以达到同等效果。
关于DeepSeek的人工替代,我个人认为,DeepSeek正通过多模态融合(文本/图像/音频)、强化学习等技术升级,向“思考型检察官助理”演进。未来,DeepSeek可以具备辅助办案的主要功能,通过本地化部署、人机协同机制和持续技术迭代,可显著提升办案质效,同时对未来检察官、检察官助理的能力提出了更高要求。不过,DeepSeek等AI其作为“辅助工具”的定位仍需明确,关键法律判断仍需检察官把控。
我觉得大语言模型给检察工作带来了几方面的便利:一是为检察工作提供了前所未有的信息检索和案件分析工具。传统的法律文书查阅往往耗时耗力,而大语言模型可以在海量的法律法规、判例、司法解释中迅速锁定相关内容,大大缩短了司法工作人员获取信息的时间。尤其是在办理跨区域、跨领域案件时,通过智能检索系统,司法人员能够快速调取类似案件,帮助梳理案件的脉络,从而提升案件研判的准确率与办案效率。二是大语言模型在证据整合和风险预警方面具有显著优势。利用大模型可以对不同来源的信息进行智能化对比,自动识别证据间的潜在关联,有效辅助司法人员构建完整的证据链。三是大语言模型的应用促进了检察业务流程的智能化和标准化。通过构建智能模型、决策平台,司法机关可以在部分办案流程中实现自动化,比如在初步筛查和案件分类上引入智能算法,提升案件分流、立案办案环节的效率。借助大模型,司法机关能够更精准地进行数据统计分析,发现潜在的风险点,为制度完善和业务创新提供数据支持,推动检察工作向智慧检察方向迈进。
另外,我认为DeepSeek大语言模型在给检察工作带来便利的同时,一方面,能够促进司法公正。传统司法实践中存在类案不同判、证据审查疏漏、法律监督滞后的难题,而生成式人工智能通过数据处理、模型识别和知识推理能力正在构建司法活动的底层逻辑。主要体现在以下几个方面:一是全要素证据审查的突破性变革。传统证据审查由于受到人力和认知边界的限制,无法构建起立体化的审查体系,而大模型通过多模态的数据处理能力,能够迅速构建起立体化的证据审查体系,值得大家高度关注。二是法律适用的智能化升级。生成式人工智能尤其是大模型,通过知识图谱和自然语言处理的结合,推动法律适用从经验驱动向数据驱动、算力驱动的发展趋势,推动司法工作的发展。三是司法决策的理性化增强。大模型通过模拟推演与风险预警,可以降低司法决策中的认知偏差。
另一方面,通过数据处理、模式识别与知识推理,能够推动对司法规律的认知深化与体系化。一是生成式人工智能可以通过数据分析促进对于司法规律的认知。传统司法对于同案同判的追求,长期停留在经验层面,高度依赖个案积累的经验,存在着碎片化、主观化方面的局限,而大模型通过全量数据分析使司法规律显现化、可量化、可操作。在程序上通过大量类案分析程序违法的规律,有效实现法律监督的针对性。二是生成式人工智能能够拓展“司法规律社会化延伸”的认知。生成式大模型可以助力司法机关发现司法规律,进一步与社会治理相联动,推动源头治理任务的高效实现,创新社会治理新模式,如大模型分析案件数据与社会经济指标、失业率、网络渗透率与人工智能换脸诈骗、数据黑产等。最后,可以基于生成式人工智能分析司法规律,驱动体制机制创新。大模型对于司法规律的深度挖掘与系统性呈现,为司法体制机制创新提供科学依据。通过将技术识别的规律转化为制度设计的逻辑起点,实现人工智能与制度创新的互动。比如通过人机协同推动司法规律的认知,已经成为我们现在对于大模型的发展不得不面对的一个问题。
感谢各位嘉宾的精彩分享。今天,我们围绕人工智能融入检察业务的前景与挑战等相关问题进行了深入研讨,各位嘉宾从不同角度解析了人工智能技术的优势与便利,以及潜在的不足与风险,并提出了宝贵建议,给我们数字检察赋能法律监督工作带来诸多启发。再次感谢各位嘉宾的倾情分享,我们期待以Deepseek为代表的人工智能新技术能够助推数字检察工作迈向新的台阶。