數(shù)據(jù)爬取犯罪治理需處理好規(guī)范與價值、思路與方法、體系與問題等多對關系,以刑法懲治數(shù)據(jù)爬取犯罪僅為數(shù)據(jù)爬取犯罪治理中的一部分。筆者認為,討論數(shù)據(jù)爬取其他治理路徑前,先要厘清兩方面內容:一是數(shù)據(jù)爬取犯罪的刑事風險類型;二是數(shù)據(jù)爬取犯罪治理的法理基礎。
數(shù)據(jù)爬取犯罪的刑事風險類型
違反網(wǎng)站Robots協(xié)議等合約授權。網(wǎng)站Robots協(xié)議等合約授權一般會涉及允許數(shù)據(jù)爬取的性質、內容與范圍,也會明確禁止“爬取”的數(shù)據(jù)。如,許多企業(yè)會在平臺網(wǎng)站服務條款、使用說明或權責聲明中,將上述內容加以列明,但未使用相應技術措施,如設置網(wǎng)絡爬蟲身份識別與攔截機制。這種情況下,數(shù)據(jù)爬取者一旦違反Robots協(xié)議等合約授權,就可能面臨相應刑事風險。
植入惡意“爬蟲”程序或者腳本代碼使得存儲數(shù)據(jù)被不當修改或增刪。“爬蟲”程序或腳本代碼的本質是一種自動化復刻工具。使用該工具必須遵守法律底線,如果使用惡意“爬蟲”程序或者腳本代碼,突破存儲數(shù)據(jù)技術防范措施并造成嚴重后果的,那么有可能面臨相應刑事風險。
不當使用網(wǎng)絡爬蟲技術,未經許可,故意避開或者破壞他人為其作品設置的技術措施。《中華人民共和國刑法修正案(十一)》實施后,無論是否通過信息網(wǎng)絡向公眾傳播作品,只要數(shù)據(jù)爬取者不當使用網(wǎng)絡爬蟲技術,未經著作權人或者與著作權有關的權利人的許可,故意避開或者破壞為著作權(包含鄰接權)專門設置的技術措施,都有可能成立侵犯著作權罪。
網(wǎng)絡爬蟲算法的設計缺陷使得批量獲取數(shù)據(jù)出現(xiàn)重復甚至無效的情形。比如,網(wǎng)絡爬蟲算法在測試階段的定位是自動獲取真實的數(shù)據(jù)信息,但在實際運行階段,由于受到不同因素干擾,其精準度發(fā)生偏差,在算法研發(fā)者沒有及時作出調整時,網(wǎng)絡爬蟲算法就會抓取許多不真實的數(shù)據(jù)信息。如此一來,爬取數(shù)據(jù)信息的數(shù)量與真實性會發(fā)生變化,會提高數(shù)據(jù)爬取者面臨的刑事風險。
數(shù)據(jù)爬取犯罪治理的四個維度
建構數(shù)據(jù)爬取犯罪一體化治理體系。在發(fā)展數(shù)字經濟背景下,需要科學建構數(shù)據(jù)爬取犯罪一體化治理體系,努力形成法律法規(guī)、司法解釋、部門規(guī)章、規(guī)范性文件、政策文件、信息技術標準等規(guī)范體系。這些規(guī)范可以不同方式預防數(shù)據(jù)爬取犯罪的刑事風險。如《中華人民共和國網(wǎng)絡安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《中華人民共和國民法典》《中華人民共和國刑法》《中華人民共和國反不正當競爭法》等法律旨在確立禁止不當數(shù)據(jù)爬取的總體要求、基本原則與部分細節(jié)內容;《互聯(lián)網(wǎng)信息服務管理辦法》等明確了爬取特定內容的信息的違法性;《網(wǎng)絡安全審查辦法》等部門規(guī)章規(guī)定了公開收集使用數(shù)據(jù)的規(guī)則,要求爬取數(shù)據(jù)必須符合公開收集使用數(shù)據(jù)的目的、規(guī)模、方式、范圍、類型、期限等。在未來規(guī)范完善中,還應當制定反網(wǎng)絡爬蟲的信息技術標準,合理分配強制性信息技術標準與推薦性信息技術標準,不斷凝聚國家標準與地方標準的優(yōu)勢力量,推動建構數(shù)據(jù)爬取犯罪一體化治理體系。
發(fā)揮網(wǎng)絡爬蟲行為準則的治理效能。互聯(lián)網(wǎng)企業(yè)應當及時發(fā)布明確有效的Robots協(xié)議,告知數(shù)據(jù)爬取者哪些頁面或者數(shù)據(jù)可以爬取,哪些不可以爬取。此外,在Robots協(xié)議中還需要細化授權范圍,以及無權爬取或者超越授權爬取后,網(wǎng)站管理員發(fā)出通知的途徑與方法。這些內容對法官把握數(shù)據(jù)爬取引發(fā)的刑事風險大小具有重要作用。針對不同場景下的數(shù)據(jù)爬取,各種Robots協(xié)議具有不同強度的約束性:針對部分網(wǎng)頁的小型數(shù)據(jù)爬取,Robots協(xié)議的約束強度往往較低;針對較多網(wǎng)站或者數(shù)據(jù)庫的中型數(shù)據(jù)爬取,當涉及企業(yè)商業(yè)利益時,Robots協(xié)議的約束強度通常較高;針對全網(wǎng)絡或者使用搜索引擎的大型數(shù)據(jù)爬取,Robots協(xié)議的約束強度往往最高。通過區(qū)分Robots協(xié)議約束強度的高低,有助于我們審視數(shù)據(jù)爬取者在未遵守Robots協(xié)議時的可罰性問題。
釋放數(shù)字市場運行機制的治理效應。數(shù)字市場運行機制強調以自身運行規(guī)律和相應監(jiān)管舉措來防控數(shù)據(jù)爬取犯罪的刑事風險。刑法一方面要提升防控數(shù)據(jù)爬取犯罪的刑事風險之精準性,另一方面又要保持必要限度,為數(shù)據(jù)合理使用與充分共享留下特定空間。為此,如果數(shù)字市場運行機制以及強有力的監(jiān)管舉措已能有效防控數(shù)據(jù)爬取犯罪的刑事風險,那么刑法宜保持必要克制,不主動懲治特定數(shù)據(jù)爬取情形。
提升代碼和算法對數(shù)據(jù)爬取犯罪的治理功效。借助入網(wǎng)訪問控制、網(wǎng)絡權限控制、目錄級控制與屬性控制等各種技術手段,不斷改進網(wǎng)站訪問控制技術,這些訪問控制技術雖然在信息技術原理上有所差別,但共性是都以代碼為核心。針對網(wǎng)絡爬蟲偽裝為其他爬蟲或者瀏覽器去大量爬取網(wǎng)站內容,我們應當優(yōu)化被爬取網(wǎng)站監(jiān)測的算法設計,即在算法模型中加強對網(wǎng)絡爬蟲的身份識別設計,通過嵌入具有敏捷性的身份識別機制,提示網(wǎng)站管理員網(wǎng)絡爬蟲的真實身份,及時發(fā)現(xiàn)并追蹤數(shù)據(jù)爬取的后續(xù)過程。提升以代碼為核心的訪問控制技術和以算法為基礎的身份識別機制,有助于從技術層面有效防控數(shù)據(jù)爬取犯罪的刑事風險。
(作者:□李謙 作者單位:南京師范大學中國法治現(xiàn)代化研究院)
