《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 業(yè)界動態(tài) > 網絡爬蟲無處不在,,應當如何規(guī)制,?

網絡爬蟲無處不在,,應當如何規(guī)制,?

2021-10-28
來源:財經雜志-財經E法

大數(shù)據時代,除直接通過用戶采集,,另一個主要的數(shù)據來源就是使用網絡爬蟲采集公開信息,。爬蟲的使用到了何種程度?有業(yè)內人士稱,,互聯(lián)網50%以上,,甚至更高的流量其實都是爬蟲貢獻的。對某些熱門網頁,,爬蟲的訪問量甚至可能占據了該頁面總訪問量的90%以上。

  從技術角度來看,,爬蟲就是通過程序去模擬人類上網或者瀏覽網頁或者APP行為,,再從中抓取爬蟲作者所需要的信息的過程。隨著數(shù)據產業(yè)的不斷發(fā)展,,數(shù)據價值的日益高漲,,對于數(shù)據的爭奪日趨激烈?!芭老x”與“反爬蟲”成為無休止的“攻防對抗”,,一些爬蟲違反網站意愿,對網站進行未經授權的訪問,,獲取了網站大量公開或非公開的數(shù)據,,由此引發(fā)諸多法律爭議。

  10月23日,,杭州長三角大數(shù)據研究院,、上海市楊浦區(qū)人民檢察院、上海市企業(yè)法律顧問協(xié)會,、浙江省企業(yè)法律顧問協(xié)會與《財經》商業(yè)治理研究院共同發(fā)起“長三角數(shù)據合規(guī)論壇暨數(shù)據爬蟲的法律規(guī)制研討會”,,邀請了多位重量級法律學者、法官,、檢察官,、互聯(lián)網從業(yè)者從“數(shù)據爬蟲技術與產業(yè)影響”、“數(shù)據爬蟲的民法責任”,、“數(shù)據爬蟲的刑事合規(guī)”等不同角度展開討論,。

  01

  爬蟲無處不在

  “爬蟲應用場景廣泛,合規(guī)與不合規(guī)的場景都有,。例如,,抓取電商網站的評價數(shù)據做市場調研,;做數(shù)字內容的可以利用爬蟲去抓取網絡相應內容;抓取裁判文書網數(shù)據,,進行優(yōu)化后推出“付費版數(shù)據庫”,;企查查、天眼查也在利用爬蟲技術對政府公開數(shù)據實現(xiàn)商業(yè)使用,?!睔W萊雅中國區(qū)數(shù)字化負責人劉煜介紹。

  劉煜對爬蟲的基本原理進行了解釋,,通常爬蟲會定位網站所有的URL鏈接,,獲取頁面里的數(shù)據,再對數(shù)據進行拆解利用,。不管在網頁端還是移動端,,基本爬蟲都基于這樣的原理。使用爬蟲技術對于‘爬蟲一方’和‘被爬蟲一方’都具有風險,,輕則網站崩潰,、重則面臨牢獄之災。

  具體來說,,對于那些小網站或者技術實力弱的網站,,如果爬蟲7X24小時持續(xù)訪問,可能因服務器無法承受激增的流量,,導致網站崩潰,。更麻煩的是,對編寫爬蟲的程序員來說,,如果爬到不該爬取數(shù)據,,再利用這些數(shù)據,可能屬于違法行為,。

  劉煜表示,,在不同場景中,對于爬蟲的態(tài)度截然不同,。例如,,搜索引擎爬蟲受人歡迎,因為搜索引擎能提高被爬網站的曝光率,;但大多數(shù)網站也會基于服務器的風險,、或者種種商業(yè)原因,不希望爬蟲抓取數(shù)據,。拒絕分兩種,,‘反爬’機制,‘反反爬’機制。網站可以去制定相應策略或者技術手段,,去防止爬蟲抓取數(shù)據,。

  網站常見的應對策略是放置Robots協(xié)議,該協(xié)議由荷蘭工程師傅馬丁·科斯特(Martijn Koster )在1994年編寫,,后來成為數(shù)據爬取方和被爬取方之間通行的溝通機制,。中國互聯(lián)網協(xié)會2012年發(fā)布的《中國互聯(lián)網行業(yè)自律公約》中,將遵守Robots協(xié)議認定為“國際通行的行業(yè)管理與商業(yè)規(guī)則”,。

    但劉煜稱,,Robots協(xié)議更像君子協(xié)議,只能起到告示作用,,起不到防范作用,。爬蟲技術、反爬蟲技術,、反反爬蟲技術一直在迭代,,只要網站、App能夠被用戶訪問,,就存在被爬取的可能,。

  惡劣的爬蟲手段會造成社會資源和技術資源的浪費,這些資源都來之不易,。小紅書總法律顧問曾翔表示,有的爬蟲會通過“模擬真人訪問”或者“通過協(xié)議破解”來爬取數(shù)據,?!斑@些都是不光彩的手段,被爬取得的網站不得不采取攻防措施,,造成不少企業(yè)資源的浪費,。”

  曾翔說,,對內容平臺而言,,遭遇爬蟲攻擊極易對于自身以及用戶享有的知識產權造成侵害。通常爬取都是有目的的,,如果爬取到核心商業(yè)機密,,可直接用到其他地方形成競爭優(yōu)勢。另外,,在他看來,,爬蟲還涉及到對于互聯(lián)網公共秩序的破壞?!芭廊〉臄?shù)據能否有效利用,,是否被置于監(jiān)管之下,這些數(shù)據流向何方,都是非常大的問號,?!?/p>

  02

  爬蟲的民事責任判定

  “技術是中立的,但技術應用永遠不是中立的,?!毙吕思瘓F訴訟總監(jiān)張喆表示,在討論爬蟲技術原理時,,更重要的是看爬蟲技術用來干什么,,看它的行為本身是否具有正當性。

  近期,,北京市高級人民法院(下稱“北京高院”)對“今日頭條訴微博不正當競爭案”作出二審判決,。此案中,微博因在Robots協(xié)議中設置黑名單,,限制字節(jié)跳動公司抓取相關網頁內容被訴,。法院認為,微博是在行使企業(yè)自主經營權范疇內的正當行為,,并不構成不正當競爭,,同時撤銷一審判決等。張喆表示,,司法機關對Robots協(xié)議評價是“一體兩面”的,。

  在2020年北京高院對“360訴百度不正當競爭案”做出判決時,認為百度在缺乏合理,、正當理由的情況下,,不得以主體作為區(qū)分,去限制訪問搜索引擎抓取網站網頁內容(太拗口了,,簡單點),。而在“今日頭條訴微博不正當競爭案”中,法院確立的原則是,,企業(yè)有權在自主經營范圍內去限制其他訪問者,,只有在違反公共利益以及侵犯消費者權利的時候,才有可能被認定其行為不正當,。

  在華東政法大學法律學院教授,、數(shù)據法律研究中心主任高富平看來,爬蟲和數(shù)據產業(yè)是連一起的,,現(xiàn)在所謂的數(shù)據公司談及的數(shù)據智能,、大數(shù)據分析基本上是抓取數(shù)據,再進行挖掘分析?,F(xiàn)在普遍認為爬蟲是項中立性的技術,,但更多時候,使用者是為實現(xiàn)‘不勞而獲’的目的。

  高富平認為,,不談論數(shù)據合法生產者具有控制權,,難以對爬蟲合法性進行判斷。國內外爬蟲的合法性邊界探討,,主要著眼從數(shù)據爬取的手段,、目的兩個方面。

  從手段上來看,,爬蟲無視網站的訪問控制,,或者假扮為合法訪問者,會被認為是不合法的,;從目的上來看,,數(shù)據爬取一方是否對被爬取一方提供的部分產品或服務進行“實質性替代”,如果屬“實質性替代”,,則目的便是不合法,。

  網站合法積累數(shù)據資源,那么網站生產端就可以對其進行控制使用,,更重要的是承認數(shù)據控制者可以基于商業(yè)目的來開放數(shù)據,,通過許可使用方式、交換,、交易等方式讓數(shù)據能夠被更多人使用,。”高富平對此補充道,,“基于數(shù)據合法生產者具有控制權的前提,,就可以對于那些無視Robots協(xié)議的爬取者進行打擊?!?/p>

  上海浦東法院知識產權庭法官徐弘韜認為,Robots協(xié)議與數(shù)據流轉有兩個問題需要考慮:第一,,“互聯(lián)互通”與數(shù)據共享之間的度如何把握,;第二,當下各互聯(lián)網產業(yè)經營者采取的Robots協(xié)議策略是否可能導致數(shù)據孤島,?;ヂ?lián)互通的實質在于確保數(shù)據有序流轉,而不是強行要求互聯(lián)網產業(yè)經營者對己方平臺內的數(shù)據資源向競爭對手全面開放,。在“互聯(lián)互通”的語境下,,“有序”和“流轉”同等重要、缺一不可,,需排除假借“互聯(lián)互通”妨礙公平競爭,、危害用戶數(shù)據安全的行為。

  在某新媒體公司爬取微信公眾平臺數(shù)據案中,杭州互聯(lián)網法院已經亮明觀點,。網絡平臺設置了Robots協(xié)議,,希望在競爭過程中還是能遵守競爭規(guī)范,或者至少能保持一個互相尊重互相遵守協(xié)議,,才是有序的基礎,。

  在上述案件中,法院認為,,任由第三方爬蟲工具爬取公眾號信息會打擊平臺創(chuàng)造積極性,,并扭曲大數(shù)據要素市場競爭機制;從消費者利益角度,,未經授權爬取信息并進行展示,,未能尊重信息發(fā)布主體的意愿;從公共利益角度,,被告爬取信息后未深度挖掘,、創(chuàng)新,也無更深層次的應用,,未能提升社會整體公共利益,,加之爬取數(shù)據來源并非正常,難謂正當,。

  徐弘韜認為,,數(shù)據是內容產業(yè)的核心競爭資源,內容平臺經過匯總分析處理后的數(shù)據往往具有極高經濟價值,。如果要求內容平臺經營者將其核心競爭資源向競爭對手無限開放,,不僅有違“互聯(lián)互通”的精神實質,也不利于優(yōu)質內容的不斷更迭和互聯(lián)網產業(yè)的持續(xù)發(fā)展,。

  徐弘韜表示,,對非搜索引擎爬蟲的正當性判斷,可以歸納為四個要素:第一看是否尊重被抓取網站預設的Robots協(xié)議,;第二看是否破壞被抓取網站的技術措施,;第三看是否威脅用戶數(shù)據的安全;第四從創(chuàng)造性與公共利益的衡量,。

  徐弘韜特別指出,,包括身份數(shù)據、行為數(shù)據等在內的用戶數(shù)據,,不僅僅是經營者的競爭資源,,同樣具有個人隱私屬性,而此類數(shù)據的集合更涉及社會公共利益,。如果在抓取數(shù)據時危害用戶數(shù)據安全,,其行為不具正當性,。

  03

  爬蟲涉及刑事合規(guī)

  刑事合規(guī),最初起源于美國,,是指國家以刑法為工具,,為推動企業(yè)開展合規(guī)管理,建立的一套督促機制,、約束機制和激勵機制,。

  2020年,在最高人民檢察院推動下,,深圳,、浙江、江蘇,、上海等地基層檢察機關積極探索企業(yè)刑事合規(guī),。為了鼓勵更多企業(yè)進行合規(guī)改制,“刑事合規(guī)不起訴”這一全新的刑事訴訟制度在全國鋪開,,嘗試選取有可能建立合規(guī)的涉罪企業(yè),,通過企業(yè)認罪認罰、承諾建立合規(guī)計劃,,進而對企業(yè)采取不起訴措施,。

  上海市人民檢察院第二分院第三檢察部副主任吳菊萍表示,刑事合規(guī)主要是為了給涉案企業(yè)一個整改自救,、重新出發(fā)的機會,,也是為了保證社會經濟的高質量發(fā)展。而目前很多企業(yè)所關注的刑事合規(guī)更多的是在探討其經營行為如何避免刑事風險,。吳菊萍認為,,企業(yè)利用爬蟲技術來做數(shù)據分析,就應當注重如何落實刑事合規(guī),。

  吳菊萍表示,,“除了木馬病毒程序等本身就不合法的技術,我們評判一項與爬蟲技術相關的行為是否構成犯罪,,首先要看行為人用爬蟲技術干了什么事情,,有沒有社會危害性,然后再去評判該行為是侵入計算機信息系統(tǒng),,還是非法獲取計算機信息系統(tǒng)數(shù)據,再看爬取的數(shù)據涉及的是企業(yè)數(shù)據還是公民個人信息,,分別適用相關罪名,。”

其中,,還需要考慮到被爬取數(shù)據的法律屬性到底是財產還是僅僅只是數(shù)據,。吳菊萍表示,,這在司法實踐中存在較大爭議?!氨热?,我們有個以非法拘禁的方法強迫對方交付虛擬貨幣的案件,刑事上認定為非法拘禁罪,,否定了虛擬貨幣的財產屬性,,民事上判返還財產,認可了財產屬性,?!彼J為,數(shù)據在數(shù)字經濟發(fā)展中是一個重要的生產要素,,本質上應當具備財產屬性,,但當前的法律和司法實踐還沒有完全跟上。

  華東政法大學教授張勇對爬蟲可能涉及到的犯罪行為進行分類:從可能侵犯到的權益上看,,包括計算機系統(tǒng)安全,、個人信息、版權,、國家秘密,、商業(yè)秘密、市場競爭秩序等,;從爬取方式來看,,可能危害到計算機信息系統(tǒng)安全,非法獲取公民個人信息,,非法獲取商業(yè)秘密,,破壞版權技術保護措施等;從爬取結果來看,,存在不正當競爭類,、侵犯著作權類、侵犯人格權類等問題,?!?/p>

  《財經》E法在裁判文書網檢索到54份與爬蟲相關的刑事判決,涉及多項罪名,。其中,,被認定為侵犯公民個人信息罪的有26份;非法獲取計算機信息系統(tǒng)罪10份,;傳播淫穢物品牟利罪5份,;破壞計算機信息系統(tǒng)罪3份;提供侵入,、非法控制計算機程序,、工具罪3份,;侵犯知識產權罪3份;非法侵入計算機信息系統(tǒng)罪,、開設賭場罪,、盜竊罪、詐騙罪各1份,。




最后文章空三行圖片.jpg


本站內容除特別聲明的原創(chuàng)文章之外,,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點,。轉載的所有的文章,、圖片、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者,。如涉及作品內容、版權和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]