Web crawler,中文譯為網路爬蟲,是一種自動瀏覽網頁資料的網路機器人。網路爬蟲是一種電腦軟體,用以下載網頁,並解構網頁網址,並網址加入資源位址(URL)列表,而後依照「列表」之網址,爬行資料。網路爬蟲最主要應用,係作為資料探勘的研究工具,將網頁資料蒐集後,以分析消費者行為或社會經濟行為之型態分析。
2013年與2016年JIM SNELL與DEREK CARE著有二篇短文[2],整理近期美國有關網路爬蟲的相關法律訴訟案件,發現目標網頁控告網頁爬蟲的主要訴因(causes of actions)為:1. 著作權侵害;2.違反使用者協議(website terms)之效力;3. 違反美國電腦詐欺與濫用法案(Computer Fraud and Abuse Act,CFAA);4.非法入侵動產(Trespass to chattels);5. 重大新聞(misappropriation of hot news)之不當挪用。我國現行法律體制下,有關爬取行為,目標網頁可能主張著作權侵害、違反使用者協議之損害賠償、觸犯妨害電腦使用罪章之罪,與前三項訴因類似;後二項訴因目前在我國法制下,雖無類比之訴因,但依情實際狀況或可能主張民法侵權行為之損害賠償。以下主要針對著作權侵害、違反使用者條款、以及違反CFAA的案例進行說明。
1. 著作權侵害
著作權法保護原創性之著作,而美國著作權法除了要求受保護之著作必須原創性之外,尚必須附著於一定媒介物。2007年美國聯邦第九巡迴上訴法院在Perfect 10, Inc. v. Amazon.com[3]乙案中,指出電腦記憶體、網路伺服器都是一種媒介,因此附著於記憶體或伺服器的軟體程式碼,如有原創性,亦可受著作權保護。
網頁上之具有原創性的著作內容物受到著作權保護,因此未經授權爬取網頁上之受保護之著作內容,將構成侵害網頁內容之著作權,並無疑問。然而,如果爬取網頁之內容,為不受著作權保護之事實,則其網頁爬取行為是否仍涉及著作權侵害,不無疑義?2009年在Facebook, Inc. v. Power Ventures, Inc[4]案,北加州聯邦地方法院認為,縱使所爬取的網頁之內容為不受著作權保護之事實,由於其爬蟲軟體必須暫時性複製顯示網頁事實內容之程式碼,因此也可能涉及著作權侵權。
儘管法院肯認從事網頁爬取行為涉及重製,但法院也認為後續的利用行為態樣,亦可能有成立合理使用之可能。例如在Kelly v. Arriba Soft Corp案[5],被告承認搜尋引擎抓爬目標網頁的高解析度影像後而顯示低解析度之影像縮圖,構成對原告網頁資料重製,然而被告抗辯此一行為係屬於高解析度之影像轉換性之合理使用。聯邦第九巡迴上訴法院同意被告之抗辯,認為被告所顯示低解析度之縮圖,有助於一般大眾於網路上獲取資訊,因此被告之使用具有高度轉換性,與目的網頁以高解析度影像所要傳達著作之美感之目的並不相同。
2007年在Southwest Airlines Co. v. BoardFirst, LLC案[6],被告BroadFirst的軟體提供一項商業服務,以協助西南航空的客戶,利用西南航空公司的「開放」座位政策與辦理登機手續(check in)以獲得飛機優先座位之利益。在本案由於網頁的使用者條款用語明確限制網頁使用者作為非個人與商業用途之使用,因此,法院認為被告的行為屬於使用者條款所欲規範的範圍且與條款之內容直接相關,因此不同意被告主張該使用者條款欠缺明確而無執行力。本案審理之德州地方法院,因而判定被告BoardFirst使用西南公司網頁之行為,已違反了西南航空的網頁中使用者條款,因為條款禁止使用者利用網頁為個人與非商業目的用途(personal and non-commercial purpose)。
3. 電腦詐欺與濫用
美國法院認為網絡爬取行為如果違反網站使用者條款,同時可能違反電腦詐欺濫用法案(Computer Fraud and Abuse 簡稱CFAA),該法案禁止「未經授權」或「逾越授權」進入電腦、網路、伺服器或資料庫。一般而言,只要電腦是公開可進入,並且不受密碼或其他保護安全措施,法院拒絕認定網路爬蟲任何造訪網頁行為違反CFAA。然而當網路爬蟲進入受保護之網頁,且網頁透過技術措施防止未經授權之進入網頁,或有明確停止未經授權之警告通知,則有可能構成違反CFAA法案。以下有2案涉及進入網頁抓取資料是否違反CFAA為審理。
U.S. v. Nosal案
當公開網路之使用者條款,限制爬取行為,則對於公開網站進行資料爬取之行為,可能構成「逾越授權」進入電腦、網路、伺服器或資料庫,而違反CFAA法案。2012年聯邦第九巡迴上訴法院在U.S. v. Nosal案[7],針對進入網站爬取資料行為是否違反CFAA進行審理,並由全院聯席法官判定CFAA法案中「逾越授權」,並不包括違反使用者條款之行為,而僅指駭客進入網頁之行為。
2015年QVC Inc. v. Resultly LLC[8]案,直接涉及網路爬蟲之行為是否構成觸犯CFAA之判定。Resultly LLC是一間新創公司,該公司使用網絡抓取工具為其他電子商務網站所銷售產品進行廣告宣傳。如果用戶想要購買Resultly網站顯示的產品,則用戶可以通過Resultly宣傳網站,直接進入零售商的網站進行購買,而Resultly因分層聯盟營銷網絡而獲得佣金。2014年5月,Resultly LLC開始抓取QVC網站資料,在Resultly抓取QVC資料之後不久,QVC的服務器出現超過負荷現象,並使得消費者無法在QVC網站上購買產品,造成QVC損失200萬美元。然而,QVC網站的使用條款並未禁止網路爬取行為。QVC聲稱,伺服器的超載是由於Resultly抓取其伺服器資料所造成網頁當機,因此控告Resulty違反CFAA,並請求法院判給初步禁令。
Hakikur Rahman& Isabel Ramos, Ethical Data Mining Applications for Socio-Economic Development 91-93 (2013)
JIM SNELL AND DEREK CARE, Use of Online Data in the Big Data Era: Legal Issues Raised by the Use of WebCrawling and Scraping Tools For Analytics Purposes, 18 ECLR 2466, Aug. 28, 2013. See also JIM SNELL AND DEREK CARE, Web Scraping in an Era of Big Data 2.0, June 8, 2016.
Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d1146, 1160 (9th Cir. 2007)
Facebook, Inc. v. Power Ventures, Inc., Case No. 08-cv-05780-JF (N.D. Cal. Oct. 22, 2009)