☰

這個不講“道德”的網站，成了千萬網友最愛的白嫖工具

老差友應該都知道互聯網檔案館（下稱archive.org ），咱介紹好幾次了。

還不知道的兄弟自己找找原因，是不是不夠帥，沒早關注帥逼公衆號：差評。

archive.org 由 Brewster Kahle 創辦，是一個非營利性的數字圖書館。

從 1996 年起，它每隔一會就會抓取各種各樣的網頁、視頻、圖片等資料，保存在 “ 圖書館 ” 。

目前圖書館裡存了 8660 億個網頁，1200 萬個視頻，490 萬張圖片和 110 萬個軟件程序。

點進網站，從 MJ 演唱會視頻，到 1999 年測試版的 Google 搜索頁面，再到你多年前送給鳳姐的表白，都會重新進入你的世界。

不過，今天故事的主角不是這位，而是另一個檔案館 archive.today （今日檔案）。

archive.today 於 2012 年創辦。從名字和功能上看，它類似於archive.org ，可以備份網頁。

但它倆之間還是有個很大區別——

archive.org 類似於搜索引擎，絕大多數資料都是爬蟲自動抓取的。所以一直以來他們都遵守robot.txt。

robot.txt 是互聯網裡通行的一個君子協議。通過它，網站可以告訴搜索引擎，哪些東西它不能抓。百度裡搜不到微信文章和淘寶商品，就是因爲 robot.txt 。

但 archive.today 不遵守這個協議，即便網站不讓它存在，它也會霸王硬上弓。

不過，這也不能說 archive.today 缺德。

因爲它並非自動抓取別人的網站，只有用戶上傳某個網頁時，它纔會抓取。

存檔 ing.....▼

目前，archive.today 已經存儲了 5 億個網頁。雖然遠不及 archive.org ，但這種大家主動尋求備份的網頁，相對來說，它的意義和價值會更大點。

就像三年前，有位吳彥祖備份了差評的官網，明顯是肯定了咱們，咳咳。

除了可以備份網頁，因爲技術上一些細節，人們發現archive.today 有另外一個妙用：

翻越付費牆。

對於那些訂閱費動輒幾百美刀的西方媒體，很多第三方世界國家的讀者不光無力支付，甚至壓根沒有匹配的支付方式。

但自從這個功能被發現後， archive.today 成爲了大家心照不宣的 “ 白嫖 ” 工具。

只要有好心人存檔了付費文章和有版權的學術論文，後來的讀者都可以看到。

還有不少人基於這個網站做了一些小工具，讓白嫖變得更簡單。

編輯部偶爾也用過它，有一些東西在這上面確實比較好找。

雖然 archive.today 管理員曾說過,翻閱付費牆不是網站本意，只是技術問題上產生的一些 “ 意外 ” 。

但想到他願意冒着被訴訟風險默許這個情況存在，甚至教讀者一些白嫖技巧。。。

差評君更願意相信，他就是一個知識自由的支持者。

根據網站裡問答記錄，2013 年的時候，存儲這些檔案每月要在服務器上花 300 歐元。

2014 年，隨着網頁越來越多，服務器成本升到了 2000 美元 / 月。

2016 年，這個數字漲到了 4000 美元。

那問題來了，這些服務器的錢誰出呢？

我們知道，archive.org 的背後是一家組織，總部在舊金山。它的年度預算有 1000 萬美元，這些錢來自於它的合作贊助商和基金會。

但 archive.today 管理員說，這個網站全靠自己。

儘管網頁在移動端開始投放廣告，並且管理員也開放了捐贈通道，但這些只夠 14% ～ 20% 的成本。

也就是說這個網站的管理員，每天在面臨版權訴訟的風險下，既要維護網站日常運營，還要隔三差五回答網友各種問題，最後每個月還得掏出幾千美金的服務器租金，只爲維持這麼一個免費網站？

並一路堅持了十多年？

這個賽博菩薩到底是誰啊？

報以好奇和敬意差評君去網上搜了一下，但發現 archive.today 的背後，是一個謎。

維基百科上關於經營者的身份，只寫了一句話：

事實上，沒人知道他的真實身份。

半年前一位悉尼的工程師 Jani 花了很大精力，想看看 archive.today 幕後神秘人到底是誰。

首先，網站能追溯到的第一個歷史記錄是在 2012 年 5 月 16 日，網站一開始的域名叫 archive.is。

由一個來自捷克布拉格，名叫 “ Denis Petrov ” 的人註冊。

Denis Petrov ，是第一個線索。

但隨着調查， Jani 察覺 Denis Petrov 可能是假名。

一來這是很常見俄羅斯名字，光是在領英里就有 242 個同名好哥們。

二來 Jani 發現同樣的名字和聯繫方式還註冊了一堆亂七八糟的域名。

後來 Jani 還驗證了很多帶有這個名字的網站，如 denispetrov.com、denis.biz 、petrov.net。

但大部分網站都已經停運了，唯一能打開的那個，只是一位紐約程序員的博客，早在 2011 年就已停更了。

Denis Petrov 這個線索似乎斷了。。。

和 Jani 一樣，這些年也有其他網友探索過這位神秘人，但大多數人都停在了 “ Denis Petrov ” 的階段。

倒是 2020 年，有另一個網友找到了神秘人的重要線索。

他發現 archive.today 裡所有領英網的備份，都基於同一個登錄賬戶。

這裡我解釋一下，諸如領英、 Instagram 這類應用，都要求登錄賬號後才能瀏覽詳情。我猜測神秘人是用了自己賬號 cookie ，來抓取領英的網頁內容。

順着線索，他找到了一個名爲 Masha Rabinovich 的領英賬號。賬號顯示，她有德國柏林某個大學的學士學位。

如果這個頭像確實是本人，那說起來你可能不信，這個神秘人居然是一個留着波波頭，有點娃娃臉的女生。

手動碼一下，另外這個頭像應該被刪了，登錄後就不可見▼

有人把 Masha Rabinovich 放進谷歌搜索，發現了一個 2012 年帖子，基本實錘 Masha Rabinovich 就是那個神秘人。

當時一位暱稱爲 masharabinovich 用戶發帖子，吐槽自己網站 archive.today 被惡意舉報，進了黑名單。

既然名字 “ 確認 ” 了，接下來就是網友們發揮福爾摩斯天賦的時候了。

他們發現 Masha Rabinovich 曾多次參與了維基詞條的編輯，最多的就是 “ 俄羅斯護照 ” ；

名字中的 “ Masha ” （ Маша ）是瑪麗亞的常見俄語說法， Rabinovich 是德國猶太人的姓氏；

另外 archive.today 用的分析引擎是俄國的，回答問題時會使用一些大寫詞彙，可能有德國背景。

基於這些信息，網友推斷出，神秘人大概是一個曾在德國留學的俄羅斯人，且學識淵博，英語流利。

至於“ Masha Rabinovich ”，還不一定是其真名。也許和 Denis Petrov 一樣，只是神秘人在網絡世界的馬甲之一。

雖然大家仍無法確定神秘人真實身份，但差評君覺得點到爲止，他隱藏起來一定有自己的原因。

相比起來，我認爲神秘人的個性更值得一提。

在 archive.today 的網站上，有一個基於 Tumblr 問答服務的頁面。

通過這些 Q&A ，我推斷神秘人是一個偏執且不喜歡被吹捧的技術極客。

首先就是我們前面說的，不遵守 robot.txt 。

其實這是個非常激進的行爲，很容易被版權法提起訴訟，或者在道德上落下風。

像 archive.org 後來也推出了手動備份的功能，但用戶上傳網頁後，它還會檢查一遍 robot.txt ，如果網站不同意被抓取， archive.org 還是會刪除的。

但 archive.today 可不管這些。

我覺得這麼做，是因爲他創建網站的初衷就是尊重歷史，保存歷史。

他也說過，網站即便存檔了假新聞，也不會刪除。

因爲 archive.today 從來不是權威的參考來源，而是歷史的見證。它只是在告訴大家，在某個時刻，互聯網上某一處存在過這樣的頁面。

這一點差評君也認可，歷史不是紀錄大事記就夠了，它是由無數細節拼湊起來纔夠完整。

雖然archive.today看似有點極端，但也不是所有網頁都一視同仁。如果存檔確認爲恐怖分子的宣傳網頁、兒童色情等，收到舉報後他也會刪除。

另外神秘人很低調，從不希望自己被擡得很高。

當網友把他和 archive.org 放在一起誇獎時，他都會否定，說自己沒有想保存整個互聯網的目標，目前只有 archive.org 的百分之一，且運作方式不同。

差評君覺得，這是每一個老闆都要學習的不畫大餅精神。

他知道自己一個人 / 團隊的能力有限，做不到那麼宏大的目標，一開始就沒設想過這麼多。

但 12 年了，網站幫大家存檔了五億多個網頁，遇到了無數難題，並依舊堅持免費。

我覺得他和 archive.org 一樣，都是令人尊敬的。

不過最近的情況，讓差評君覺得網站的生存環境不容樂觀。

因爲神秘人回答網友問題的頻率明顯變低了，從兩年前月均回答 40 個問題，到現在隔了好幾個月纔回答 2 個問題。

他也曾說網站經常被 DDOS ，時不時癱瘓。在互聯網各個角落也有 “ 版權仇家 ” 在搜尋他的真實信息。至於訴訟，那也是遲早的事情。

結合歷史來看，這種情況其實是必然的。

所有支持知識自由的網站，從archive.org 到 Sci-hub ，他們都遭遇過版權法的鐵拳或者域名的封鎖。

互聯網檔案館因爲把 140 萬實體書掃描出來，不限量租借給讀者，被四家出版商聯合起訴，還有六千名作家簽了請願書支持這場訴訟。

Sci-hub 因爲把 8000 多萬學術論文爬取下來，免費分享給所有學者，在多個國家被出版巨頭起訴。創始人 Alexandra Elbakyan 爲了躲避各國引渡風險，在世界各地躲藏。

我知道，有很多人都抵制他們這種行爲，認爲盜版就是犯罪，不是解決問題的方式。

但世界不是非黑即白， “ 盜版 ” 就一定不被提倡嗎？

這個問題幾十年來一直爭論不休。

90 年代，互聯網上各種盜版電影和音樂橫飛、破解和盜版軟件橫行。明明是赤裸裸的侵權，但卻沒有明確的法律能治一波亂象。

在這樣的背景下，《數字千年法案》登場了。它以刑事犯罪立法的形式，希望在網絡這塊無主之地上，重振版權保護的權威。

毫無疑問，它保護了無數原創者的權利，讓人們獲得了相應的回報，也讓他們的心血沒有被盜版商肆意踐踏。

可《數字千年法案》在保護版權的同時，似乎也催產了一些版權流氓到處碰瓷，讓很大一批人也難以接觸到優秀的作品。

如何做到版權和知識自由兼顧，很難很難。

“ 科學和教育資源，就不應該有所謂的知識產權和資本運作的存在 ” 這是 Sci-hub 傳達的理念之一。

從 archive.org 到 Sci-hub 再到 archive.today ，他們把無法翻越的信息壁壘，難以打破的知識桎梏，都變成一個簡單的回車鍵，讓我們看到了世界的另外一種可能。

不管怎麼說——

Brewster Kahle 、 Alexandra Elbakyan 、神秘人以及所有那些不追求利益去捍衛知識自由的人，他們都值得我們的尊重和敬佩。

這個不講“道德”的網站，成了千萬網友最愛的白嫖工具

相關資訊