來源:巨靈鳥軟件 作者:進(jìn)銷存軟件 發(fā)布:2019/9/15 瀏覽次數(shù):5894
這個(gè)問題讓我不禁想到了一個(gè)詞——爬蟲

等等,圖片錯(cuò)了,應(yīng)該是這樣的爬蟲

爬蟲就是一個(gè)探測(cè)機(jī)器,它的基本操作就是模擬人的行為去各個(gè)網(wǎng)站溜達(dá),點(diǎn)點(diǎn)按鈕,查查數(shù)據(jù),或者把看到的信息背回來。就像一只蟲子在一幢樓里不知疲倦地爬來爬去。你可以簡單地想象:每個(gè)爬蟲都是你的“分身”。就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。你每天使用的百度,其實(shí)就是利用了這種爬蟲技術(shù):每天放出無數(shù)爬蟲到各個(gè)網(wǎng)站,把他們的信息抓回來,然后化好淡妝排著小隊(duì)等你來檢索。搶票軟件,就相當(dāng)于撒出去無數(shù)個(gè)分身,每一個(gè)分身都幫助你不斷刷新 12306 網(wǎng)站的火車余票。一旦發(fā)現(xiàn)有票,就馬上拍下來,然后對(duì)你喊:土豪快來付款。正好在上周末,一位黑客盆友御風(fēng)神秘兮兮地給我發(fā)來一份《中國爬蟲圖鑒》,這哥們?cè)隍v訊云鼎實(shí)驗(yàn)室主要負(fù)責(zé)加班,順便和同事們開發(fā)了很多黑科技。比如他們搞了一個(gè)威脅情報(bào)系統(tǒng),號(hào)稱能探測(cè)到全世界的“爬蟲”都在做什么。我吹著口哨打開《圖鑒》,但一分鐘以后,我整個(gè)人都不好了。我看到了另一個(gè)“平行世界”:
就在我們身邊的網(wǎng)絡(luò)上,已經(jīng)密密麻麻爬滿了各種網(wǎng)絡(luò)爬蟲,它們善惡不同,各懷心思。而越是每個(gè)人切身利益所在的地方,就越是爬滿了爬蟲。
看到最后,我發(fā)現(xiàn)這哪里是《中國爬蟲圖鑒》,這分明是一份《中國焦慮圖鑒》。

我們今天要說的,就和這些 App 有關(guān)。
一、爬蟲的“騷操作”
爬蟲也分善惡。像谷歌這樣的搜索引擎爬蟲,每隔幾天對(duì)全網(wǎng)的網(wǎng)頁掃一遍,供大家查閱,各個(gè)被掃的網(wǎng)站大都很開心。這種就被定義為“善意爬蟲”。但是,像搶票軟件這樣的爬蟲,對(duì)著 12306 每秒鐘恨不得擼幾萬次。鐵總并不覺得很開心。這種就被定義為“惡意爬蟲”。(注意,搶票的你覺得開心沒用,被掃描的網(wǎng)站覺得不開心,它就是惡意的。)給你看一張圖:

這張圖里顯示的,就是各行各業(yè)被爬“叨擾”的比例。(注意,這張圖顯示是全世界,不是全中國。)而每一個(gè)色塊背后,都是一條真實(shí)而強(qiáng)大的利益鏈條。接下來,中哥就給你科普一下里面的騷操作。1、排名第一的是出行出行行業(yè)中爬蟲的占比最高(20.87%)。在出行的爬蟲中,有89.02%的流量都是沖著 12306 去的。這不意外,全中國賣火車票的獨(dú)此一家別無分號(hào)。你還記得當(dāng)年12306 上線王珞丹和白百何的“史上最坑圖片驗(yàn)證碼”么?

這些東西不是為了故意難為老老實(shí)實(shí)賣票的人的,而恰恰是為了阻止爬蟲(也就是搶票軟件)的點(diǎn)擊。剛才說了,爬蟲只會(huì)簡單的機(jī)械點(diǎn)擊,它不認(rèn)識(shí)白百何,所以很大一部分爬蟲就被擋在了門外。你可能會(huì)說,不對(duì)啊,我現(xiàn)在還可以用搶票軟件搶到票啊。沒錯(cuò)。搶票軟件也不是吃素的。它們?cè)诤丸F總搞“對(duì)抗”。有一種東西叫做“打碼平臺(tái)”,你可以了解一下。打碼平臺(tái)雇傭了很多叔叔阿姨,他們?cè)陔娔X屏幕前不做別的事情,專門幫人識(shí)別驗(yàn)證碼。那邊搶票軟件遇到了驗(yàn)證碼,系統(tǒng)就會(huì)自動(dòng)把這些驗(yàn)證碼傳到叔叔阿姨面前,他們手工選好哪個(gè)是白百何哪個(gè)是王珞丹,然后再把結(jié)果傳回去?偣驳倪^程用不了幾秒時(shí)間。當(dāng)然,這樣的打碼平臺(tái)還有記憶功能。如果叔叔阿姨已經(jīng)標(biāo)記了這張圖是“鍋鏟”,那么下次這張圖片再出現(xiàn)的時(shí)候,系統(tǒng)就直接判斷它是“鍋鏟”。時(shí)間一長,12306 系統(tǒng)里的圖片就被標(biāo)記完了,機(jī)器自己都能認(rèn)識(shí),叔叔阿姨都可以坐在一邊斗地主了。

來源:巨靈鳥 歡迎分享本文
上一個(gè)文章:技術(shù)一旦被用來作惡,究竟會(huì)有多可怕(二)
下一個(gè)文章:聲紋識(shí)別