使用ip代理時(shí)的常見誤解
發(fā)現(xiàn)有些文章會(huì)將ip代理的作用說的太大,導(dǎo)致許多用戶認(rèn)為只要使用ip代理可以無所不能。實(shí)際ip代理的使用也會(huì)受到限制。
首先,讓我們知道,ip代理可以分為多少種?
ip代理分為透明代理、普通匿名代理、高級(jí)匿名代理三類。
高匿名、匿名和透明代理的主要區(qū)別在于對(duì)方服務(wù)器獲取REMOTE_ADDR、HTTP_X_FORWARDED_FOR、HTTP_VIA三個(gè)參數(shù)的區(qū)別。
眾所周知,REMOTE_ADDR是無法偽造的。
使用透明代理(Transparent),對(duì)方的服務(wù)器知道你使用了代理,也知道你的真相IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = ProxyIP,HTTP_X_FORWARDED_FOR = YourIP
使用匿名代理(Anonymous),對(duì)方的服務(wù)器知道你使用了代理,但不知道你的真相IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = ProxyIP,HTTP_X_FORWARDED_FOR = ProxyIP
使用高匿名代理(High),對(duì)方的服務(wù)器不知道你使用了代理,也不知道你的真相IP。REMOTE_ADDR = ProxyIP,HTTP_VIA = NULL,HTTP_X_FORWARDED_FOR = NULL
使用透明代理和普通匿名代理將被目標(biāo)網(wǎng)站知道ip代理,自然會(huì)受到限制,高級(jí)匿名代理不會(huì),所以在選擇中ip代理時(shí)要注意這一點(diǎn)。
關(guān)于使用的介紹HTTPip代理爬蟲采集的認(rèn)知誤區(qū):
大多數(shù)人都知道,當(dāng)爬蟲多次爬同一個(gè)網(wǎng)站時(shí),它經(jīng)常被網(wǎng)站使用IP為了解決封禁,禁止反爬蟲機(jī)制 IP 通常使用問題ip代理。
但也有一些人HTTPip他們認(rèn)為使用代理有誤解ip代理可以解決所有問題,但事實(shí)上ip代理不是萬能的,它只是一個(gè)工具。如果使用不當(dāng),它將被密封IP。
使用一個(gè)ip代理爬取目標(biāo)網(wǎng)站,被封IP有太多的因素,比如cookie,比如User Agent等等,當(dāng)達(dá)到閾值時(shí),IP當(dāng)訪問目標(biāo)網(wǎng)站的頻率過快時(shí),IP它也會(huì)被封存,因?yàn)槿祟惖恼TL問遠(yuǎn)遠(yuǎn)低于這個(gè)頻率,這自然會(huì)被目標(biāo)網(wǎng)站的反爬蟲策略所識(shí)別。
只有模擬真實(shí)用戶的正常訪問,才能最大限度地避免被密封IP。所以,以為用了ip代理爬蟲肯定沒問題的用戶需要及時(shí)糾正這個(gè)想法。多學(xué)爬蟲技術(shù)和反爬教程才是正確的做法。