Semalt: Kako uporabiti Python za strganje spletnega mesta?

Podatki igrajo kritično vlogo pri preiskavah, kajne? To lahko privede do novega pogleda na stvari in do razvijanja drugih spoznanj. Najbolj nesrečno je, da podatki, ki jih iščete, običajno niso na voljo. Najdete ga v internetu, vendar morda ni v obliki, ki jo je mogoče naložiti. V takem primeru lahko s programsko tehniko spletnega striženja programirate in zberete potrebne podatke.

Obstaja več pristopov k zapisovanju in programskih jezikov, ki so lahko v pomoč pri tem postopku. Ta članek vas bo vodil o tem, kako uporabiti jezik python za beleženje spletnega mesta. Dobili boste veliko vpogleda v delovanje spletnih strani. Spoznali boste tudi, kako razvijalci strukturirajo podatke na katerem koli spletnem mestu.

Najboljše izhodišče je prenos in namestitev Anaconda Python Distribution na vaš računalniški stroj. Prav tako lahko vzamete nekaj vaj o osnovah tega programskega jezika. Najboljši kraj bi lahko bil Codecademy, še posebej, če na tem področju nimate pojma.

Ta vodnik bo uporabil trenutno spletno mesto Polk Country za zapornike. Navodili vas bomo, kako uporabiti skript Python, da izvlečete seznam zapornikov in dobite nekaj podatkov, kot sta mesto prebivališča in rasa za vsakega zapornika. Celoten scenarij, po katerem vas bomo vodili, je shranjen in odprt na GitHubu. To je ena izmed priljubljenih spletnih platform, ki omogočajo skupno rabo računalniških kod. Kode imajo dolg seznam komentarjev, ki vam lahko pomagajo.

Pri strganju katerega koli spletnega mesta je prvo orodje, ki ga je treba iskati, spletni brskalnik. Večina brskalnikov bo uporabnikom nudila orodja za pregled HTML, ki pomagajo pri dvigovanju lopute motorja in pri razumevanju strukture strani. Način dostopa do vsakega orodja se razlikuje od enega do drugega brskalnika. Vendar pa je osnova osnova „vir strani strani, dobite pa jo tako, da z desno miškino tipko kliknete na stran.

Ko si ogledate vir strani HTML, je priporočljivo, da v vrsticah tabele natančno navedete podrobnosti povezav do zapornika. Naslednji korak je pisanje skripta, ki ga bomo uporabili za pridobivanje teh informacij. Dva paketa Python, ki ju bomo uporabljali pri težkem dvigovanju, sta Beautiful Soup and Requests. Prepričajte se, da ste jih namestili, preden začnete izvajati kodo.

Skripta za spletno strganje bo naredila tri stvari. Ti vključujejo nalaganje strani s seznami in črpanje povezav do strani s podrobnostmi, nalaganje vsake strani s podrobnostmi in pridobivanje podatkov ter tiskanje izvlečenih podatkov glede na to, kako je filtrirano, kot sta mesto prebivališča in rasa. Ko to razumete, je naslednji korak začetek postopka kodiranja z uporabo lepe juhe in zahtevkov.

Najprej logično naložite stran s seznamom zapornikov s pomočjo request.get URL-ja, nato pa s čudovito juho, da jo nataknete. Po tem izvlečemo povezavo do strani s podrobnostmi z vrtenjem skozi vsako vrstico. Po razčlenjevanju podrobnosti o zaporniku je naslednji korak ekstrakcija spola, starosti, rase, časa rezervacije in vrednosti imena v slovar. Vsak zapornik bo dobil svoj slovar in vsi slovarji bodo dodani na seznam zapornikov. Končno preglejte zanj dirke in vrednosti mesta, preden končno natisnete svoj seznam.

mass gmail