Агляд Semalt: Інтэрнэт-соскоб для забавы і прыбытку

Вы можаце вычысціць сайт без неабходнасці API. У той час як уладальнікі сайтаў агрэсіўна ставяцца да спынення выпрацоўкі, яны менш клапоцяцца пра API і замест гэтага надаюць большую ўвагу сайтам. Тое, што многія сайты не забяспечваюць належным чынам ад аўтаматычнага доступу, стварае магчымасць для скрабкоў. Некалькі простых рашэнняў дапамогуць вам сабраць неабходныя дадзеныя.

Пачатак працы з выскрабаннем

Выскрабанне патрабуе разумення структуры неабходных вам звестак і іх даступнасці. Гэта пачынаецца з атрымання дадзеных. Знайдзіце URL, які вяртае неабходную вам інфармацыю. Праглядзіце вэб-сайт і праверце, як змяняюцца URL-адрасы пры перамяшчэнні па розных раздзелах.

Акрамя таго, знайдзіце некалькі сайтаў на сайце і праверце, як змяняюцца URL-адрасы ў залежнасці ад тэрміна. Вы павінны ўбачыць параметр GET, як q =, які змяняецца пры пошуку новага тэрміна. Захоўвайце параметры GET, неабходныя для загрузкі дадзеных і выдаліце астатнія.

Як змагацца з укладваннем старонкі

Укладка старонкі дазваляе вам атрымаць доступ да ўсіх неабходных дадзеных адразу. Пры націску на старонку 2 да URL дадаецца параметр зрушэння = параметр. Гэта альбо колькасць элементаў на старонцы, альбо нумар старонкі. Павялічце гэты лік на кожнай старонцы вашых дадзеных.

Для сайтаў, якія выкарыстоўваюць AJAX, перайдзіце на ўкладку сеткі ў Firebug або Inspector. Праверце запыты XHR, вызначце і засяродзьцеся на тых, якія прыцягваюць вашы дадзеныя.

Атрыманне дадзеных з разметкі старонкі

Гэта дасягаецца з выкарыстаннем CSS гаплікаў. Пстрыкніце правай кнопкай мышы пэўны раздзел вашых дадзеных. Пацягніце Firebug або Inspector і навядзіце маштаб праз дрэва DOM, каб атрымаць максімальную <div>, якая абкручвае адзін элемент. Пасля таго, як у вас ёсць правільны вузел з дрэва DOM, праглядзіце крыніцу старонкі, каб пераканацца, што вашы элементы даступныя ў сырым HTML.

Для паспяховага выскрабання сайта вам патрэбна бібліятэка для разбору HTML, якая чытае HTML і ператварае яго ў аб'ект, які вы можаце паўтараць, пакуль не атрымаеце тое, што вам трэба. Калі для вашай бібліятэкі HTTP патрабуецца ўсталяваць некаторыя файлы cookie або загалоўкі, праглядзіце сайт у сваім браўзэры і пераканайцеся, што загалоўкі адпраўляюцца вашым браўзэрам. Пакладзіце іх у слоўнік і перашліце з вашым запытам.

Калі вам трэба ўвайсці ў Скрап

Калі вы павінны стварыць уліковы запіс і ўвайсці ў сістэму, каб атрымаць неабходныя дадзеныя, вам трэба мець добрую бібліятэку HTTP для апрацоўкі ўваходаў. Уваход у скрабкі выстаўляе вас на іншыя сайты.

Калі абмежаванне хуткасці вашай вэб-службы залежыць ад IP-адраса, усталюйце код, які адсылае вэб-службу на кліент Javascript. Затым перадайце вынікі назад на ваш сервер ад кожнага кліента. Здаецца, вынікі паходзяць з такой колькасці месцаў, і ні адно не перавысіць іх ліміт хуткасці.

Дрэнна фармуецца разметка

Некаторыя нацэнкі могуць быць складанымі для праверкі. У такіх выпадках выкапайце HTML-аналізатар для ўстаноўкі допуску да памылак. Акрамя таго, разглядайце ўвесь дакумент HTML як доўгую радок і рабіце расшчапленне радкоў.

У той час як вы можаце саскрэбнуць усе дадзеныя ў сеціве, некаторыя сайты выкарыстоўваюць праграмнае забеспячэнне, каб спыніць выскрабанне, а іншыя забараняюць выкарыстанне вэб-лома . Такія сайты могуць падаць у суд на вас і нават у турму за ўборку дадзеных. Так што будзьце разумныя ва ўсіх сваіх выскрабаннях у Інтэрнэце і рабіце гэта бяспечна.

mass gmail