Tutoriali i Scraper Web në Chrome nga Expert Expert

Nëse jeni duke përdorur Google Chrome, ekziston një shtesë për shfletuesin tuaj i cili mund të ndihmojë për të shtypur faqet në internet. Isshtë i njohur si '' Scrapper '' dhe ai mund të përdoret pa probleme. Scrapper do të ndihmojë në skrapimin e një përmbajtje në internet dhe ngarkimin e rezultateve në dokumentet e Google.

Si të heqni një faqe në internet duke përdorur shtrirjen Scraper?

1. Zgjidhni Dyqanin Ueb Chrome në Google Chrome;

2. Në shtesat, kryeni një kërkim për '' Scrapper '';

3. Rezultati i parë i kërkimit është shtrirja e njohur si '' Scrapper '';

4. Zgjidhni butonin e shënuar si "" Shto në Chrome ";

5. Kthehuni në listën e deputetëve në Mbretërinë e Bashkuar;

6. Klikoni në lidhjen e mëposhtme;

7. Tani kërkoni një deputet dhe sigurohuni që shënimi të shënohet;

8. Klikoni me të djathtën për të zgjedhur opsionin "Scrape Same ...";

9. Konsola për scrapper do të shfaqet në një dritare tjetër;

10. Shikoni përmbajtjen e scraped në tastierën e scraper;

11. Për të siguruar që përmbajtja është ruajtur si një Google Spreadsheet, zgjidhni "Ruaje në Dokumentet e Google ..."

Skrapim i zgjatur

Para se t'i përmbaheni kësaj recete, është e dobishme të kuptoni bazat e HTML. Për shembull, mund të lexoni një hyrje të shkurtër në HTML përmes kësaj lidhje

Le të imagjinojmë se jemi të interesuar për të gjithë filmat që luanin me yje Asia Argento, një aktore e famshme italiane.

1. Ekziston një arkiv shumë i detajuar i aktorëve në IMDB. Faqja e Argjentinës në Azi është: http://www.imdb.com/name/nm0000782/;

2. Këtu, ju mund të shihni të gjitha rolet e luajtura nga aktorja. Le të fillojmë shpërndarjen e informacionit për të cilin ne jemi të interesuar;

3. Përpiquni ta copëtoni ashtu si u përshkrua më lart;

4. Do të shihni që lista është pak e shtrembëruar. Kjo për faktin se lista këtu mund të strukturohet ndryshe;

5. Drejtohuni në tastierë për scraper. Mbi të majtën, do të shihni kutinë e vogël që thotë XPath;

6. Xpath është një lloj gjuhe pyetjeje e cila funksionon për XML dhe HTML;

7. XPath mund të ndihmojë për të gjetur pjesët e faqes për të cilën ju interesojnë. Gjëja tjetër është të gjeni një element të përshtatshëm dhe të shkruani XPath për të;

8. Tani le të rregullojmë tryezën tonë;

9. Do të shihni që XPath-i ynë ekzistues, i cili ka të gjitha të dhënat e nevojshme është "// div [3] / div [3] / div [2] / div";

10. XPath informon sistemin për të parë dokumentin HTML dhe për të zgjedhur elementin e tretë, pastaj elementin e dytë dhe më pas të gjithë;

11. Por, ne do të donim që të dhënat tona të ndaheshin;

12. Shfrytëzoni seksionin e kolonave në tastierë për scrapper për ta bërë këtë;

13. Le të gjejmë së pari titullin tonë – Përdorni Elementin e Inspektimit për të parë titullin;

14. Kontrolloni titullin brenda një etikete. Shtoni etiketën në XPath;

15. Shprehja duket se funksionon në mënyrë të përshtatshme, prandaj bëjeni kolonën tonë të parë;

16. Në pjesën "Kolonat", zëvendësoni emrin e kolonës së parë në "titull";

17. Shtoni XPath në të;

18. Në pjesën e kolonës, XPaths janë relative dhe do të thotë që "./b" do të zgjedhë <b> elementin

19. Në XPath për kolonën e titullit, shtoni "./b" dhe zgjidhni "scrape";

20. Tani le të vazhdojmë për një vit. Vitet mund të gjenden brenda një periudhe kohore;

21. Krijoni një kolonë të re duke zgjedhur plusin e vogël pranë kolonës për titullin tuaj;

22. Duke përdorur XPath "./span" krijoni një kolonë për "vit";

23. Klikoni scrape dhe shikoni sesi u shtua viti;

24. Bërë!

mass gmail