Back to Question Center
0

Chrome Web Scraper Tutorial სემალტის ექსპერტი

1 answers:
თუ თქვენ იყენებთ Google Chrome- ს, თქვენი ბრაუზერის გაფართოებაა

რომელიც დაგეხმარებათ ვებ გვერდების ამონაწერი. ცნობილია როგორც "Scrapper", რომელიც შეიძლება გამოყენებულ იქნას პრობლემების გარეშე. Scrapper ხელს შეუწყობს ვებ-გვერდის შინაარსის შედგენას და შედეგების ატვირთვას Google დოკუმენტებში.

როგორ გადააფაროთ ნახვა Scraper გაფართოება გამოყენებით?

1. აირჩიეთ Chrome Web Store Google Chrome- ში;

2. გაგრძელება, განახორციელოს "Scrapper" - ის ძებნა;

3. პირველი ძებნის შედეგი არის გაფართოების ცნობილი როგორც "Scrapper";

4. დააჭირეთ ღილაკს "დამატება Chrome- ში";

5. დაბრუნდით ბრიტანეთის დეპუტატების სიაში;

6. დაწკაპეთ შემდეგი 7)

7. ახლა გადახედეთ ერთი დეპუტატი და შეამოწმეთ შესვლის აღნიშვნა,

8. მარჯვენა ღილაკით აირჩიეთ "

9. კონსტრუირებს scrapper გაიხსნება სხვა ფანჯარაში;

10. scraped შინაარსი scraper კონცეფცია;

11. კონტენტის შენახვის უზრუნველსაყოფად Google ცხრილების სახით აირჩიეთ "შენახვა Google Docs ..."

გაფართოებული Scraping

ეს არის სასარგებლო HTML- ის საფუძვლების გასაგებად, მაგალითად, შეგიძლიათ წაიკითხოთ მოკლე შესავალი HTML- ზე ბმული

. წარმოიდგინეთ, რომ ჩვენ ყველა დაინტერესებული ვართ ფილმში, ცნობილი იტალიელი მსახიობი

1. IMDB- ში მსახიობების ძალიან დეტალური არქივია აზიური არგენტური საიტი: https://www.imdb.com/name/nm0000782/;

2. აქ შეგიძლიათ იხილოთ მსახიობის ყველა როლი..დავიწყოთ ინფორმაცია, რომელიც გვაინტერესებს;

3. შეეცადეთ გაიგოთ ის ზემოთ აღწერილი გზა;

4. დაინახავთ, რომ სია ცოტა დამახინჯებულია. ეს არის იმის გამო, რომ სიაში აქ შეიძლება სტრუქტურა განსხვავებულად;

5. უფროსი scraper კონსოლი. ზედა მარცხენა, თქვენ ნახავთ პატარა ყუთს, რომელიც ამბობს XPath;

6. Xpath არის სახის query ენა, რომელიც მუშაობს XML და HTML;

7. XPath- ს შეუძლია დაეხმაროს გვერდის ნაწილების განთავსებას დაინტერესებული. შემდეგი რამ არის შესაბამისი ელემენტის პოვნა და მისთვის XPath ჩაწერა;

8. ახლა მოვაწყოთ ჩვენი მაგიდა;

9. დაინახავთ, რომ ჩვენი არსებული XPath, რომელსაც აქვს ყველა საჭირო მონაცემები, არის "/ div [3] / div [3] / div [2] / div";

10. XPath აცნობებს სისტემას, რომ იხილოთ HTML დოკუმენტი და აირჩიოს მესამე ელემენტი, შემდეგ მეორე ელემენტი და შემდეგ ყველა მათგანი;

11. მაგრამ ჩვენ გვსურს გამოვყოთ ჩვენი მონაცემები.

12. გამოიყენე სვეტების განყოფილება კონსოლში იმისათვის, რომ მიიღოთ ეს კეთება;

13. მოდი ვნახოთ ჩვენი ტიტულის სათაური სათაურით შეამოწმეთ ელემენტის ნახვა;

14. შეამოწმეთ სათაური ტეგიში. დაამატე tag tag to XPath;

15. გამოხატულება, სავარაუდოდ, ფუნქციონირებს ფუნქციონირებას,

16. სექციაში "Columns", შეცვალეთ პირველი სვეტის სახელი "სათაური";

17. დამატება XPath მას;

18. სვეტში, XPaths არის ნათესავი და ნიშნავს, რომ "./b" აირჩევს ელემენტს

19. In XPath სათაური სვეტისთვის, დაამატეთ "./b" და აირჩიეთ "scrape";

20. მოდით გავაგრძელოთ ერთი წელი. წელი შეიძლება მოიძებნოს ერთი პერიოდის განმავლობაში;

21. შექმენით ახალი სვეტი თქვენი არჩეული სვეტის შემდეგ მცირე ზომის შერჩევით;

22. გამოყენება XPath "./span" შექმნა სვეტი "წელი";

23. დააჭირეთ Scrape და ნახეთ როგორ დაემატა წელი;

24 Source . შესრულებულია!

December 6, 2017