Crawler là gì? lấy tin tự động là gì?

Việc viết crawler tự động lấy dữ liệu từ 1 nguồn nào đó chắc hẳn nếu là lập trình viên mảng thiết kế web, phát triển web thì ít nhiều đều đã từng nghe qua. Có thể là trong buổi trò chuyện nơi góc đường cùng bạn bè, đồng nghiệp hay thậm chí từ yêu cầu từ khách hàng của bạn.

Trước khi chia sẻ ý tưởng để phát triển Crawler thì mình xin phép chia sẻ một vài khái niệm (theo mình) cơ bản về crawler cùng mọi người.

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì?

Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins… hay đơn giản chỉ là 1 funtion nho nhỏ) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập.
Ví dụ:

  • Toàn bộ dữ liệu ứng dụng tra cứu thông tin lịch sử giá bán sản phẩm sau cũng ứng dụng Crawler để thu thập data cho cổng API này tại PolyXGO

[polyxgo_history_prices_searchbox type=’suggestion’ url=”https://tiki.vn/di-tim-le-song-tai-ban-p524438.html” placeholder=”Nhập liên kết sản phẩm kiểm tra và theo dõi biến động giá, lịch sử giá bán tại Tiki.vn, TheGioiDiDong.com, Lazada.vn, Adayroi.com, fptshop.com.vn…” notice=”Bạn nhập link sản phẩm website cần mua sắm nhấn… Enter để kiểm tra lịch sử giá bán! (hiện tại chỉ hỗ trợ Tiki)”]

  • Toàn bộ dữ liệu hàng triệu sản phẩm tại đây, hoạt động bên dưới đều gần như được được xử lý đồng bộ bởi crawler (web scraper). Khi có các cấu hình cụ thể crawler sẽ làm việc trực tiếp với nguồn dữ liệu nó được chỉ định và hạn chế sự can thiệp của quản trị viên.
  • 2 ứng dụng cơ bản mà mình đã từng chia sẻ sau đây là 1 điển hình: Ứng dụng lấy thông tin tag, meta, description từ 1 link video youtube tại đây. Ứng dụng lấy thông tin sản phẩm từ Lazada Việt Nam, Lazada Thailand, Lazada Indo… tại đây.
  • Dữ liệu thông tin các chương trình khuyến mãi, mã giảm giá tại các website thương mại điện tử cũng được mình áp dụng crawler vào để lấy và xử lý nhằm giảm thiểu tối đa sức người trên hệ thống.

Ở trên là vài ứng dụng cơ bản để bạn hiểu crawler là gì? và nó hoạt động ra sao.

Ngày nay với sự phát triển không ngừng của công nghệ tìm kiếm thì 1 trong các thành phần không thể thiếu trong việc phân tích dữ liệu đó chính là bots. Chắc hẳn bạn cũng từng nghe về Google bots, Bing bots, thuật toán đánh giá SEO, thuật toán phân tích dữ liệu từ vô số nguồn tổng hợp khác nhau ? Trong đó khái niệm crawl cũng là 1 thành phần chủ chốt không thể thiếu và ở mức phát triển nào đó nó cũng góp phần vào việc thiết lập trí thông minh nhân tạo (AI) trên các hệ thống lớn như Google, Facebook, Youtube.

Vậy còn

Lấy tin tự động là gì? tại sao phải lấy tin tự động?

Lấy tin tự động hiểu đơn giản nghĩa là sau khi đã phát triển được 1 bot hay 1 danh sách bots (crawler) tương ứng với từng chức năng. Bạn viết mã kết hợp chúng lại để xử lý dữ liệu bạn cần từ các nguồn thông tin sau đó lưu trữ lại cho mục đích của bạn (làm dữ liệu phân tích, đăng tải lên website, chia sẻ lên data center…) thì đó là lấy tin tự động.

Vậy tại sao phải lấy tin tự động? có nên lấy tin tự động hay không? Câu trả lời tuỳ thuộc vào mục đích của bạn là gì?

Mình sử dụng dữ liệu lấy được để lưu trữ thông tin giá bán sản phẩm, đánh giá tích cực, tiêu cực của khách hàng đã mua sản phẩm để hiển thị hỗ trợ người dùng tham khảo trước khi mua sắm. Đối với mã giảm giá mình cập nhật chia sẻ phân loại theo nghành hàng để người dùng tra cứu và sử dụng.

Ứng dụng của Crawler?

1. Plugin được viết để lấy toàn bộ dữ liệu áo thun tại Sunfrog.com về để làm Affiliate site, với hàng ngàn sản phẩm như vậy thì việc nhập từng sản phẩm là rất mất thời gian công sức trong khi kết quả cuối cùng là như nhau. Vậy đây là 1 trường hợp mà Crawler sẽ hữu ích.

Bạn có thể tham khảo thông tin tại đây: https://polygonexpress.com/polygon-affiliate-tshirt.html

2. Một site ứng dụng khác lấy toàn bộ sản phẩm tại http://www.bendix.com.au/catalogue về tại gtautoaccessories.com

Với dữ liệu sản phẩm từ site gốc là 5,600+ sản phẩm thì Crawler là giải pháp tốt nhất trong trường hợp này.

Nếu bạn lấy tin tự động với mục đích phát triển website/ blog

Bạn cần tối ưu hoá các công cụ tìm kiếm (SEO) thì bạn cần lưu ý những tiêu chí sau:
Lấy những loại tin tức không/ ít vi phạm chính sách bản quyền từ các công cụ tìm kiếm: các bài thuốc dân gian, các hướng dẫn pha nước ép, các bài chia sẻ về công dụng của từng loại rau củ quả… đó là những nội dung mang tính cộng đồng.
Crawler của bạn phải đủ thông minh để tách toàn bộ dữ liệu thu được và tối ưu lại nó 1 cách tốt nhất có thể, theo 1 góc nhìn nào đó nội dung này có thể mang lại giá trị nhất định trong mắt các công cụ tìm kiếm.

Nếu bạn lấy tin tự động với mục đích làm dữ liệu phân tích

Trong trường hợp này dữ liệu bạn lấy về chỉ với mục đích phân tích nội dung đó thì bạn không cần những tiêu chí tối ưu cho các công cụ tìm kiếm (chắc chắn nó không cần thiết). Khi đó tiêu chí cơ bản như sau:

Lấy bất cứ loại dữ liệu chứa thông tin từ bất cứ nguồn nào bạn muốn (sau này khi sử dụng nhớ trích nguồn dữ liệu).

Crawler của bạn cần đủ thông minh để phân tích dữ liệu và thống kê theo tiêu chí của riêng bạn. Bạn đang bắt đầu làm công việc của Google tại nhà rồi đấy 😉

Trong bài chia sẻ sắp tới mình sẽ  Chia sẻ ý tưởng viết Crawler tương tác một cách mềm dẻo nhất (phần 1) (19/12/2019). Với ý tưởng này “bạn có thể lấy bất cứ nội dung từ bất cứ trang web/ blog nào“.

Tham khảo dữ liệu hiển thị 1 số ứng dụng của crawler trong

Xử lý dữ liệu lịch sử giá bán sản phẩm

[polyxgo_history_prices_chart display_media=’true’ title=”Lịch sử giá {{product_title}} tại {{supplier_name}}” url=”https://tiki.vn/ban-dat-gia-bao-nhieu-p1694077.html”]

[polyxgo_history_prices_chart display_media=’true’ title=”Lịch sử giá {{product_title}} tại {{supplier_name}}” url=”https://tiki.vn/nha-gia-kim-p378448.html”]

[polyxgo_history_prices_chart display_media=’true’ title=”Lịch sử giá {{product_title}} tại {{supplier_name}}” url=”https://tiki.vn/tony-buoi-sang-tren-duong-bang-tai-ban-2017-p1005148.html”]

[polyxgo_history_prices_chart display_media=’true’ title=”Biểu đồ lịch sử giá {{product_title}} tại {{supplier_name}}” url=”https://tiki.vn/phong-cach-ban-hang-zig-ziglar-p799151.html”]

[polyxgo_history_prices_chart display_media=’true’ title=”Theo dõi lịch sử giá bán {{product_title}} tại {{supplier_name}}” url=”https://tiki.vn/hen-ban-tren-dinh-thanh-cong-tai-ban-2016-p485527.html”]

Xử lý dữ liệu mã giảm giá

XEM THÊM

Related Posts

8 Comments

  1. Avatar
    cuong
    19/04/2017
    • An Nhiên
      Cù Kim Ngọc
      20/04/2017
      • Avatar
        cuong
        21/04/2017
        • An Nhiên
          Cù Kim Ngọc
          21/04/2017
  2. Avatar
    Tung
    26/12/2016
    • An Nhiên
      Polygon
      27/12/2016

Add Comment

Website này sử dụng Akismet để hạn chế spam. Tìm hiểu bình luận của bạn được duyệt như thế nào.

%d bloggers like this: