Crawler là gì? lấy tin tự động là gì?

Việc viết crawler tự động lấy dữ liệu từ 1 nguồn nào đó chắc hẳn nếu là lập trình viên mảng thiết kế web, phát triển web thì ít nhiều đều đã từng nghe qua. Có thể là trong buổi trò chuyện nơi góc đường cùng bạn bè, đồng nghiệp hay thậm chí từ yêu cầu từ khách hàng của bạn.

Trước khi chia sẻ ý tưởng để phát triển Crawler thì mình xin phép chia sẻ một vài khái niệm (theo mình) cơ bản về crawler cùng mọi người.

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì?

Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins… hay đơn giản chỉ là 1 funtion nho nhỏ) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập.
Ví dụ:

  • Toàn bộ dữ liệu ứng dụng tra cứu thông tin lịch sử giá bán sản phẩm sau cũng ứng dụng Crawler để thu thập data cho cổng API này tại PolyXGO
Bạn nhập link sản phẩm website cần mua sắm nhấn... Enter để kiểm tra lịch sử giá bán! (hiện tại chỉ hỗ trợ Tiki)

Đi Tìm Lẽ Sống (Tái Bản)

68000 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam

Lịch sử giá Bạn Đắt Giá Bao Nhiêu? tại tiki.vn

59400 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam

Lịch sử giá Nhà Giả Kim tại tiki.vn

44850 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam

Lịch sử giá Tony Buổi Sáng - Trên Đường Băng (Tái Bản 2017) tại tiki.vn

51599 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam

Biểu đồ lịch sử giá Phong Cách Bán Hàng Zig Ziglar tại tiki.vn

90350 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam

Theo dõi lịch sử giá bán Hẹn Bạn Trên Đỉnh Thành Công (Tái bản 2016) tại tiki.vn

57200 (Giá mới nhất cập nhật ngày 16/08/2019)
© Cung cấp bởi PolyXGO công cụ hỗ trợ cộng đồng affiliate & người tiêu dùng Việt Nam
  • Toàn bộ dữ liệu XIMI.VN, hoạt động bên dưới đều gần như được được xử lý đồng bộ bởi crawler. Khi có các cấu hình cụ thể crawler sẽ làm việc trực tiếp với nguồn dữ liệu nó được chỉ định (hệ thống đang trong thời gian xây dựng và chạy bản beta).
  • 2 ứng dụng cơ bản mà mình đã từng chia sẻ sau đây là 1 điển hình: Ứng dụng lấy thông tin tag, meta, description từ 1 link video youtube tại đây. Ứng dụng lấy thông tin sản phẩm từ Lazada Việt Nam, Lazada Thailand, Lazada Indo… tại đây.

Ở trên là 3 ứng dụng cơ bản để bạn hiểu crawler là gì? và nó hoạt động ra sao thì bạn có thể tải miễn phí 2 ứng dụng trên về để chạy thử.

Nếu bạn mong muốn tìm hiểu rõ hơn về chia sẻ này và những chia sẻ khác, bạn có thể kết nối với mình qua các thông tin sau:
Facebook (vui lòng add friend mình trước vì message ẩn mình ít check): https://www.facebook.com/PExpress
Blog: PolygonExpress.com
Group thảo luận - chia sẻ - bán ứng dụng - PolyXGO: MMO tools
Web dịch vụ: PolyXGO.com
Mã Giảm Giá mua sắm: Mã Giảm Giá Guru
Email liên hệ: polyxgo@gmail.com
Điện thoại: 0937.798.420 - 0886.22.11.86 (Kim Ngọc - giới tính Nam :))))))

Ngày nay với sự phát triển không ngừng của công nghệ tìm kiếm thì 1 trong các thành phần không thể thiếu trong việc phân tích dữ liệu đó chính bots. Chắc hẳn bạn cũng từng nghe về Google bots, Bing bots, thuật toán đánh giá SEO, thuật toán phân tích dữ liệu từ vô số nguồn tổng hợp khác nhau ? Trong đó khái niệm Crawl cũng là 1 thành phần chủ chốt không thể thiếu và ở mức phát triển nào đó nó cũng góp phần vào việc thiết lập “trí thông minh nhân tạo” (AI).

Vậy còn

Lấy tin tự động là gì? tại sao phải lấy tin tự động?

Lấy tin tự động hiểu đơn giản nghĩa là sau khi đã đầu tư và phát triển được 1 bot hay 1 tập đoàn bots 🙂 (crawler) tương ứng với từng chức năng. Rồi bạn cho nó hoạt động, nếu hoạt động tốt nó sẽ lấy tất cả những thông tin bạn cần từ các nguồn thông tin sau đó xử lý lưu trữ lại cho mục đích của bạn (làm dữ liệu phân tích, đăng tải lên website, chia sẻ lên data center…) thì đó là lấy tin tự động.

Và tại sao phải lấy tin tự động? có nên lấy tin tự động hay không? Câu trả lời tuỳ thuộc vào mục đích của bạn là gì?

Ứng dụng của Crawler?

1. Plugin được viết để lấy toàn bộ dữ liệu áo thun tại Sunfrog.com về để làm Affiliate site, với hàng ngàn sản phẩm như vậy thì việc nhập từng sản phẩm là rất mất thời gian công sức trong khi kết quả cuối cùng là như nhau. Vậy đây là 1 trường hợp mà Crawler sẽ hữu ích.

Bạn có thể tham khảo thông tin tại đây: https://polygonexpress.com/polygon-affiliate-tshirt.html

2. Một site ứng dụng khác lấy toàn bộ sản phẩm tại http://www.bendix.com.au/catalogue về tại gtautoaccessories.com

Với dữ liệu sản phẩm từ site gốc là 5,600+ sản phẩm thì Crawler là giải pháp tốt nhất trong trường hợp này.

Nếu bạn lấy tin tự động với mục đích phát triển website/ blog

Bạn cần tối ưu hoá các công cụ tìm kiếm (SEO) thì bạn cần lưu ý những tiêu chí sau:
☛ Lấy những loại tin tức không/ ít vi phạm chính sách bản quyền từ các công cụ tìm kiếm: các bài thuốc dân gian, các hướng dẫn pha nước ép, các bài chia sẻ về công dụng của từng loại rau củ quả… đó là những nội dung mang tính cộng đồng.
☛ Crawler của bạn phải đủ thông minh để tách toàn bộ dữ liệu thu được và tối ưu lại nó 1 cách tốt nhất có thể (1 phần mang lại nội dung khác biệt trong mắt các công cụ tìm kiếm).  Đây là điều có thể làm được nhé 🙂 chỉ là bạn làm nó ở mức nào thôi !.

Nếu bạn lấy tin tự động với mục đích làm dữ liệu phân tích

Trong trường hợp này dữ liệu bạn lấy về chỉ với mục đích phân tích nội dung đó thì bạn không cần những tiêu chí tối ưu cho các công cụ tìm kiếm (chắc chắn nó không cần thiết). Khi đó tiêu chí cơ bản như sau:

☛ Lấy bất cứ loại dữ liệu chứa thông tin từ bất cứ nguồn nào bạn muốn (sau này khi sử dụng nhớ trích nguồn ghi nhận công cho tác giả nhé :)).
☛ Crawler của bạn cần đủ thông minh để phân tích dữ liệu và thống kê theo tiêu chí của riêng bạn. Bạn đang bắt đầu làm công việc của Google tại nhà rồi đấy 😉

Trong bài chia sẻ sắp tới mình sẽ Chia sẻ ý tưởng viết Crawler tương tác một cách mềm dẻo nhất (phần 1) cùng các bạn. Với ý tưởng này mình cam kết rằng “bạn có thể lấy bất cứ nội dung từ bất cứ trang web/ blog nào chỉ cần bạn muốn“.

10%
10% Khi Mua 1 Số Sản Phẩm Sách Tư Duy Kỹ Năng Sống
 Đã xác nhận
 Còn hiệu lực
Chi tiết
Giảm tối đa: 10%
Áp dụng cho: Sách & VPP
Điều kiện áp dụng: Các sản phẩm Nhà Sách Tiki, Sách tiếng Việt, Sách kỹ năng sống, Sách tư duy - Kỹ năng sống
30k
Sách Tiki 30k Cho Đơn Hàng Từ 250k
 Đã xác nhận
 Còn 15 ngày
Chi tiết
Ngày hết hạn: 31/08/2019
Giảm tối đa: 30000
Áp dụng cho: Sách & VPP
Điều kiện áp dụng: Các sản phẩm sách bán bởi Tiki tradding
400k
Tiki Mua Đơn Sách 400k Tặng 400k
 Đã xác nhận
 Còn 15 ngày
Chi tiết
Ngày hết hạn: 31/08/2019
Giảm tối đa: 400000
Áp dụng cho: Sách & VPP
Điều kiện áp dụng: Các sản phẩm sách trong trang khuyến mãi
10%
Tiki 10% Khi Mua 1 Số Sản Phẩm Sách Tư Duy Kỹ Năng Sống
 Đã xác nhận
 Còn hiệu lực
Chi tiết
Giảm tối đa: 10%
Áp dụng cho: Sách & VPP
Điều kiện áp dụng: Các sản phẩm Nhà Sách Tiki, Sách tiếng Việt, Sách kỹ năng sống, Sách tư duy - Kỹ năng sống
XEM THÊM

Related Posts

About The Author

8 Comments

  1. Avatar
    cuong
    19/04/2017
    • Cù Kim Ngọc
      Cù Kim Ngọc
      20/04/2017
      • Avatar
        cuong
        21/04/2017
        • Cù Kim Ngọc
          Cù Kim Ngọc
          21/04/2017
  2. Avatar
    Tung
    26/12/2016
    • Cù Kim Ngọc
      Polygon
      27/12/2016

Add Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d bloggers like this: