Crawler là gì? lấy tin tự động là gì?

Đăng ký tài khoản kiếm tiền với tiếp thị liên kết tại ACCESSTRADE, MasOffer, Lazada Việt Nam

Việc viết crawler tự động lấy dữ liệu từ 1 nguồn nào đó chắc hẳn nếu là lập trình viên mảng thiết kế web, phát triển web thì ít nhiều đều đã từng nghe qua. Có thể là trong buổi trò chuyện nơi góc đường cùng bạn bè, đồng nghiệp hay thậm chí từ yêu cầu từ khách hàng của bạn.

Trước khi chia sẻ ý tưởng để phát triển Crawler thì mình xin phép chia sẻ một vài khái niệm (theo mình) cơ bản về crawler cùng mọi người.

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì ? (ảnh: nguồn internet)

Crawler là gì?

Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins… hay đơn giản chỉ là 1 funtion nho nhỏ) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập.
Ví dụ:

  • Toàn bộ dữ liệu XIMI.VN, hoạt động bên dưới đều gần như được được xử lý đồng bộ bởi crawler. Khi có các cấu hình cụ thể crawler sẽ làm việc trực tiếp với nguồn dữ liệu nó được chỉ định (hệ thống đang trong thời gian xây dựng và chạy bản beta).
  • 2 ứng dụng cơ bản mà mình đã từng chia sẻ sau đây là 1 điển hình: Ứng dụng lấy thông tin tag, meta, description từ 1 link video youtube tại đây. Ứng dụng lấy thông tin sản phẩm từ Lazada Việt Nam, Lazada Thailand, Lazada Indo… tại đây.

Ở trên là 3 ứng dụng cơ bản để bạn hiểu crawler là gì? và nó hoạt động ra sao thì bạn có thể tải miễn phí 2 ứng dụng trên về để chạy thử.

Nếu bạn mong muốn tìm hiểu rõ hơn về chia sẻ này và những chia sẻ khác, bạn có thể kết nối với mình qua các thông tin sau:
Facebook cá nhân: https://www.facebook.com/PExpress
Blog chia sẻ cá nhân: PolygonExpress.com
Group chia sẻ ứng dụng affiliate marketing & services: MMO tools
Web dịch vụ freelance: FMMSPolygon.com
Email liên hệ mình: fmmspolygon@gmail.com
Điện thoại: 0937.798.420 - 0868.929.024 (Kim Ngọc)

Ngày nay với sự phát triển không ngừng của công nghệ tìm kiếm thì 1 trong các thành phần không thể thiếu trong việc phân tích dữ liệu đó chính bots. Chắc hẳn bạn cũng từng nghe về Google bots, Bing bots, thuật toán đánh giá SEO, thuật toán phân tích dữ liệu từ vô số nguồn tổng hợp khác nhau ? Trong đó khái niệm Crawl cũng là 1 thành phần chủ chốt không thể thiếu và ở mức phát triển nào đó nó cũng góp phần vào việc thiết lập “trí thông minh nhân tạo” (AI).

Vậy còn

Lấy tin tự động là gì? tại sao phải lấy tin tự động?

Lấy tin tự động hiểu đơn giản nghĩa là sau khi đã đầu tư và phát triển được 1 bot hay 1 tập đoàn bots 🙂 (crawler) tương ứng với từng chức năng. Rồi bạn cho nó hoạt động, nếu hoạt động tốt nó sẽ lấy tất cả những thông tin bạn cần từ các nguồn thông tin sau đó xử lý lưu trữ lại cho mục đích của bạn (làm dữ liệu phân tích, đăng tải lên website, chia sẻ lên data center…) thì đó là lấy tin tự động.

Và tại sao phải lấy tin tự động? có nên lấy tin tự động hay không? Câu trả lời tuỳ thuộc vào mục đích của bạn là gì?

Ứng dụng của Crawler?

1. Plugin được viết để lấy toàn bộ dữ liệu áo thun tại Sunfrog.com về để làm Affiliate site, với hàng ngàn sản phẩm như vậy thì việc nhập từng sản phẩm là rất mất thời gian công sức trong khi kết quả cuối cùng là như nhau. Vậy đây là 1 trường hợp mà Crawler sẽ hữu ích.

Bạn có thể tham khảo thông tin tại đây: http://fmmspolygon.com/wordpress-automatic-plugin-sunfrog-affiliate-program-t-shirt.html

2. Một site ứng dụng khác lấy toàn bộ sản phẩm tại http://www.bendix.com.au/catalogue về tại http://gtautoaccessories.com/gt_product/

Với dữ liệu sản phẩm từ site gốc là 5,600+ sản phẩm thì Crawler là giải pháp tốt nhất trong trường hợp này.

Nếu bạn lấy tin tự động với mục đích phát triển website/ blog

Bạn cần tối ưu hoá các công cụ tìm kiếm (SEO) thì bạn cần lưu ý những tiêu chí sau:
☛ Lấy những loại tin tức không/ ít vi phạm chính sách bản quyền từ các công cụ tìm kiếm: các bài thuốc dân gian, các hướng dẫn pha nước ép, các bài chia sẻ về công dụng của từng loại rau củ quả… đó là những nội dung mang tính cộng đồng.
☛ Crawler của bạn phải đủ thông minh để tách toàn bộ dữ liệu thu được và tối ưu lại nó 1 cách tốt nhất có thể (1 phần mang lại nội dung khác biệt trong mắt các công cụ tìm kiếm).  Đây là điều có thể làm được nhé 🙂 chỉ là bạn làm nó ở mức nào thôi !.

Nếu bạn lấy tin tự động với mục đích làm dữ liệu phân tích

Trong trường hợp này dữ liệu bạn lấy về chỉ với mục đích phân tích nội dung đó thì bạn không cần những tiêu chí tối ưu cho các công cụ tìm kiếm (chắc chắn nó không cần thiết). Khi đó tiêu chí cơ bản như sau:

☛ Lấy bất cứ loại dữ liệu chứa thông tin từ bất cứ nguồn nào bạn muốn (sau này khi sử dụng nhớ trích nguồn ghi nhận công cho tác giả nhé :)).
☛ Crawler của bạn cần đủ thông minh để phân tích dữ liệu và thống kê theo tiêu chí của riêng bạn. Bạn đang bắt đầu làm công việc của Google tại nhà rồi đấy 😉

Trong bài chia sẻ sắp tới mình sẽ Chia sẻ ý tưởng viết Crawler tương tác một cách mềm dẻo nhất (phần 1) cùng các bạn. Với ý tưởng này mình cam kết rằng “bạn có thể lấy bất cứ nội dung từ bất cứ trang web/ blog nào chỉ cần bạn muốn“.

Crawler là gì? lấy tin tự động là gì? 4.48/5 (89.63%) 27 votes

Bài viết cùng serie

  1. Crawler là gì? lấy tin tự động là gì? (14/03/2015)
  2. Chia sẻ ý tưởng viết Crawler tương tác một cách mềm dẻo nhất (phần 1) (26/03/2015)
  3. Chia sẻ ý tưởng viết Crawler tương tác một cách mềm dẻo nhất (phần 2) (26/04/2015)
Nếu bạn mong muốn tìm hiểu rõ hơn về chia sẻ này và những chia sẻ khác, bạn có thể kết nối với mình qua các thông tin sau:
Facebook cá nhân: https://www.facebook.com/PExpress
Blog chia sẻ cá nhân: PolygonExpress.com
Group chia sẻ ứng dụng affiliate marketing & services: MMO tools
Web dịch vụ freelance: FMMSPolygon.com
Email liên hệ mình: fmmspolygon@gmail.com
Điện thoại: 0937.798.420 - 0868.929.024 (Kim Ngọc)

Related

Comments

  1. cuong say

    minh muốn 1 plugin tự động lấy sản phẩm trên sunfog thì bạn làm khoảng bao nhiêu chi phí vậy ad

    • say

      Chào bạn,
      Hiện tại mình chỉ nhận lấy dữ liệu Sunfrog tự động qua việc viết ứng dụng chạy trên môi trường windows để lấy dữ liệu Sunfrog bạn nhé! Hầu hết tất cả các ứng dụng lấy tự động qua nền web cho Sunfrog đều không ổn định, đó cũng là lý do phần này trong plugin mình chia sẻ mình tạm không phát triển trực tiếp nữa!
      P.s: chi phí mình viết ứng dụng tuỳ theo yêu cầu của bạn, lấy dữ liệu thế nào? làm gì? và có đăng tải lên hệ thống nào của bạn (tự động) không? Bạn có thể email hoặc connect mình qua các thông tin bên trên để tiện trao đổi nhé!
      – Hiện tại có những yêu cầu mình đang phát triển + chia sẻ free thì bạn không cần phải thuê mình!

      • cuong say

        Chào bạn,
        Bạn có thể viết dùm mình ứng dụng lấy hết sản phẩm bên sunfog và co thể đăng tải auto tat ca lên hệ thống web làm bằng wordpress của mình kèm ID affilagate (hiển thi sản phẩm thi giống như plugins polygon-affiliate-tshirt ) thì giá khoảng bao nhiêu.
        Mong nhận dược hồi âm từ bạn sớm.
        Thanks bạn

        • say

          Chào bạn,
          Mình xin lỗi vì phản hồi chậm nhé!
          Hiện tại việc lấy toàn bộ dữ liệu sản phẩm từ Sunfrog về mình sẽ không nhận viết tools riêng nhé! vì mình không rõ lượng dữ liệu đó sẽ lấy bao lâu với ứng dụng crawl đang cung cấp. Chưa kể 1 vấn đề lớn khi viết riêng như vậy là mình sẽ phải maintain 1 lượng code mà mình sẽ không kiểm soát hết lỗi + support tốt được.

          Tuy nhiên, với services sắp tới mình cung cấp tại PolyXGO.com mình sẽ có cung cấp APIs đầu ra hỗ trợ plugin Polygon Affiliate Tshirt đồng bộ được danh sách áo 1 cách đầy đủ nhất (do mình sẽ đầu tư hệ thống proxy để việc đồng bộ này được nhanh hơn so với ứng dụng crawl theo keywords mình được 1 số khách hàng thuê).

          P.s: Mình mong bạn thông cảm về vấn đề này. Ngoài ra nếu bạn có nhu cầu cho tools export theo từ khoá thôi thì bạn cứ thể gửi yêu cầu cụ thể cho mình về sanddesert88@gmail.com. Khi đó dựa trên các yêu cầu riêng biệt của bạn mà mình sẽ tư vấn và thoả thuận hình thức làm việc nhé!!
          Thân!

  2. Tung say

    Mình muốn có một công cụ như vậy để lấy tin bài viết cho blog của mình. Không biết bên bạn có hỗ trợ làm việc này không?

    • say

      Chào bạn,
      Hiện tại mình cũng đang có chút thời gian nên nếu bạn có nhu cầu thì cứ gửi yêu cầu của bạn cho mình về email sanddesert88@gmail.com nhé! Mình sẽ phản hồi báo lại bạn.
      Thân!

Leave a Reply

Your email address will not be published. Required fields are marked *


%d bloggers like this: