Lập chỉ mục cho website là gì

  • Lập chỉ mục trang 101
  • Phương pháp luận
    • Các mẫu bước lập chỉ mục trang
  • Phân loại dữ liệu
  • Nội dung trùng lặp.
    • Chất lượng
    • Nội dung trùng lặp
    • Thu thập thông tin Ngân sách
    • 404 mềm
    • Sự cố thu thập thông tin
    • Trang web nhỏ

Tự hỏi tại sao bạn bị mất lưu lượng truy cập? Dưới đây là 5 vấn đề phổ biến nhất khiến Google không thể lập chỉ mục trang web của bạn, được chia theo kích thước trang web.
Google công khai về thực tế rằng nó không lập chỉ mục tất cả các trang mà nó có thể tìm thấy. Sử dụng Google Search Console, bạn có thể thấy các trang chưa được lập chỉ mục trên trang web của mình.

Google Search Console cũng cung cấp cho bạn thông tin hữu ích về vấn đề cụ thể đã ngăn một trang được lập chỉ mục. Những vấn đề này bao gồm lỗi máy chủ, lỗi 404 và gợi ý rằng trang có thể có nội dung mỏng hoặc trùng lặp. Nhưng chúng tôi không bao giờ thấy bất kỳ dữ liệu nào cho thấy vấn đề nào là phổ biến nhất trên toàn bộ web.

Vì vậy… tôi quyết định thu thập dữ liệu và tự biên soạn số liệu thống kê! Trong bài viết này, chúng ta sẽ khám phá các vấn đề lập chỉ mục phổ biến nhất đang ngăn các trang của bạn hiển thị trong Google Tìm kiếm.

Lập chỉ mục cho website là gì

Lập chỉ mục giống như xây dựng một thư viện ngoại trừ thay vì sách, Google xử lý các trang web

Nếu bạn muốn các trang của mình hiển thị trong tìm kiếm, chúng phải được lập chỉ mục đúng cách. Theo thuật ngữ của giáo dân, Google phải tìm và lưu chúng.

Sau đó, Google có thể phân tích nội dung của họ để quyết định những truy vấn nào họ có thể có liên quan.

Được lập chỉ mục là điều kiện tiên quyết để nhận được lưu lượng truy cập không phải trả tiền từ Google. Và khi nhiều trang trên trang web của bạn được lập chỉ mục, bạn sẽ có nhiều cơ hội xuất hiện trong kết quả tìm kiếm hơn.

Đó là lý do tại sao bạn thực sự cần biết liệu Google có thể lập chỉ mục nội dung của bạn hay không.

Đây là những gì tôi đã làm để xác định vấn đề lập chỉ mục

Nhiệm vụ hàng ngày của tôi bao gồm tối ưu hóa các trang web theo quan điểm SEO kỹ thuật để làm cho chúng hiển thị nhiều hơn trên Google và kết quả là tôi có quyền truy cập vào hàng chục trang web trong Google Search Console.

Tôi đã quyết định sử dụng cái này để hy vọng làm cho các vấn đề lập chỉ mục phổ biến … tốt, ít phổ biến hơn.

Để minh bạch, tôi đã chia nhỏ phương pháp luận đã dẫn tôi đến một số kết luận thú vị.

Lập chỉ mục cho website là gì

Phương pháp luận

Tôi đã bắt đầu bằng cách tạo một mẫu trang, kết hợp dữ liệu từ hai nguồn:

Tôi đã sử dụng dữ liệu từ các khách hàng của chúng tôi có sẵn cho tôi. Tôi đã yêu cầu các chuyên gia SEO khác chia sẻ dữ liệu ẩn danh với tôi, bằng cách xuất bản cuộc thăm dò trên Twitter và liên hệ trực tiếp với một số SEO.

Tomek Rudzki từng chia sẻ một đoạn tweet như sau trên trang cá nhân mình:

“SEO, tôi cần 3-10 phút thời gian của bạn.

Bạn có thể giúp tôi nghiên cứu về lập chỉ mục và chia sẻ một số thống kê GSC không nhạy cảm với tôi được không?

Khi tôi tìm thấy một số thông tin chi tiết thú vị, tôi sẽ xuất bản một bài báo về điều đó.

Cảm ơn bạn trước! Vui lòng R / T

Tomek Rudzki @TomekRudzki

Xin chào các bạn Twitter!

Tôi đang làm việc trong một dự án lập chỉ mục của Google. Bạn có thể vui lòng giúp tôi và ANONYMOUSLY chia sẻ một số dữ liệu GSC không nhạy cảm với tôi không?

Liên kết đến hướng dẫn và Bảng tính Google bên dưới.”

Cả hai đều chứng minh nguồn thông tin hữu ích. Loại trừ các trang không thể lập chỉ mục

Bạn quan tâm đến việc để một số trang không được lập chỉ mục. Chúng bao gồm các URL cũ, các bài báo không còn phù hợp, các thông số lọc trong thương mại điện tử, v.v.

Quản trị viên web có thể đảm bảo Google bỏ qua chúng theo một số cách, bao gồm tệp robots.txt và thẻ noindex.

Lập chỉ mục cho website là gì

Các mẫu bước lập chỉ mục trang

Việc xem xét các trang như vậy sẽ ảnh hưởng tiêu cực đến chất lượng các phát hiện của tôi, vì vậy tôi đã xóa các trang đáp ứng bất kỳ tiêu chí nào bên dưới khỏi mẫu:

  1. Bị chặn bởi robots.txt.
  2. Được đánh dấu là noindex.
  3. Đã chuyển hướng.
  4. Trả lại mã trạng thái HTTP 404.
  5. Loại trừ các trang không có giá trị

Để cải thiện hơn nữa chất lượng mẫu của mình, tôi chỉ xem xét những trang được đưa vào sơ đồ trang web. Dựa trên kinh nghiệm của tôi, sơ đồ trang web là sự trình bày rõ ràng nhất về các URL có giá trị từ một trang web nhất định.

Tất nhiên, có rất nhiều trang web có rác trong sơ đồ trang web của họ. Một số thậm chí còn bao gồm các URL giống nhau trong sơ đồ trang web và tệp robots.txt của họ.

Phân loại dữ liệu

Tôi thấy rằng các vấn đề lập chỉ mục phổ biến khác nhau tùy thuộc vào kích thước của một trang web.

  1. Đây là cách tôi chia nhỏ dữ liệu:
  2. Các trang web nhỏ (lên đến 10k trang).
  3. Các trang web trung bình (từ 10k đến 100k trang).
  4. Các trang web lớn (lên đến một triệu trang).
  5. Các trang web khổng lồ (hơn 1 triệu trang).

Do sự khác biệt về kích thước của các trang web trong mẫu của tôi, tôi phải tìm cách chuẩn hóa dữ liệu.

Một trang web rất lớn đang đấu tranh với một vấn đề cụ thể có thể nhiều hơn các vấn đề khác, các trang web nhỏ hơn có thể gặp phải.

Vì vậy, tôi đã xem xét từng trang web riêng lẻ để sắp xếp các vấn đề lập chỉ mục mà họ gặp khó khăn. Sau đó, tôi chỉ định điểm cho các vấn đề lập chỉ mục dựa trên số lượng trang bị ảnh hưởng bởi một vấn đề nhất định trên một trang web nhất định.

Và bản án là…

Đây là năm vấn đề hàng đầu mà tôi tìm thấy trên các trang web thuộc mọi quy mô.

Đã thu thập thông tin – hiện chưa được lập chỉ mục (Vấn đề chất lượng).

Lập chỉ mục cho website là gì

Nội dung trùng lặp.

Đã phát hiện – hiện chưa được lập chỉ mục (Thu thập thông tin ngân sách / vấn đề chất lượng).

404 mềm.

Sự cố thu thập thông tin.

Hãy chia nhỏ những điều này.

Chất lượng

Các vấn đề về chất lượng bao gồm các trang của bạn có nội dung quá mỏng, gây hiểu lầm hoặc quá thành kiến.

Nếu trang của bạn không cung cấp nội dung độc đáo, có giá trị mà Google muốn hiển thị cho người dùng, bạn sẽ gặp khó khăn trong việc lập chỉ mục trang (và đừng ngạc nhiên).

Nội dung trùng lặp

Google có thể nhận ra một số trang của bạn là nội dung trùng lặp, ngay cả khi bạn không cố ý để điều đó xảy ra.

Một vấn đề phổ biến là các thẻ chuẩn trỏ đến các trang khác nhau. Kết quả là trang gốc không được lập chỉ mục.

Nếu bạn có nội dung trùng lặp, hãy sử dụng thuộc tính thẻ chuẩn hoặc chuyển hướng 301.

Điều này sẽ giúp bạn đảm bảo rằng các trang giống nhau trên trang web của bạn không cạnh tranh với nhau về lượt xem, nhấp chuột và liên kết.

Thu thập thông tin Ngân sách

Ngân sách thu thập thông tin là gì? Dựa trên một số yếu tố, Googlebot sẽ chỉ thu thập thông tin một số lượng URL nhất định trên mỗi trang web.

Điều này có nghĩa là tối ưu hóa là rất quan trọng; đừng để lãng phí thời gian trên các trang mà bạn không quan tâm.

404 mềm

Lỗi 404 có nghĩa là bạn đã gửi một trang bị xóa hoặc không tồn tại để lập chỉ mục. Soft 404s hiển thị thông tin “không tìm thấy”, nhưng không trả lại mã trạng thái HTTP 404 cho máy chủ.

Chuyển hướng các trang đã xóa đến những trang khác không liên quan là một sai lầm phổ biến.

Nhiều chuyển hướng cũng có thể hiển thị dưới dạng lỗi 404 mềm. Cố gắng rút ngắn chuỗi chuyển hướng của bạn nhiều nhất có thể.

Sự cố thu thập thông tin

Có nhiều vấn đề thu thập dữ liệu, nhưng một vấn đề quan trọng là vấn đề với robots.txt. Nếu Googlebot tìm thấy tệp robots.txt cho trang web của bạn nhưng không thể truy cập, nó sẽ không thu thập dữ liệu trang web.

Cuối cùng, hãy xem kết quả cho các kích thước trang web khác nhau.

Trang web nhỏ

Kích thước mẫu: 44 trang web

Đã thu thập thông tin, hiện chưa được lập chỉ mục (chất lượng hoặc vấn đề ngân sách thu thập thông tin).

  1. Nội dung trùng lặp.
  2. Thu thập thông tin vấn đề về ngân sách.
  3. 404 mềm.
  4. Sự cố thu thập thông tin.
  5. Trang web trung bình
  6. Kích thước mẫu: 8 trang web
  7. Nội dung trùng lặp.

Đã phát hiện, hiện chưa được lập chỉ mục (vấn đề ngân sách / chất lượng thu thập thông tin).

Đã thu thập thông tin, hiện chưa được lập chỉ mục (vấn đề chất lượng).

soft 404 (vấn đề chất lượng).

Sự cố thu thập thông tin.

Các trang web lớn

Kích thước mẫu: 9 trang web

Đã thu thập thông tin, hiện chưa được lập chỉ mục (vấn đề chất lượng).

Đã phát hiện, hiện chưa được lập chỉ mục (vấn đề ngân sách / chất lượng thu thập thông tin).

Nội dung trùng lặp.

404 mềm.

Sự cố thu thập thông tin.

Các trang web lớn

Kích thước mẫu: 9 trang web

Đã thu thập thông tin, hiện chưa được lập chỉ mục (vấn đề chất lượng).

Đã phát hiện, hiện chưa được lập chỉ mục (vấn đề ngân sách / chất lượng thu thập thông tin).

Nội dung trùng lặp (trùng lặp, URL đã gửi không được chọn làm trang chuẩn).

404 mềm.

Sự cố thu thập thông tin.

Những bài học rút ra chính về các vấn đề lập chỉ mục phổ biến

Điều thú vị là, theo những phát hiện này, hai quy mô trang web đang gặp phải các vấn đề giống nhau. Điều này cho thấy khó khăn như thế nào để duy trì chất lượng trong trường hợp các trang web lớn.

  • Lớn hơn 100k, nhưng nhỏ hơn 1 triệu.
  • Lớn hơn 1 triệu.

Tuy nhiên, những điều cần rút ra là:

Ngay cả những trang web tương đối nhỏ (hơn 10k) cũng có thể không được lập chỉ mục đầy đủ vì không đủ ngân sách thu thập thông tin.

Trang web càng lớn thì vấn đề ngân sách / chất lượng thu thập thông tin càng trở nên cấp bách.

Vấn đề nội dung trùng lặp là nghiêm trọng nhưng thay đổi bản chất của nó tùy thuộc vào trang web.

P.S. Lưu ý về URL không xác định đối với Google

Trong quá trình nghiên cứu của mình, tôi nhận ra rằng có một vấn đề phổ biến nữa khiến các trang không được lập chỉ mục.

Nó có thể không giành được vị trí trong bảng xếp hạng ở trên nhưng vẫn có ý nghĩa quan trọng và tôi rất ngạc nhiên khi thấy nó vẫn phổ biến như vậy.

Tôi đang nói về các trang mồ côi.

Một số trang trên trang web của bạn có thể không có liên kết nội bộ dẫn đến chúng.

Nếu không có đường dẫn nào để Googlebot tìm thấy một trang thông qua trang web của bạn, nó có thể hoàn toàn không tìm thấy nó.

Giải pháp là gì? Thêm liên kết từ các trang liên quan.

Bạn cũng có thể sửa lỗi này theo cách thủ công bằng cách thêm trang mồ côi vào sơ đồ trang web của mình. Thật không may, nhiều quản trị viên web vẫn bỏ bê việc này.

Từ khóa liên quan:

  • Lập chỉ mục là gì
  • Lập chỉ mục cho website
  • Đã lập chỉ mục mặc dù bị chặn bởi robots txt
  • Yêu cầu lập chỉ mục
  • Chỉ mục là gì
  • Bị loại trừ bởi thẻ noindex
  • URL đã gửi gặp vấn đề khi thu thập dữ liệu

Bài viết liên quan:

  • https://www.semtek.com.vn/network-la-gi/
  • https://www.semtek.com.vn/dmca/
  • https://www.semtek.com.vn/thuat-ngu-seo-2/
  • https://www.semtek.com.vn/trang-google/