ページがインデックスに登録されなかった理由 – 見つかりませんでした(404)が激増したお話し

目次

突然 SearchConsole で、見つかりませんでした(404)が激増した

実際に存在しない https://officeueda.com/shopdetail/* が激増してる

https://officeueda.com/shopdetail/ を、削除してみたけど、しばらくすると、減るどころか増えてる

サイトマップにも、/shopdetail/ が含まれるものはない。

/shopdetail/ は、ECサイト(オンラインショップ)の商品詳細ページを表すURLの構造として、非常によく使われるパターンの一つ

調べるとそうらしく、

意図内容
🔍 商品データのスクレイピングECサイトっぽい構造を探して自動取得を狙う(特に /shopdetail/ は狙われやすい)
🐞 脆弱性のスキャン存在するページでセキュリティホールがないかチェックする(例:古いEC-CUBEなど)
🧠 機械学習のためのクローリングAI学習データとして「商品構造っぽいページ」を大量に巡回する
🤖 Botの自動化テストURLの総当たり攻撃で、どんな情報が漏れてるか確認したい

ChatGPTに聞くと、そういうことらしい

大量の 見つかりませんでした(404) は、何か問題なの?

📉 問題1:サーバー負荷の増大

何千件・何万件も404リクエストが飛んでくると、サーバーのリソースを浪費します。アクセスが多ければ表示速度にも影響します。

🔍 問題2:Search Consoleで「インデックス登録 – 見つかりませんでした(404)」が増える

Googleもそれを「何かリンクされてる?」と勘違いしてインデックスしようとしてしまうケースがあります。

🛡️ 問題3:セキュリティリスク

脆弱なCMSを使っていた場合、不正なアクセスにつながることも…。

対策:Botの総当たりアクセスを止めるには?

方法①:robots.txtでブロック

User-agent: *
Disallow: /shopdetail/

※Googleなど「まじめなBot」はこれを守りますが、スパムボットは守らないことが多いです。


方法②:.htaccessで拒否する(より強力)

RewriteEngine On
RewriteCond %{REQUEST_URI} ^/shopdetail/ [NC]
RewriteRule ^.*$ - [F,L]

上記を .htaccess に書くと /shopdetail/ を含む全アクセスを 403禁止 にします(サーバーで拒否)。


方法③:reCAPTCHA やWAFでBot制限(高レベル対応)

  • reCAPTCHA(v3)でBotの行動をスコア化して排除
  • サーバーやCDN(Cloudflareなど)でBot制限やレート制限をかける

方法②:.htaccessで拒否する を採用しました。

よかったらシェアしてね!
  • URLをコピーしました!
目次