
Robot.txtについて
投稿日: 2025-01-26 | カテゴリ: 開発Apatchでサイト構築していて、Google Indexに上手くサイトが登録されない理由を調べてたらRobots.txtを作成していないのが原因な気がしたのでまとめます。
robots.txtについて
robots.txtは、ウェブサイトの管理者が検索エンジンのクローラー(ボット)に対して、 どのページをクロール(インデックス)すべきか、またはクロールすべきでないかを指示するためのテキストファイルです。 このファイルは、検索エンジンのクローラーがウェブサイトを訪れる際に最初に探すファイルであり、 正しく設定することで、SEOやサイトのセキュリティを向上させることができます。
robots.txtの基本構造
robots.txtは、通常、ウェブサイトのルートディレクトリに配置されます。
例えば、https://iskkuu.com/robots.txt のようにアクセスできます。
基本的な構造は以下の通りです:
User-agent: [クローラー名] Disallow: [クロールを禁止するURLパス] Allow: [クロールを許可するURLパス]
- User-agent: クローラーの名前を指定します。特定のクローラーに対して設定を行うことができます。
- Disallow: クロールしてほしくないページやディレクトリを指定します。
- Allow: 特定のページやディレクトリに対して、クロールを許可する設定を行います。
User-agent: * Disallow: /private/ Allow: /public/
上記の例では、全てのクローラー(User-agent: *
)に対して、/private/
ディレクトリのクロールを禁止し、/public/
ディレクトリのクロールを許可しています。
よく使われるUser-agent
- Googlebot: Googleのクローラー
- Bingbot: Bingのクローラー
- Slurp: Yahoo!のクローラー
- DuckDuckBot: DuckDuckGoのクローラー
- *(アスタリスク): 全てのクローラーに適用
そして、以下robots.txtの設定例です
全てのページをクロール禁止にする
User-agent: * Disallow: /
この設定は、全てのクローラーに対して、サイト内のすべてのページをクロール禁止にする設定です。
特定のページをクロール禁止にする
User-agent: * Disallow: /secret-page/
上記の設定では、全てのクローラーに対して、/secret-page/
というページのクロールを禁止しています。
特定のクローラーだけクロール禁止にする
User-agent: Googlebot Disallow: /
Googlebotに対して、サイト全体のクロールを禁止しています。
特定のディレクトリをクロール禁止にする
User-agent: * Disallow: /admin/
この設定では、全てのクローラーに対して、/admin/
ディレクトリ内のページをクロール禁止にしています。
robots.txtの制限事項
robots.txtは、あくまで「クロールしないでください」というリクエストをクローラーに送るものです。 クローラーはこれを遵守することが期待されますが、必ずしも全てのクローラーが守るわけではありません。 特に悪意のあるクローラーやボットは、このルールを無視することができます。
また、robots.txtは公開されているため、誰でもファイルの内容を確認できます。
robots.txtとSEO
適切に設定されたrobots.txtファイルは、SEOにおいて重要な役割を果たすことができます。 例えば、重複コンテンツやプライベートページ、管理ページなどをクロールから除外することで、検索エンジンが重要なページに集中することができます。
重複コンテンツの回避
例えば、検索エンジンが複数のURLに同じコンテンツをインデックスしてしまうことを避けるために、robots.txtで一部のURLを除外することが有効です。 User-agent: * Disallow: /search/ これにより、検索結果ページがインデックスされるのを防ぎます。
robots.txtのテストと確認
Google Search Consoleや、その他のツールを使用して、robots.txtの設定が正しく機能しているかどうかをテストできます。Google Search Consoleでは、「robots.txt テストツール」を使用して、URLがクロールされるかどうかを確認できます。
まとめ
robots.txtは、ウェブサイトのクロールに対する指示を検索エンジンのクローラーに与えるための重要なファイルです。正しい設定を行うことで、サイトのSEOを最適化し、不要なページのインデックスを避けることができます。ただし、robots.txtはあくまでリクエストであり、全てのクローラーがこれを守るとは限らない点に注意が必要です。 これで一つのマークダウンファイルとしてまとめてありますので、そのままコピーして利用できます。