Favicon

SIer’s Wonderland

Title Image

Robot.txtについて

投稿日: 2025-01-26 | カテゴリ: 開発

Apatchでサイト構築していて、Google Indexに上手くサイトが登録されない理由を調べてたらRobots.txtを作成していないのが原因な気がしたのでまとめます。

robots.txtについて

robots.txtは、ウェブサイトの管理者が検索エンジンのクローラー(ボット)に対して、 どのページをクロール(インデックス)すべきか、またはクロールすべきでないかを指示するためのテキストファイルです。 このファイルは、検索エンジンのクローラーがウェブサイトを訪れる際に最初に探すファイルであり、 正しく設定することで、SEOやサイトのセキュリティを向上させることができます。

robots.txtの基本構造

robots.txtは、通常、ウェブサイトのルートディレクトリに配置されます。

例えば、https://iskkuu.com/robots.txt のようにアクセスできます。

基本的な構造は以下の通りです:

User-agent: [クローラー名] Disallow: [クロールを禁止するURLパス] Allow: [クロールを許可するURLパス]

User-agent: * Disallow: /private/ Allow: /public/

上記の例では、全てのクローラー(User-agent: *)に対して、/private/ディレクトリのクロールを禁止し、/public/ディレクトリのクロールを許可しています。

よく使われるUser-agent

そして、以下robots.txtの設定例です

全てのページをクロール禁止にする

User-agent: * Disallow: /

この設定は、全てのクローラーに対して、サイト内のすべてのページをクロール禁止にする設定です。

特定のページをクロール禁止にする

User-agent: * Disallow: /secret-page/

上記の設定では、全てのクローラーに対して、/secret-page/というページのクロールを禁止しています。

特定のクローラーだけクロール禁止にする

User-agent: Googlebot Disallow: /

Googlebotに対して、サイト全体のクロールを禁止しています。

特定のディレクトリをクロール禁止にする

User-agent: * Disallow: /admin/

この設定では、全てのクローラーに対して、/admin/ディレクトリ内のページをクロール禁止にしています。

robots.txtの制限事項

robots.txtは、あくまで「クロールしないでください」というリクエストをクローラーに送るものです。 クローラーはこれを遵守することが期待されますが、必ずしも全てのクローラーが守るわけではありません。 特に悪意のあるクローラーやボットは、このルールを無視することができます。

また、robots.txtは公開されているため、誰でもファイルの内容を確認できます。

robots.txtとSEO

適切に設定されたrobots.txtファイルは、SEOにおいて重要な役割を果たすことができます。 例えば、重複コンテンツやプライベートページ、管理ページなどをクロールから除外することで、検索エンジンが重要なページに集中することができます。

重複コンテンツの回避

例えば、検索エンジンが複数のURLに同じコンテンツをインデックスしてしまうことを避けるために、robots.txtで一部のURLを除外することが有効です。 User-agent: * Disallow: /search/ これにより、検索結果ページがインデックスされるのを防ぎます。

robots.txtのテストと確認

Google Search Consoleや、その他のツールを使用して、robots.txtの設定が正しく機能しているかどうかをテストできます。Google Search Consoleでは、「robots.txt テストツール」を使用して、URLがクロールされるかどうかを確認できます。

まとめ

robots.txtは、ウェブサイトのクロールに対する指示を検索エンジンのクローラーに与えるための重要なファイルです。正しい設定を行うことで、サイトのSEOを最適化し、不要なページのインデックスを避けることができます。ただし、robots.txtはあくまでリクエストであり、全てのクローラーがこれを守るとは限らない点に注意が必要です。 これで一つのマークダウンファイルとしてまとめてありますので、そのままコピーして利用できます。