記事執筆:認定SEOコンサルタント 三田健司
Webサイトの運営者にとって、SEO対策は非常に重要です。その一環として、robots.txtというファイルがあることをご存知でしょうか?
Webサイトのクローラーに対して、どのページをクロールして良いか、またはクロールしないで欲しいかを指示するためのファイルが、robots.txtです。
このファイルを正しく設定することで、検索エンジンのクローラーに対して、重要な情報を伝えることができます。
そこで当記事では、robots.txtとはどういうものか、SEO効果や設定方法などを詳しく解説していきます。
robots.txtとは?
robots.txtとは、Webサイトのクローラーやロボットに対して、特定のページやディレクトリにアクセスすることを制限するためのファイルです。このファイルは、Webサイトのルートディレクトリに配置され、クローラーがアクセスする前に読み取られます。
このファイルの目的は、Webサイトのオーナーがクローラーに特定のページやディレクトリへのアクセスを許可または禁止することができるようにすることです。例えば、Wordpressのログインページなどは、一般的にクロールされないように設定されています。
robots.txtは、特定のクローラーやロボットに対してルールを書くことも可能です。クローラーは、このファイルを読み取り、自身がそのWebサイトに対してどのようなアクセスを許可されているか判断します。クローラーやロボットは、このファイルの指示に従ってウェブサイトをクロールするため、不要なアクセスを減らすことができます。
robots.txtのSEO効果
WebサイトのSEOにおいて、robots.txtファイルは重要な役割を果たしています。
robots.txtファイルは、検索エンジンのクローラーにどのページをクロールしてもらい、どのページをクロールしないように指示するためのものです。つまり、不要なページをクロールから除外することができるため、サイトのクロールバジェットを最適化し、検索エンジンが重要なページをより効率的に取得することができます。
また、robots.txtは検索エンジンにクロールすべきでない一部のページやディレクトリを非表示にする効果もあります。たとえば、管理者ページやプライベートな情報が含まれるディレクトリなど、一般のユーザーには表示される必要のないページを非表示にすることで、SEO効果を高めることができます。
さらに、robots.txtファイルは、検索エンジンに対して特定のクローラをブロックする効果もあります。たとえば、競合他社のクローラが自社のWebサイトをクロールしないように指示することで、情報の漏洩を防ぐことができます。
robots.txtとnoindexの違い
robots.txtとは、ウェブクローラー(検索エンジンのロボット)に対して、Webサイトの特定のページやディレクトリにアクセスすることを許可または制限するためのファイルです。つまり、Webサイトの特定の領域をクローラーがクロールするかしないかを制御することができます。
一方、noindexは、特定のWebページを検索エンジンのインデックスから除外するための指示です。これを使用すると、ウェブサイトの特定のページが検索結果に表示されなくなります。たとえば、特定のランディングページやテストページなど、一時的に検索エンジンから非表示にしたいページがある場合に使用されます。
robots.txtとnoindexの違いは、制御のレベルにあります。robots.txtは、ウェブサイト全体や特定のディレクトリに対するアクセス制御を行うのに対して、noindexは個別のページに対する制御を行います。
また、もう一つの違いは、効果のタイミングです。robots.txtの変更は即座にクローラーに反映されますが、noindexの変更は時間がかかる場合があります。検索エンジンのクローラーがページを再クロールしたり、検索エンジンが更新されるまで、変更が反映されないことがあります。
robots.txtの書き方
robots.txtファイルは、Webサイトのルートディレクトリに配置します。一般的には、https://example.com/robots.txtのようにアクセスできるようにすることが一般的です。
次に、実際にrobots.txtファイルの中身を書いていきます。基本的な構文は、以下のようになります。
User-agent: [クローラー名]
Disallow: [制限するページのパス]
ここで、「User-agent」とは、対象となるクローラーの名前を指定します。「User-agent: *」とすると、すべてのクローラーに対して同じ設定を適用することができます。
そして、「Disallow」とは、制限するページのパスを指定します。例えば「Disallow: /admin/」とすると、/admin/以下のページはクロールされないようになります。
また、特定のファイルだけを制限したい場合は、以下のように書くこともできます。
User-agent: [クローラー名]
Disallow: /*.pdf$
この場合、「*.pdf」のような拡張子を持つファイルはクロールされないようになります。
なお、「Disallow」ではなく、「Allow」という指定もできます。これは、特定のページだけをクロール許可するときに使用します。
robots.txtの4つの書式
robots.txtの4つの書式を解説いたします。
User-agent
User-agentはクローラーが利用する特定のユーザーエージェントを指定します。たとえば、GooglebotやBingbotなどのボットを指定することができます。特定のクローラーに対してのみルールを設定したい場合に使用します。
Disallow
Disallowはクローラーがアクセスを禁止するパスを指定します。クローラーはこのパスをクロールしないようにします。たとえば、/admin/や/private/など、機密情報が含まれるディレクトリを指定することができます。
Allow
Allowはクローラーがアクセスを許可するパスを指定します。Disallowとは逆に、クローラーに対して特定のパスのみをクロールさせたい場合に使用します。たとえば、/images/や/css/など、特定のディレクトリのみをクロールさせることができます。
Sitemap
SitemapはサイトマップのURLを指定します。クローラーはこのURLを参照してサイトマップを取得し、サイト内の全てのページを効率的にクロールすることができます。サイトマップが更新された場合には、この項目を変更することでクローラーに新しいサイトマップを知らせることができます。
robots.txtの書式は、検索エンジンに対してクロールの設定を行うために非常に重要です。正しく設定することで、検索エンジンに対して適切な情報を提供し、サイトのクロール効率を向上させることができます。
robots.txtの確認方法
クローラーや検索エンジンの訪問を制御するためには、正しく設定されたrobots.txtファイルが必要です。しかし、間違った記述があると意図した通りにクローラーを制御することができませんので、robots.txtが正しく記述されているかを確認するようにしましょう。
まず、ウェブブラウザを開き、サイトのURLの末尾に「/robots.txt」を追加します。例えば、https://www.example.com/robots.txtとなります。
このURLにアクセスすると、ウェブブラウザ上にrobots.txtファイルの内容が表示されます。ここで、表示された内容を確認し、意図した設定と一致しているかを確認します。
また、もう一つの方法として、Googleの「Google Search Console」を利用する方法があります。Google Search Consoleにサイトを登録し、左側のメニューから「クロール」→「robots.txtテスタ」を選択します。そこにrobots.txtの内容を入力すると、Googleがそのファイルを解析し、エラーがないかどうかを確認することができます。
robots.txtファイルが正しく記述されているかどうかを確認することは、ウェブサイトの検索エンジン最適化(SEO)において非常に重要です。間違った記述があると、クローラーや検索エンジンがウェブページを正しく解析できないため、意図しないページがインデックスされたり、クロールされたりする可能性があります。
正しいrobots.txtファイルの設定は、ウェブサイトの可視性を向上させるために欠かせない要素です。ぜひ、robots.txtファイルの設定方法を理解し、正しく設定されているかどうかを定期的に確認することをおすすめします。
robots.txtの設定方法
正しく記述できていることを確認したら、FTPソフトを使ってrobots.txtファイルをサイトにアップロードする方法を解説いたします。まず、FTPソフトをインストールし、サイトのドメインやユーザー名、パスワードなどの情報を入力します。接続が成功したら、ファイルマネージャーなどの機能を使って、サイトのルートディレクトリに移動します。
次に、サイトのルートディレクトリにrobots.txtファイルをアップロードします。ローカル上で作成したrobots.txtファイルをドラッグ&ドロップするか、アップロードボタンをクリックしてファイルを選択します。アップロードが完了するまで待ちます。
アップロードされたrobots.txtファイルが正しく機能しているかどうかを確認するために、Webブラウザでサイトのドメインにアクセスします。ドメインの後ろに”/robots.txt”を追加し、アクセスします。正しく設定されていれば、robots.txtファイルの内容が表示されます。
robots.txtの注意点5つ
robots.txtの作成や運用時には、いくつかの注意点があります。以下に、robots.txtの注意点を5つ紹介します。
間違ったパスを制限しないようにする
robots.txtファイルは、検索エンジンにウェブサイトのクロールの方法を指示するためのものです。しかし、誤って制限したいパスを指定してしまうと、検索エンジンに対してウェブページのインデックス化を阻害する可能性があります。正確なパスを指定することを忘れずに。
ユーザーエージェントを確認する
robots.txtファイルは、異なるユーザーエージェント(ブラウザやクローラーなど)に対して異なるルールを適用することができます。自分のウェブサイトにアクセスする主要なユーザーエージェントを確認し、適切なルールを設定してください。
ファイルの位置を確認する
robots.txtファイルは、ウェブサイトのルートディレクトリに配置する必要があります。ファイルパスが間違っている場合、検索エンジンはrobots.txtファイルを見つけることができず、正常に検索結果を表示することができません。
ディスアローされたページにリンクしない
robots.txtファイルには、クロールされることを許可しないページのパスを指定することができます。しかし、これらのページに他のウェブページからリンクを貼ることは避けるべきです。リンクから辿れるページは、検索エンジンによってクロールされる可能性があるため、注意が必要です。
定期的な更新を行う
ウェブサイトの構造やコンテンツは、時間とともに変化することがあります。robots.txtファイルも、定期的に更新することが重要です。新しいページの追加や古いページの削除があった場合、それに応じてルールを変更しましょう。
これらの注意点を守ることで、正しく効果的なrobots.txtファイルを作成し、ウェブサイトのクロールを管理することができます。
まとめ
本記事ではrobots.txtのSEO効果や設定、確認方法などを解説いたしました。
Googleなどの検索エンジンに適切なクロールをしてもらうためにはrobots.txtの正しい運用は必要です。
気になる方はいまいちど、自サイトのrobots.txtの設定を確認してみてください。
コメント