2016/11/07

初心者向けrobots.txtの説明!検索エンジンのロボットにクロールする範囲を命令するファイル

色んなページを読むと、robots.txtを設置しよう!って見たことありますよね。まずそれってどうやって作るの?何を書いたらいいの?本当にこれであってんのぉ?って疑問が初心者には付きモノです。

robots.txtファイルで何を設定し、どうすれば良いのかを初心者が解るように書いていきますね。

スポンサーリンク

robots.txtファイルって、何?

robots.txtファイルはネット上に存在するロボット、情報を読み取る範囲を命令するためのファイルです。ブログを更新したら、検索エンジンがブログをネット上に公開(インデックス)するのにロボットがやってきます。

このロボットはクローラーと言って、XMLサイトマップで作らてたリンクをたどって、ブログのデータを読みとるもの!と思えば比較的わかりやすいです。

クローラーが這うサイトマップを表示

クローラーが這うXMLサイトマップのリンク

インデックスにいつ来るか不明なので、プラグインXMLサイトマップで設定し、ロボットにブログのページ更新を伝えたり、サーチコンソールのクロールより『Fetch as Google』でアドレスを入れて早々にインデックスする方法もあります。

ブログの全て管理画面まで巡回するのか、ブログの表示に関係ある部分を巡回するか。それを指定するのがrobots.txtファイルです。

ポイント♪
  • 『このデータファイルの情報は、ブログ表示に関係ないから、クロールしなくていい、見ないでっ。だって通信に負荷がかかるからっ♪』
  • 『このデータファイルは表示に関係あるから、クロールして見て確認してね!』など

効率よく自分のページを読み取ってもらう為に、管理画面の情報ファイル『wp-admin』は、見なくても良い場所です。

そこでクロールの範囲を指定し、命令するのがrobots.txtのファイル!

robots.txtファイルに、書いてる内容とは

ネット上の情報を読み取るクローラーに、データファイルを見て!見ないで!とどのように書いているのか見てみましょう♪

WordPressをインストールしたとき、インデックスをする状態

インデックスする

検索エンジンでの表示インデックスしてる状態

この状態で、デフォルトのrobots.txtファイル内容は下記。

“User agent”は、私たちがネットでアクセスするのをとりもってくれるプログラムって事で、『ネット上にいるクローラー』っと言う意味になります。

  • User-agent: * 【クローラのロボット:全てに】
    すべてのクローラー
  • Disallow: /wp-admin/ 【来ないでね:/wp-adminワードプレスの管理者情報/】
    Disallowは、クローラーこないで!って意味。
  • Sitemap: http://bibabosi-rizumu.com/sitemap.xml
    【サイトマップ:この場所にあります】ってか、【記名みたいなモノ】です。

※全てのクローラが従うとは限らない、構文の解釈が違ったりしてロボットが全て理解しかねる可能性もあって、『質の良くないクローラーが居る』ようです。

クローラによって構文解釈が異なる

信頼できるウェブクローラは robots.txt ファイルのディレクティブに従いますが、各クローラでディレクティブの解釈が異なる可能性があります。各種のロボットに対応する適切な構文を知る必要があります。ロボットによっては、一部の指示を理解しない可能性があります。
引用ページ元:robots.txt ファイルについて – ウェブマスター ツール ヘルプ

インデックスしない状態のデフォルトのrobots.txtファイル内容

インデックスしない状態ですは、下記のようになっています。

これは、サブドメインなどでテスト環境用などのとき、検索結果に表示(インデックス)したくないとき用です。リンク先にも書いてる通り、後はhead内にノーインデックスを入れると安心ですね。

インデックスするように変更すれば、下記のように変わります。

これで、公開されます。Allow: /wp-admin/admin-ajax.phpについては、インデックスされたら、必要ないと思ってます。これは、またの機会に^^;

robots.txtの確認方法

自分のブログのrobots.txtファイル情報を知りたくなってきたでしょうから、確認方法を書きますね。URLの後ろに、

を付けてアドレスバーに入れてください。例)http://hoge.com/robots.txt

これでご自身のrobots.txtは、どんなクローラーにどんな指示を出してるのかを知ることができます。

全てのクローラー、グーグルやbing、ヤフーなど全てのクローラーに!管理画面は巡回しないで!って意味。こんな感じでしたら、モバイルフレンドリーにも違反してないので安心です。

コレがない!って思ったあなた。大丈夫!ただの住所を書てるだけですが、次に書きますね。

ブログを始めたばかり!インデックスされるのが遅いとき

初めてブログを公開したら、ひたすらインデックスされない気がしますよね…。作ったばかりのブログは、XMLサイトマップでクローラー専用リンクを作っても、新しいのでなかなかリンクをたどってきません。

サーチコンソールのダッシュボードを見てもクロールにこないと、心配になるんですよぉ…、ちゃんとクロールくるのかなぁ…って。

またサイトマップの表示robots.txtに住所的な、Sitemap: http://ドメイン/sitemap.xmlを置く方法でもあるので、次を見てみましょう。

サーチコンソールでサイトマップを登録!

プラグインでサイトマップを追加したけど、クローラーが来るか不明で心配なときに試してください。2日もしないうちにインデックスされ、安心できる方法です。

サーチコンソールのクロールをクリックして、サイトマップを選択、サイトマップ追加/テストとあるので、クリック。

サーチコンソール:サイトマップ追加

サイトマップの追加テストが出てくるので、テストして送信すれば2重で安心!

サイトマップの送信

URLの後ろに、http://hoge.com/sitemap.xmlとなるように上の文字を記入すれば良いです。それをアクセスしたら、クローラーが巡回するサイトマップの出来上がり!

クローラーが這うサイトマップの表示

これをしてれば、住所にあたるサイトマップが表示されますよ。

robots.txtの書き方と意味、アップのやり方、モバイルフレンドリーで何が変わったのかなど、次に書いていきますね。

robots.txtファイルをサーバーへアップする方法

robots.txtファイルが、サーバーには見当たらない理由は、仮想環境で出来上がるファイルだとXmlサイトマップのプラグインを導入してる書いてます。WordPressをインストールしたら、生成されるってことですね。

FTPソフトでアップする場合と、robots.txtファイルが存在してる場合サーバーのFTPに直接入って編集する方法の2種類、見てみましょう。

robots.txtをFTPソフトでアップする

テキストの名前はrobots.txtで、ファイル名robots。拡張子が.txt。

Windowsのメモ帳を使っても問題ありません。文字コードを無視してFTPソフトでアップすると、自動選択してASCIIになってエラーはでませんので安心してください。

※間違ってUTF-8で上げてしまってもエラーは表示されません。実験済み❦

LINK文字コードUTF-8のbomとは何!?WordPressのエラー防止対策はUTF-8Nって話

“robots.txt”ファイルが準備できたら、サーバーのドメインのフォルダ内に移動します。

robots.txtをサーバーにアップする方法。FTPソフトにて。

  • 左側がPCで編集して保存したrobots.txtファイル。右側のサーバーにアップ!

サーバー側に、robots.txtのファイルがない人。または、書き換えたい人は、このようにサーバーにアップします。FTPソフト持ってない方は、FFFTPの初期設定をみながらインストール設定してくださいねっ。

直接サーバーのFTPに書き込む方法

サーバーに入る権限があれば、サーバーのFTPを直接編集しても楽に済ませることができます。()内はエックスサーバーでの内容で書いてます。

  • メモ帳にでも元の記載のバックアップ取っておく!
  • サーバーのFTP(WebFTP)に入り、ドメイン直下(public_html直下)に入れた「robots.txt」のファイルを選択して、直接記載内容をコピペで変える。間違いないか、要確認。
  • 保存する(編集をクリックしたら保存できる)。

サーバーのFTPに直接記載内容を書き換える方法

 robots.txtはルートディレクトリに置くって聞くけど、ルートディレクトリroot directoryって何?

よくみかけて意味がわからなかった事がルートディレクトリroot directory。いったい何なの?ってなりますよね。要は、根っこの部分って事です。よく分からないので簡単に言ったら!

  • robots.txtは、ドメイン直下(public_html直下)に入れちゃえばOK!
  • http://hoge.com/robots.txt この階層に入れる

ブログの名前の1つ下層のことを “サブディレクトリ” って言います。
Disallow: / サブディレクトリ/その下のサブディレクトリ/

  • サブドメインに別サイト運営などの場合は、サブドメインファイルの直下にrobots.txtを入れればOK!

難しく考えなくても大丈夫。wp-admin・wp-content・wp-includesのフォルダのある、またWordPressの重要ファイルwp-config.phpがある同じ階層にファイルをアップすればOK!

※エックスサーバーでは、/hoge.com/public_html/robots.txt

robots.txtをサーバーにアップする方法。FTPソフトにて。

ルートディレクトリについてわかりやすいのは、下記ページさんです。

参考レンタルサーバサービス(ホスティング、独自ドメイン) – リウコム・インターネット・サービス » Q.FTPルートディレクトリとはなんですか?

robots.txtの書き方

Disallow: /
この状態だとサイト全体クロールしないでって意味です。

  • 【:】後の【/】忘れては反映されません。

Disallow: /wp-admin/
wp-admin内は、クロールしないで。

追加したいときは下記のように書きます。

  1. Disallow: /××/
    ××のディレクトリはクロールしないで
  2. Allow: /××/○○/
    でも、××ディレクトリの○○はクロール来て欲しいの

全体を見て意味と書き方を、1行目から見てみましょう。

  1. User-agent: *
    すべてのクローラーに
  2. Disallow: /wp-admin/
    wp-adminは、見ないで
  3. Disallow: /××/
    フォルダ「××」を(Disallow)見ないで!
  4. Allow: /××/○○/
    「××」フォルダ内の下層「○○」フォルダのは(Allow)見てね♪

っと、など指示できますよ。その手順、FTPソフトを使う場合。

  1. サーバーからrobots.txtファイルをダウンロード
  2. 追記、上書き保存。
  3. 追記保存後、FTPでアップ

直接サーバーのFTPに上書きする場合。

  1. robots.txtファイルをダウンロード、またはここかにコピペしてバックアップを取る
  2. 追記して保存。

モバイルフレンドリーの結果にも注意

モバイルフレンドリーで、2015年4月より新たにスマホ検索結果に影響しますよ♪っと付け加えられましたが、下記記載は絶対出しておきましょう♪って事なんです。

  • スタイルシート:CSSでブログを装飾してるファイル
  • 他はJScriptファイル
  • 画像のファイルのディレクトリなど

CSS、JSが含まれているのは、下記のフォルダ内ですので、どちらも見ない:Disallow指定していたら、グーグルさんから警告が来たりしているようです。

  • wp-includes
  • wp-content

最低限:CSS、JSのフォルダは見てねっ:Allow指定するなど早急に対処しないとイケナイですねっ。

参考CSSとJSファイルをブロックしているサイトに警告メッセージをGoogleが一斉送信 | 海外SEO情報ブログ2015/8/2追記

CSS、JavaScript、画像とか、robots.txtでDisallow→見ないで。っとしていたら?モバイル画面の表示が実際の見た目と違って伝わってしまって、モバイルフリーじゃないって、レッテルを貼られかねません。

この機会に、モバイルフレンドリーを知ってテストしてみる事をおススメします。

リソースをクロール可能な状態にしておいてください。robots.txt で、検索エンジンがページのレンダリングに不可欠なファイル(広告を含む)にアクセスできないようにすることは避けてください。ページのリソース(CSS、JavaScript、画像など)にアクセスできないページは、Googlebot が「モバイル ブラウザに表示して問題なく動作するページ」と認識しない場合があります。つまり、ページが「モバイル フレンドリー」と認識されず、モバイル ユーザーの検索結果に正しく表示されない可能性があるということです。

引用ページ元:モバイル フレンドリーにする際の注意事項 – ウェブマスター向けモバイルガイド

プラグインフォルダにCSSとJsを追加した例

プラグインファイルは、ブログのページ表示させるプラグインも使ってる場合、クロールしてもらわなくちゃ、上述通りサーチコンソールでご指導が入ります。人は目でブログを見るけど、クローラーはデータファイル情報からブログの見た目を理解するので。

プラグインも管理画面で使うもの、ブログの装飾や動きを表すモノがあります。

CSSやJsファイルは、ブログの装飾に関係あるから、クロールして見せないと、人が見た状態とロボットの見解が違ってきます。

その辺まとめて書いてる下記リンクの目次『GoogleはJavaScriptやCSSを理解する』を参考にしてください。(過去記事ではないほう)

参考robots.txtを改善してGoogleにブログの構造を的確に伝えよう|naifix

まとめ

初心者はFTP内のディレクトリ(フォルダ)を見ても、どれが何のファイルか最初は分からないので、更新し続けているブログを見つける事をおススメします。

いくつかの記事を見て参考にするのも良いんじゃないでしょうか?
下記は参考まで。

  • wp-includes、wp-contentの、CSS、JSファイルあり:クロールしてもらう
  • wp-adminは、クロールなしで平気

この状態なら、問題なしです。クロールする範囲は多少よそのページさんより増えちゃいますけど。下手にさわってクロールされない事のほうが、困りますからね。

まずい状態は下記です。

  • すべてのクローラーに、あなたのブログをクロールしないで!って意味。

いつまで経ってもインデックスされません。これは、ブログを検索でヒットできない状態って意味です。クローラーが巡回に来て初めてインデックス(検索でひらってもらえる状態)になります。

ダッシュボードの『設定』より、『表示設定』を開いて『検索エンジンでの表示』の『 検索エンジンがサイトをインデックスしないようにする』にチェックが入ってる状態です。

WordPressの管理画面

公開してインデックスされたいなら、チェックを外してくださいね^^

さいごに

何の知識もないので理解出来るまで、頭の中がぐちゃぐちゃになってしまうし色々勘違いし易い事が盛り沢山です。

難しいけど知りたいって方は、何度か読んだらザックリ理解できますので、頑張ってください♪

それでは、かうたっくでした^^

書いた人:かうたっく

何も知らない初心者ですが、WordPressでブログを始めました。 ブログの技術系でつまずいたエラーを経験したことからエラー関連を、初心者が初心者に向けて分かりやすい言葉で書いてます★子どもの喘息様気管支炎や、幼い子どもとの生活ページなどよく読まれる雑多ブログを運営中^^♪ご意見、感想、質問はお問い合せよりお待ちしています。

Twitterフォロー