サイトを Google インデックスに登録してもらって、 Google 検索に引っかかる様にする、サイト内検索が機能するようにする。
経緯は後述するが、特に何もしなくてもそのうち Google のクローラが見つけて検索結果にも出てくるようになるだろうと勘違いしていた。 改めて調べた結果 Google インデックスに登録されて Google 検索に引っかかるようになるにはいくらか作業が必要だったので、その作業を行う。
登録作業
実際の Google インデックスに登録されるための作業としてやったことをまとめる。
Google インデックスに登録されているかの確認
ひとまず Google インデックスに登録されているかの確認として site:ドメイン名
で検索するとこんな感じ。
確かに登録されてない。
Google Search Console へのサイト登録
前述の「Google Search Console をお試しください」のリンクを踏むと (既に Google のアカウントでログインしていれば) Google Search Console の画面に飛ぶので、画面の案内の通りに進めていく。
最初にサイトの持ち主かどうかの認証方法を聞かれるが、今回はドメイン認証の方で進める。(理由は作業補足の方に記載)
ドメインの方に shida-ws.net
を入力して「続行」すると、少し待った後こんな感じのポップアップが出る。
( 実際にサイトを公開している blog.shida-ws.net
じゃない理由も後述)
ポップアップの案内の通りに進めていく。
ちなみにレコードタイプは選択式になっていて TXT (推奨)
CNAME
の2択。
このサイトのドメインは Route53 でホスティングしているので、該当 HostedZone の画面に行って、
こんな感じでレコードを追加する。
追加された。
さっきの Google Search Console のポップアップの画面に戻って「確認」すると、数秒待った後サイトの所有権の確認が完了する。
Google Search Console へのプロパティ(サイト)の追加
実際に必要だったのかどうか微妙なので余談のような形になるが、 Google Search Console へのプロパティの追加について。
前述のサイトの所有権確認が済んだ段階で、確認に使ったドメインである shida-ws.net
がプロパティとして自動で登録されるが、
自分の場合は実際にサイトを公開しているサブドメインである blog.shida-ws.net
をプロパティとして追加で登録し、
以降の作業も blog.shida-ws.net
に対して行っている。
実際にブログのトップが blog.shida-ws.net
なのでそうした方が良いのかと思いそうしているが、
正直 Google Search Console の使い方を十分に理解しているとは言い難いので、それ自体の勉強が必要ではある。
blog.shida-ws.net
の追加作業自体はすぐ終わる。
サイドメニューで「プロパティを追加」をクリックすると最初の所有権確認の画面(ドメイン/URLプレフィックスの選択画面)に飛ぶが、
親ドメインが認証済なのでドメインの方に blog.shida-ws.net
を入れるだけで自動で認証まで完了し、上記画像の様にプロパティとして追加される。
Google Search Console へのサイトマップ、RSSフィードの登録
ということで、サイト所有権の確認とプロパティの追加が済んだら、 Google のクローラがサイトを巡回するために使うサイトマップの登録を行う。
画面を見るとサイトマップとしか書いてないが、 RSS フィードも一緒に登録するのが良いとのことなのでそうする。
引用 : XML サイトマップと RSS/Atom フィードのベストプラクティス | Google 検索セントラル ブログ | Google Developers
Google では、最適なクロールを行うために、XML サイトマップと RSS/Atom フィードの両方を使用することをおすすめしています。
サイドメニューから インデックス
> サイトマップ
を選んで、
https://blog.shida-ws.net/sitemap.xml
https://blog.shida-ws.net/index.xml
の2点を登録する。それぞれ URL 入力して「送信」した後、10秒くらいでステータスが成功に変わった。
ちなみに Hugo では サイトマップはサイトのルートディレクトリに生成される が
RSS フィードはセクション毎に生成される 。
このブログの記事は今の所全て /posts/
以下に投稿していく予定なので、
RSS フィードとしては https://blog.shida-ws.net/posts/index.xml
を登録した方が良い説もあるが、
これについても十分に理解してるとは言い難いので勉強する必要がありそう。
Google インデックスに登録してもらうための作業としてはここまでで終了。
作業終了時点ではインデックスされてはいない( site:blog.shida-ws.net
で検索してもひっかからない)が、
そのうち Google のクロールが来るだろうということで少し経ったらまた様子を見る。
作業補足
作業とは別で、作業しながら気づいた勘違いなど、作業に関する補足をまとめる。
Google クローラに関する理解の誤り
記事冒頭の認識が間違っていたという部分についてだが、元々以下を見ていた。
引用 : Google 検索で自分のページが見つからない場合 - Search Console ヘルプ
サイトやページが新しい場合は、まだクロールやインデックス登録自体が行われていないことが理由で、Google インデックスに含まれていない可能性があります。新しいページが公開されてから Google によるクロールが行われ、さらにインデックスに登録されるまでには、しばらく時間がかかります。インデックス登録が完了するまでにかかる時間は、一般的に合計で 1 日から数週間と、さまざまな要因によって変動します。Google によるウェブのクロールについての説明をご確認ください。
この辺りを読んで「Google のクローラは何もしなくても数週間で新しいサイト見つけてインデックスするのか Google すげーな」と思っていた。
インデックスに登録してほしい急ぎの用は無かったのと、 実際どのくらいでクローラに見つかるだろうかという興味もあったので特に手続きはしていなかった。
たまにインデックスされたかどうか確認してみたりしていたのだが、公開して1ヶ月ちょい経ってもインデックスされてはいない。
それで、改めて「Google によるウェブのクロールについての説明」のリンク先も確認してみると、以下のような説明。
引用 : Google 検索の仕組みに関する詳細ガイド | Google 検索セントラル | ドキュメント | Google Developers
Google がすでにアクセスしたことのあるページは、既知のページとなります。既知のページから新しいページへのリンクをたどると、他のページが検出されます。たとえば、カテゴリページなどのハブページから、新しいブログ投稿へリンクしています。また、Google がクロールするページのリスト(サイトマップ)を送信した場合にも、他のページが検出されます。
Google インデックスに既に登録されているページのどこかからリンクされない限り検出されることはなさそうで、 Google の検索に引っかからない以上誰かに見つかってリンクされることもまず考えられないので、そらインデックスされないなと言うのを理解した。
Twitter でブログやってます的なツイートとかしてればそのうち見つかっていたのかもしれない。(1ヶ月程度で見つかるかという話はさておき)
サイトの所有権確認でドメイン認証を使った意図
サイトの所有権確認の際に、ドメイン認証で進めた意図についても書いておく。
まずサイトの所有権確認の方法としては Google のサイトにあるように以下
引用 : サイトの所有権を確認する - Search Console ヘルプ
方法 注意事項 HTML ファイルのアップロード 比較的簡単ですが、特定の URL のサイトにファイルをアップロードして公開する必要があります。サイト ホスティング プラットフォームでは使用できない可能性があります。 HTML タグ 比較的簡単ですが、サイトのホームページの HTML ソースコードを編集する必要があります。サイト ホスティング プラットフォームでは使用できない可能性があります。 Google アナリティクス トラッキング コード アクセス可能な Google アナリティクス アカウント用の Google アナリティクス トラッキング コードがすでにページにある場合は、簡単に実施できます。ページにトラッキング コードがない場合は、トラッキング コードを追加する必要があります(Google アナリティクス アカウントをまだお持ちでない場合にはアカウント作成が必要になる可能性があります)。 Google タグ マネージャー アクセス可能な Google タグ マネージャー アカウント用の Google タグ マネージャー スニペットがすでにページにある場合は、簡単に実施できます。ページにスニペットがない場合は、スニペットを追加する必要があります(タグ マネージャー アカウントをまだお持ちでない場合にはアカウント作成が必要になる可能性があります)。 Google サイト、Blogger、またはドメインのアカウント プラットフォームごとのおすすめの方法を使用してください。 ドメイン名プロバイダ 複雑ですが、ドメイン プロパティを確認する唯一の方法です。ドメイン プロバイダが確認ウィザードのリストに含まれている場合は、簡単に実施できます。ドメイン プロパティにはプロパティに関するプロトコル(http / https)とサブドメインのすべてのバリエーションのデータが含まれるため、便利です。
HTML ファイルのアップロードや HTML タグの埋め込みに関しては、軽く調べた感じ Hugo のテンプレートを修正する、
もしくは GitHub Actions でプッシュした後のファイルに手を加えることになりそうで、あまりやりたくなかったのでスルー。
( このブログのシステム構成 は以前書いた記事の通り)
Google アナリティクスやタグマネージャーに関しては、まずそれらを調べることになるのでこれも一旦スルーした。 アナリティクスに関しては元々仕込む予定ではあったがまだ手は付けていなかったのと、タグマネージャーに関してもそもそも何ぞやというところからになる。
Google サイト、 Blogger 等に関してはそもそも使ってないので無関係。
という感じでドメインでの認証にした。 とは言え、Google アナリティクスに関しては追々仕込んで所有権確認として追加する(切り替える)つもりではいる。
サイト所有権の確認に使ったドメインについて
サイトの所有権確認のためのドメイン認証で blog.shida-ws.net
じゃなく shida-ws.net
を使った理由の部分。
このサイトは blog.shida-ws.net
というドメイン名で公開しているが、そもそもこのドメイン名は CNAME で GitHub Pages のドメインに向けている。
DNS の仕様上 CNAME レコードと同じドメイン名で他のレコードが共存することは認められてないので、
Route53 で blog.shida-ws.net
の TXT レコードを登録しようとしたタイミングで(正しく)拒否された、というのが理由。
ググるとこれらの他にも色々出てくるが、この辺りと同じ話。
- 【小ネタ】Route 53 のホストゾーンに CNAME レコードと重複するドメイン名で MX レコードを登録しようとしたらきちんと怒られた | DevelopersIO
- CNAMEレコードとTXTレコードは共存できないので、ALIAS レコードを使う - Qiita
結果的には、サイト所有権の確認にはサイトを公開している blog.shida-ws.net
の親に当たる shida-ws.net
で行った。
あとがき
割と行き当たりばったりで Google Search Console を触っており、使えていそうな気はするが色々と勘違いに気づいたりもしている。 もう少し Google Search Console 自体の概略を理解する必要がありそうなので、追って調べてまとめてみる。
追記) 2022/10/31
作業してから1週間くらい経ったので状況確認。
一応検索には引っかかるようになっていた。
インデックス状況については Google Search Console で確認できる。
インデックスに登録済みのページはこんな感じ。
インデックスに登録されていないページはこんな感じ。 (インデックス登録状況サマリの理由の部分をクリックすると飛ぶ)
一応トップページのみインデックスへの登録まで済んでいて、他のページはクローラが来るのを待ってるという感じらしい。 (トップページはとりあえず一回見に来るという事なんだろうか?)
「例」のところにある適当な行をクリックすると右側にこんな感じのが出てきて
「URL を検査」を押すと詳細を確認できる
右上の「公開URLをテスト」というのを押すと、ページに問題があるのかどうかの切り分けができる (URL 検査ツール - Search Console ヘルプ )
プログレスバー的なものが出て少し待った後こんな感じの画面になって、問題はなかったことがわかる。 (「公開URLをテスト」のボタンが、「GOOGLEインデックス」「ライブテスト」のタブになった)
インデックスの登録リクエストが送れそうだったので、試しにこの記事のページだけ申請してみた。
またしばらく経ったら様子を見る。