動的サイトと静的サイトそしてクローラーの変化
No:103 Time[2007-11-01 02:23:29]
最近googleの動きが変だ、以前なら全くといって反映されなかった動的サイトが意図的ではないのにgoogleの検索に引っかかるようになった。
何をいっているかというと、クローラーがどうも変わったようである。
cgiに代表される動的ファイルは例え意図的に誘導リンクしたとしても従来であればクローラーが読み出すのは困難であった。いや困難というよりはあえてしなかったのである。その理由の一つはgetメソッドを使ったサイトの場合パスワードを含んでいる可能性がある。それをクローラーが読み込んだらどういうことが発生するか?
検索エンジンが秘密の内容を公開することを意味してしまいます。
これを回避する為にはパスワードを含むサイトはgetメソッドは使わないことなのだが、
そうした漏洩を防ぐために今まで検索エンジンはあえて動的ファイルは読んでいかなかったと推測する。しかし時代の変化に伴ってユーザーがほしい情報、質のいい情報は必ずしも静的ファイルすなわちHTMLで作成されなくなった。
理由はきわめて簡単でブログに代表されるようにあまりHTML作成に詳しくない物にとっては、システム化されたブログのようなものに書き込みを行うだけでいいたいことがかけてしまうほうがよほど楽だからです。
しかもそういった物のほうが案外重要な内容が含まれています。
ブログの場合はさらにSEO的にクローラーが読みやすいように静的ファイル化されSEO的各種仕組みがされている為、通常のサイトよりも上位に表示されていたわけです。
したがって静的ファイル化されていない特に掲示板のような物はあまり検索に引っかからない物でしたが、ここにきて大きく状況が変わってきたようです。
静的ファイル以上とはいいませんがかなり動的ファイルも収集するようになってきました。ですが私のいっているクローラーの変化とは更に別なところにあります。
自サイト内に誘導リンクがないにも関わらず読んでいるようなのです。
まあ、これには2種類推測できます。
google自身が行っている。もうひとつはgoogle以外が関係している。
私は後者だと思っています。
世の中コピーサイトやそのもどきがたくさん出回るようになりました。
よく調べたいニュースを検索すると同じような内容のサイトがいくつも見つかりどれがオリジナルかわからないことがありますよね?
あの技術はオリジナルから許可をうけて又はうけずにクロールした他のロボットにより行われます。
その他のボットがクロールしたものをグーグルbotが拾っていくわけです。
まあ、こつこつと手動により自分のブログに記事をコピペしても同じことではありますが。。。
必然的に検索結果は悪いものになっていくのは目に見えていますよね?
google側が考えることとすればフィルターをかけることだろうと思います。
ただ中には許可をうけてやっていることもありますからその辺の判断はとても難しい物になると思いますがその辺はわかりません。
そしてフィルターが成功したとします。
消された側からすれば世の中にすでにある内容では消されてしまうと考えると思いませんか?
ではまだgoogleが拾っていない内容を自サイト内に入れてしまえばいいのです。
そうです。世の中に無限にある動的サイトをクロールして自サイトに組み込む。
でもただクロールしただけでは、そのサイトの管理者になんぞや?
とクレームが発生しかねない。ならリンクしてあげよう。
リンクされて怒る人は少ない。
というところから発生しているのではないかと私は考えています。
まあ、半分は解析から半分は推測からきている今回の記事ですが、webスパムといわれるものも水面下ではいたちごっこの戦いが他のサイトを巻き込んでものすごい勢いで行われていることがわかります。
google側もたくさんの世界にほこる頭脳をもっていますからできうる改善は日々行っているようです。
前回の検索エンジン上位表示の一要素としてのクッキーもそうですが、やはりHPは本来のSEOサイト閲覧者が見たいサイトを作ることが大変重要な要素になってくると思います。