No:129 Time[2008-01-17 05:39:33]
何故検索エンジンは大手ばかりが手がけるのでしょうか?
ずばり、従来型だとできないからです。
検索エンジンを作るということは、基本的には、世界中のHPのコピーを自社のサーバー
に入れておくことと等しいのです。
だから、サーバーも何千台下手したら何万台も必要になってきます。
だから大手しかできないのです。
でよくクローラーが何度も何度もくることを不思議に思いませんか?
一度収集したなら少なくても同じHPはまたクロールする必要はないですよね。
もちろん、ある程度の同期はとれていますが、サーバーが何万台とかになると、
同期をとるだけでも大変なことになります。
とまあ、ここまでは、収集のことでしたが、次は検索のことを考えてみたいと思います。相手は世界のHPのデータベースです。
でも検索エンジンってすぐ表示しますよね?
基本的にはすぐ表示します。
例えばseoと検索して何時間もまたせますか?
でも相手は世界のデータです。
SQLを使ったことがある人ならおわかりですね?
世界のデータを検索させるなのてのは、一つのテーブルでは不可能だということを。
ではどうするか?

これが大雑把な予想図です。
通常検索例えばseoというキーワードに対しては、順位変動がないかぎり、その瞬間瞬間では同じ検索結果が返ってきます。
したがって、閲覧者がまず検索エンジンで見ているランキングは、キーワードに対するあらかじめ作られたランキングリストです。
ということはどういうことか?
最新のものではないということです。
ではどの段階でリストは作られるか?
初めていれるような単語では、キーワードに対してのリストがありません。(基本的に)
その場合は世界のデータベースを収めているサーバー郡に同時に検索をかけます。
その瞬間何万というサーバーを一瞬動かしたことになります(笑)
でその瞬間にリストが作られ、次回の更新が行われるまで同じ検索結果が表示される。
また、こういった原理なんだろうと、私は想像します。
そうでなければ、検索するたびに何万台ものサーバーを使ってしまては、世界の人が使うということを考えれば、とてもパンクしてしまいますものね。
尚、これは私が作るならこうするなという大雑把な原理なのでもしかしたら違うかもしれませんよ。
ずばり、従来型だとできないからです。
検索エンジンを作るということは、基本的には、世界中のHPのコピーを自社のサーバー
に入れておくことと等しいのです。
だから、サーバーも何千台下手したら何万台も必要になってきます。
だから大手しかできないのです。
でよくクローラーが何度も何度もくることを不思議に思いませんか?
一度収集したなら少なくても同じHPはまたクロールする必要はないですよね。
もちろん、ある程度の同期はとれていますが、サーバーが何万台とかになると、
同期をとるだけでも大変なことになります。
とまあ、ここまでは、収集のことでしたが、次は検索のことを考えてみたいと思います。相手は世界のHPのデータベースです。
でも検索エンジンってすぐ表示しますよね?
基本的にはすぐ表示します。
例えばseoと検索して何時間もまたせますか?
でも相手は世界のデータです。
SQLを使ったことがある人ならおわかりですね?
世界のデータを検索させるなのてのは、一つのテーブルでは不可能だということを。
ではどうするか?

これが大雑把な予想図です。
通常検索例えばseoというキーワードに対しては、順位変動がないかぎり、その瞬間瞬間では同じ検索結果が返ってきます。
したがって、閲覧者がまず検索エンジンで見ているランキングは、キーワードに対するあらかじめ作られたランキングリストです。
ということはどういうことか?
最新のものではないということです。
ではどの段階でリストは作られるか?
初めていれるような単語では、キーワードに対してのリストがありません。(基本的に)
その場合は世界のデータベースを収めているサーバー郡に同時に検索をかけます。
その瞬間何万というサーバーを一瞬動かしたことになります(笑)
でその瞬間にリストが作られ、次回の更新が行われるまで同じ検索結果が表示される。
また、こういった原理なんだろうと、私は想像します。
そうでなければ、検索するたびに何万台ものサーバーを使ってしまては、世界の人が使うということを考えれば、とてもパンクしてしまいますものね。
尚、これは私が作るならこうするなという大雑把な原理なのでもしかしたら違うかもしれませんよ。
No:127 Time[2008-01-16 08:03:57]
seo的に一番何のコードで書くといいでしょうか?
UTF-8です。
グーグルもこれになってます。
プログラム作るのも楽です。
何が楽かというのは、文字化けしないからです。
欠点は表現するコードが大きい分データは重くなります。
といっても今の時代そんなことは関係ありません。
どうせなら、sqlも、phpもutf-8で統一してしまいましょう。
後で色々悩む必要もなくなります。たまに、ごちゃごちゃで作ると
phpで変換、SQLで変換なんてことが勝手に行われたりすることもあります。
なので最初からUTF-8です。
UTF-8です。
グーグルもこれになってます。
プログラム作るのも楽です。
何が楽かというのは、文字化けしないからです。
欠点は表現するコードが大きい分データは重くなります。
といっても今の時代そんなことは関係ありません。
どうせなら、sqlも、phpもutf-8で統一してしまいましょう。
後で色々悩む必要もなくなります。たまに、ごちゃごちゃで作ると
phpで変換、SQLで変換なんてことが勝手に行われたりすることもあります。
なので最初からUTF-8です。
No:126 Time[2008-01-16 07:47:45]
前々から思っていたことですが、googleの場合、必ずしもトップページを表示するわけではありません、サブファイルのページも含めて内容が検索したキーワードに対して、遜色ないのであれば、バックリンクされたURLを検索結果の上位にもっていきます。[seoダイアリー]で検索してみたください。現在の段階ではサブページが一番に出てくると思います。
これは、開発したソフトを公開するために、リンクを始めてはったためだと思います。
今の段階では、まだまだ、googleのバックリンクの比重は結構高いのだなと思いますが、まあ、ウエイトはいずれ落ちてくるでしょうね。
これから考えれられる方向性としては、検索者が検索したキーワードに対して、求めている検索結果を今まで検索した人たちがどのページで満足したかのデータにもとずく、検索結果の表示、将来的には、個々の検索者の趣味、方向性を加味した、検索結果の表示。まあ、これには今の段階だとクッキーを使う、クッキー拒否者は従来のみたいな。感じでしょうが、そうなってくると検索結果が人によって違うわけですから、seoも難しくなりますね。
ただ、携帯を無料で配るといった戦略は本人を特定するにはもってこいですからね。
そういう方向なのでしょう。。。
これは、開発したソフトを公開するために、リンクを始めてはったためだと思います。
今の段階では、まだまだ、googleのバックリンクの比重は結構高いのだなと思いますが、まあ、ウエイトはいずれ落ちてくるでしょうね。
これから考えれられる方向性としては、検索者が検索したキーワードに対して、求めている検索結果を今まで検索した人たちがどのページで満足したかのデータにもとずく、検索結果の表示、将来的には、個々の検索者の趣味、方向性を加味した、検索結果の表示。まあ、これには今の段階だとクッキーを使う、クッキー拒否者は従来のみたいな。感じでしょうが、そうなってくると検索結果が人によって違うわけですから、seoも難しくなりますね。
ただ、携帯を無料で配るといった戦略は本人を特定するにはもってこいですからね。
そういう方向なのでしょう。。。
No:125 Time[2008-01-15 04:34:32]
特許番号6,526,440
というものでgoogleの特許が公開されています。
http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN%2F6526440
時間!(こればかりは、seoうんぬんではありません。)
キーワードに関連コンテンツ中に含まれる同じ言葉の数
一定期間によって異なった検索結果を導くキーワード
情報の新しさ(鮮度)
ある一定期間にページへのリンク増減(バックリンク関係)
リンクの新鮮さ(バックリンク関係)
アンカーテキスト(画像よりテキストのほうがいいとうことらしい)の変化
トラフィックパターン(googleから流れるリンクのパターン?それともまさか、バックボーン系から測定してるとかではないよね?)
ユーザがそのページに滞在した時間(依然推測でかいたようなことですね。)
ドメインに情報(nicの会員にgoogleがなったと聞いたことありますもんね)
過去ランキング
など、のようですがなんせ古いですからね。
今じゃAIを駆使してより鮮度があがってるかもしれませんね。
まあ、検索結果からいうとまだのようですが。。。。
というものでgoogleの特許が公開されています。
http://patft.uspto.gov/netacgi/nph-Parser?Sect2=PTO1&Sect2=HITOFF&p=1&u=%2Fnetahtml%2FPTO%2Fsearch-bool.html&r=1&f=G&l=50&d=PALL&RefSrch=yes&Query=PN%2F6526440
時間!(こればかりは、seoうんぬんではありません。)
キーワードに関連コンテンツ中に含まれる同じ言葉の数
一定期間によって異なった検索結果を導くキーワード
情報の新しさ(鮮度)
ある一定期間にページへのリンク増減(バックリンク関係)
リンクの新鮮さ(バックリンク関係)
アンカーテキスト(画像よりテキストのほうがいいとうことらしい)の変化
トラフィックパターン(googleから流れるリンクのパターン?それともまさか、バックボーン系から測定してるとかではないよね?)
ユーザがそのページに滞在した時間(依然推測でかいたようなことですね。)
ドメインに情報(nicの会員にgoogleがなったと聞いたことありますもんね)
過去ランキング
など、のようですがなんせ古いですからね。
今じゃAIを駆使してより鮮度があがってるかもしれませんね。
まあ、検索結果からいうとまだのようですが。。。。
No:122 Time[2008-01-15 03:27:59]
まあ、私も依然このサイトではないですよ、google八部されました。
八部されるとどうなるかといいますとまずページランクが0もつきません。
そして、インデックスから消されます。
googleで
site:www.seo-diary.com
のようにしても出てこなくなります。
で私の場合は、どこが悪かったのか推測し、訂正後に多分ここが悪かったのですね。
修正しましたので又インデックスしてくださいと
https://www.google.com/webmasters/tools/siteoverview?hl=ja
の再審査をリクエスト
からお願いしました。
悪かったと思われる部分があっていたらしく、再インデックスしてくれました。
期間的には一ヶ月くらいでした。
又このウェブマスターツールなるgoogleのツールsitemapの製作機能もありますが
それよりも気になったのが有料リンクを報告というものがあることです。
グーグルがページランクの高いサイトからのリンクを売る行為を禁止したことは、
最近話題になった通りでweb裏技さんなどはまさにこれにあたるのだと思いますが、
この部分はどうやら機械的なシステムの操作ではなく、人力によるものも含まれているようですね。まあ、この部分の解釈ってかなり難しいとは思いますが、要するにページランクを売るような行為自体を罰しているようです。つまりページランクが高いサイトからリンクされているというだけで、そのサイトのページランクを上げてしまうと実は大したサイトではない場合、検索した人はgoogleの検索精度を疑うわけですから、問題になるわけですが、じゃあ自分のサイトならいいのか?という話ですが、依然サイバーエージェントが全サービスを相互リンクして抹消されたことがあります。
まあ、この場合相互リンク自信が問題だったのか、小さいすぎるリンクでユーザーに対するものでなくどうみても、bot対策であるということからですかね?
まあ、どちらにしても、googleは検索ユーザーの方向、検索品質の方向をみていますから、やりすぎいかんということですね。
八部されるとどうなるかといいますとまずページランクが0もつきません。
そして、インデックスから消されます。
googleで
site:www.seo-diary.com
のようにしても出てこなくなります。
で私の場合は、どこが悪かったのか推測し、訂正後に多分ここが悪かったのですね。
修正しましたので又インデックスしてくださいと
https://www.google.com/webmasters/tools/siteoverview?hl=ja
の再審査をリクエスト
からお願いしました。
悪かったと思われる部分があっていたらしく、再インデックスしてくれました。
期間的には一ヶ月くらいでした。
又このウェブマスターツールなるgoogleのツールsitemapの製作機能もありますが
それよりも気になったのが有料リンクを報告というものがあることです。
グーグルがページランクの高いサイトからのリンクを売る行為を禁止したことは、
最近話題になった通りでweb裏技さんなどはまさにこれにあたるのだと思いますが、
この部分はどうやら機械的なシステムの操作ではなく、人力によるものも含まれているようですね。まあ、この部分の解釈ってかなり難しいとは思いますが、要するにページランクを売るような行為自体を罰しているようです。つまりページランクが高いサイトからリンクされているというだけで、そのサイトのページランクを上げてしまうと実は大したサイトではない場合、検索した人はgoogleの検索精度を疑うわけですから、問題になるわけですが、じゃあ自分のサイトならいいのか?という話ですが、依然サイバーエージェントが全サービスを相互リンクして抹消されたことがあります。
まあ、この場合相互リンク自信が問題だったのか、小さいすぎるリンクでユーザーに対するものでなくどうみても、bot対策であるということからですかね?
まあ、どちらにしても、googleは検索ユーザーの方向、検索品質の方向をみていますから、やりすぎいかんということですね。
その他記事一覧