« カルカッタの思い出 | トップページ | イラク人質事件、さらに雑感 »

2004.04.23

日本版Googleの仕様が変わった

 昨日(22日)日本版Google(google.co.jp)に、特殊検索として、新たに「辞書検索」「路線検索」「株価検索」「会社情報検索」「荷物検索」の5種類が追加された。 どういうわけか、Googleのプレスセンターにはこのニュースはなく、インプレスの「日本のGoogleでも株価や路線、辞書などの特殊検索が可能に」(参照)にひょっこしニュースがある。


特殊検索では、検索時に特定語句をキーワードの前に挿入することで、通常の検索結果と異なる、パートナー企業と提携した検索結果が表示されるというもの。ツールバー「Google ツールバー」からでも利用できる。

 Googleツールバーから利用できるっていう意味がよくわからないが、ただあの検索欄でも使えるというだけのことか。なんか、プレスを垂れ流している感じがするが。
 各特殊検索については、インプレスの同記事に一応説明があるが、これも垂れ流し感があって、実例がない。ので、一例。こんな感じだ。

Google 検索: 英和 philandering


 結局、アルクを経由して英辞郎に入るだけだが、アルクのサイトが素でアクセスするとJavaScriptで弾かれるのよりはましかもしれない。同様に他の特殊検索もちょっと阿呆臭感が漂う。先日(20日)にGoogleの日本法人が渋谷に研究開発センターを設立したというので、成果もでそうにないのでと懸念したか、まずこんな風船でも上げてみたというところだろう。と、くさしたものの、キーワードの形態素解析は日々変わっているようで、最近は、細かい辞書引きレベルの形態素解析を処理途中で捨てて最長マッチングみたいなことをしているようだ。
 話をアルクを使った辞書引きに戻すと、このGetメソッドを見るに、以下のようにIEのSearchUriレジストリを書いてもよさそうだ、と、まだ試してないので、そんな感じというだけの話なので、やるなら「自己責任」でお願いしますよ。

http://www2.alc.co.jp/ejr/index.php?word_in=%s&word_in2=reedeirrf&word_in3=zJPa7DCxJ15687987t

 ちなみに、IEのSearchUriレジストリは以下にある。

HKEY_CURRENT_USER\Software\Microsoft\Internet Explorer\SearchUrl

 で、ようやく極東ブログのネタなのだが、このレジストリに私はgプリフィックスで以下を登録している。

http://www.google.com/search?q=%s&hl=ja&lr=lang_ja

 これが、昨日効かなくなった。google.comがいけねーのかとかオプションとかを調整してもだめぽ、なんで、いろいろトライしたが、どうやら、素でUTF-8を%sにパスしても、ダメなようだ。URIエンコーディングしか受け付けない。あるいは、もっと別のエンコードの理由かもしれないので、わかっている人がいたら、教えてくれ。(この問題は解決しました。それと、この説明には間違いがありました。追記をご覧下さい。)
 ついでに、Googleエンジンを使っている日本版infoseekはどうなっているかと調べてみたら、案の定、このタコな特殊検索は実装していない。っていうか、こっちはこっちで辞書引きサービスを提供しているので、まじーと思ったのだろう。gooも確かそろそろGoogle移行をするはずなので、サービス動向はちょっと気になる。で、思いついたのだが、Googleの渋谷センターってgooのNTTの日本語研究がらみなのか、このあたりの業界の動向は、あっち(米国)むいてホイの「SEOルートディレクトリ」(参照)には情報がなっかったようだが、なぜだ?
 話をSearchUrlの仕組みに戻して、これじゃメンドクセーじゃんということで、調べたのだが、%sにパスする前にUTF-8をURIエンコーディングにするスイッチがどっかにあるはず、っていうか、Windows XPはJScriptでも使えるけど、ECMAの勧告を真に受けて、escape関数の仕様を途中で変更し、encodeURI関数を実装しなおしたので、ま、内部で簡単にスイッチできるはずなのだが、レジストリがわかんねー、です。さらにわかんないのは、infoseekのSearchUrlでは、%sでUTF-8で渡してもURIエンコーディングに変わる…これはサーバー側でリライトしているのか? つうことで、よーするに、gプリフィックスでGoogle検索をする方法があったら、教えてくれぇ^2である。(これも間違い&追記で解決済み。)
 まいったな、いちいち、Googleの面を拝んで、「あ、今日はアースデイかぁ」と喜ぶ趣味はないので、もっとスクリプトに開いているSleipnirの検索欄の構造を見ていたのだが、こっちは意外に簡単だった。Seach.iniのEncodeスイッチを0から2にしてやればいい。例えば、「Google(日本語)」の場合なら、こうなる。

7行目
 SearchEngine0_Encode=0
  ↓
 SearchEngine0_Encode=2

 13行目の「Google(全体)」も同じなので、同様に手を加えることができるのだが、実際のアウトカムは「Google(日本語)」と同じ。これもなぜかよくわからん、というか、Googleの日本語サービスが使いづらく変更されている気がする。
 以上で、ネタはおしまい。
 話がなんか極東ブログらしくない? そーでもないんですよ。「Googleに問え。なぜ宇宙は存在し、生命は存在するのか?」(参照)もご参照あれ。

追記(同日)
 早々に便利なインフォをnaruseさんからいただきました。ありがとう。関心あるかたは、ご参照下さい。
http://finalvent.cocolog-nifty.com/fareastblog/2004/04/google.html#c194501
 エンコードについても、naruseさんのコメントが正しいと思います。つまり、素ではShift_JISがパスできず、UTF-8なら問題なし、というわけです。
 Sleipnirの設定ですが、iniファイルをいじらずに、オプション→検索バー→検索エンジンで、エンコードをUTF-8にするだけでできます。すぐに、iniファイルをいじるクセはよくないのかも。
 本文中に触れたアルクの直接字引はこのままで機能しました。けっこう便利です。ので、リソースにまとめました。
 http://homepage3.nifty.com/finalvent/resource/for_apr22_google.zip

追記(4/24)
 手前味噌ではないが、もしかすると、今回のGoogleの事態を「仕様変更」と断言したのは、当サイトが最初ではないか?
 と書いたら、どうやら窓の杜が22日なので、ここより早かったですね。

|

« カルカッタの思い出 | トップページ | イラク人質事件、さらに雑感 »

「ネット」カテゴリの記事

コメント

gooは2003年12月からGoogleに移行していますよ。

投稿: oshirase | 2004.04.23 11:07

こんにちわ
http://www.itmedia.co.jp/news/articles/0404/22/news032.html
と同じ話でしょうね。
http://www.google.com/search?q=%s&hl=ja&lr=lang_ja&ie=Shift_JIS
を指定するようにすれば動くようになります。(%sに渡る文字列はUTF-8でなく、Shift_JISです。)googleにURLescapeされていない文字列を受け取ったとき、今まではShift_JISとみなしていたが、昨日からUTF-8とみなすようになったのですね。いつかはする必要のあった変更を、たまたま昨日行った、ということでしょう。本来ならば衆知期間を置くべきだったのですけれど。。。
googleがinfoseekにOEMしているのは検索機能だけのようですね。「1+1」をgoogleすると計算結果が出ますが、infoseekでは"1+1"の検索結果が出ますし。
ECMAScriptはescapeとescapeURIとescapeURIComponentの微妙な違いが難しいですね。実装によっても異なりますし。

投稿: naruse | 2004.04.23 11:32

oshiraseさん、どもです。それは一応知っていて、NTT側の日本語処理技術をGoogleに提供しというあたりのつもりでした。ちょっと書き方が拙かったです。

naruseさん、ども。あ、これはいいインフォを戴きました。助かります。

投稿: finalvent | 2004.04.23 12:15

こんにちは、いつも興味深く読んでいます。

 22日には窓の杜に

「“Google”検索の仕様変更で検索結果が文字化けしてしまうソフトが続出」
http://www.forest.impress.co.jp/article/2004/04/22/google_cset.html

という記事が、メールマガジンとウェブサイトに掲載されていました。ご参考まで。

投稿: けいた | 2004.04.24 11:28

けいたさん、インフォどもです。窓杜のほうが「仕様変更」と見極めたのが早かったみたいですね。

投稿: finalvent | 2004.04.24 11:45

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 日本版Googleの仕様が変わった:

« カルカッタの思い出 | トップページ | イラク人質事件、さらに雑感 »