2012年10月18日

今回はGoogleのWebマスター向けブログからの抜粋です。こんな記述がありました。

Google の言語認識
 (中略) 
Google では「lang」属性から文書型定義(DTD)まで、コードレベルの言語情報はすべて無視します。

がーん・・・無視するんですか。
そこだけで言語を判定していないにしても、少しくらいは参考にしていると思ったんですが、完全に無視とは・・・。

lang属性は正しく設定されていないことが多いため、あくまでページ内に書かれているテキストの言語で判断するとのこと。

この言語判定には、Google翻訳の「言語を検出する」と同じ機能が使われていると思います。
たまに多言語サイトで、ページのテキスト量が少なくてキャッチコピーが英語などの場合に、Google翻訳が言語を間違うことがありますが、コンテンツのテキストで言語を判定しているからなんですね。インドネシア語とマレー語を間違うことが多いのもそのためかも・・・

他にもこんな記述が注意事項として挙がっていました。

  • ページごとに使用する言語を統一すること
  • 原文と訳文を一緒に表示しないこと

ところで、Google が無視するからといって lang属性を設定しなくていいということにはなりません。

lang属性によってブラウザが適用するフォントが変化することが知られていますし、Google以外の検索エンジンはlang属性を参照しているかもしれません。多言語サイト制作では常に気にしておくことになるポイントですので、なるべく適正なマークアップを心がけましょう。

WEBチーム:堤

ida のインドネシア語翻訳+WEBサイト制作について詳しく見る