Facebook の facebookexternalhit が非公開URLにアクセスしているっぽい件【2013-04 追記あり】


今日(2012年5月15日)Webサーバログを見ていて気付いたが、Facebookのボット(?)facebookexternalhit が非公開URLにアクセスして来ている。

公開準備中の草稿ページに加え、および恐ろしいことに社内インターナルサイトのウェブアプリケーションのURLが含まれている。
このようなお行儀の悪い振る舞いは、2012年4月27日が最初。

以下のようにサイトには説明があるので、とりあえず質問メールを送ってみた。様子見。

Facebookサイトでの説明

サーバーのログにFacebookが記録されているのはなぜですか?

Facebookでは、ユーザーが他のユーザーに対して、面白いコンテンツを含んだリンクなどを送信することができます。Facebookでは一時的に特定の画像やリンク先を表示することによってホームページのタイトルや動画にタグされたものを表示できます。このシステムはユーザーがリンクを提供したときのみ情報を検索します。もしかしたら、他のユーザーがあなたのホームページからその他のユーザーにリンクを送ったからかもしれません。もし質問などがあればlegal@facebook.comまで連絡してください。

アクセスログ(一部伏字)

1.   69.171.224.6 – – [27/Apr/2012:21:56:09 +0900] “GET /cgi/xxxxxxx/edit.html?data_id=### HTTP/1.1” 401 1289 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
2.   66.220.146.245 – – [08/May/2012:14:55:00 +0900] “GET /support/276/ HTTP/1.1” 404 3753 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
3.   66.220.149.246 – – [08/May/2012:18:03:15 +0900] “GET /support/277/ HTTP/1.1” 404 3753 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
4.   69.171.228.251 – – [11/May/2012:15:37:18 +0900] “GET /support/280/ HTTP/1.1” 404 3771 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
5.   69.171.234.4 – – [11/May/2012:15:53:50 +0900] “GET /support/281/ HTTP/1.1” 404 3771 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
6.   66.220.146.246 – – [12/May/2012:11:03:32 +0900] “GET /cgi/xxxxxxx/edit.html?data_id=### HTTP/1.1” 401 1289 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
7.   69.171.229.250 – – [14/May/2012:15:50:25 +0900] “GET /support/###/ HTTP/1.1” 404 3751 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
8.   69.171.224.3 – – [14/May/2012:15:50:26 +0900] “GET /support/###/ HTTP/1.1” 404 3751 “-” “facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)”
1. 社内アプリ
2. 草稿の時点でアクセスあり, 公開 10/may
3. 草稿の時点でアクセスあり, 公開 14/may
4. 草稿の時点でアクセスあり, 公開 11/may 16:12 (<–全く別のステージングDBで準備中にアクセスがあったような?怖い…)
5. 草稿の時点でアクセスあり, 公開 11/may 16:10 (<–全く別のステージングDBで準備中にアクセスがあったような?怖い…)
6. 社内アプリ
7. 草稿の時点でアクセスあり, 公開予定 18/may/2012
8. 草稿の時点でアクセスあり, 公開予定 18/may/2012

IPアドレスを http://www.lookip.net/ で調べると、Facebook と出るので詐称ではなさそうだ。

2013年4月27日追記

2013年に入ってからのログを確認した所、社内アプリにアクセスして来るようなお行儀の悪い振る舞いは無くなった模様。
なぜこれらの URL を取得できていたかというと、「いいね!」ボタン等の組み込みの為にページに Facebook の API(指定された JavaScript) を組み込んでいるために、おそらく編集確認時に referer ページの URL 等を取得していたのだと思う。

参考情報

非公開ページを編集中にページを表示させて編集結果を確認すると、「いいね!」ボタン等が組み込んであれば Facebook 側からページの情報(例えば、ページのサムネールなど)を取得しにくる。まだ公開されていないページについては一旦「画像無し」または「アクセスできないURL」としての記録が Facebook に保存されてしまい、公開時にサムネールが表示されないなどの問題があったようだが、2013年4月現在では、個人的な体験としてはあまりこの問題には出会わない。アップデートサイクルが早くなったのかも。