チケット #12488

[pukiwiki stat] スパイク除去のお願い
登録: 2008-05-10 05:28 最終更新: 2014-07-22 23:25

報告者:
担当者:
(未割り当て)
チケットの種類:
状況:
完了
コンポーネント:
(未割り当て)
マイルストーン:
(未割り当て)
優先度:
5 - 中
重要度:
5 - 中
解決法:
なし
ファイル:
なし

詳細

pukiwiki project の heno と申します。
いつもお世話になっております。


統計情報において、異常なダウンロード数を報告する「日」
が発生しており、統計情報の機能(特にグラフによる推移の読
み取り)が損なわれている かのように見えています。
https://sourceforge.jp/project/stats/index.php?report=months&group_id=166

-----------------------
Month D/l
9 May 2008 -- 248
8 May 2008 -- 15,627 <= ココ
7 May 2008 -- 203
6 May 2008 -- 221
5 May 2008 -- 148
-----------------------

特徴:
- ありえない規模の数字が
- ありえない形(前後の期間に、正規分布の曲線のような影響
を与えない)で
- ありえないほどごく短い期間
発生している

これは異常なデータであろうと思われますので、
可能ならば原因の追究と修正を希望します。

正しい値が算出できないならば、いっそ0にしていただけると
グラフが実情に近づくため、大変助かります。



※先月も50000件程度カウントされた日が突如発生していまし
た。特徴は同じですが、異常さはより際立っています。不思
議に思っていたら、今回、GW明けではありますが、15000件程
度カウントされた日が発生していました。

※ファイルリリースの個別ダウンロード数も影響を受けている
のでしょうか・・・


お手数をおかけしますが、よろしくお願いします。

チケットの履歴 (11 件中 3 件表示)

2008-05-10 05:29 更新者: henoheno
  • (トラッカー上でのカテゴリーの変更)
2008-05-13 17:51 更新者: uramoto
コメント
Logged In: YES
user_id=271

ダウンロード数については、ログに残っているものを素直に集計し
ているだけとなります。
ログを確認しましたが、カウントは正常のようですが、異常な数の
アクセスがあったと考えられます。

将来的にはそのようなアクセスを除外して再カウントすることも検
討しています?
2008-06-15 18:32 更新者: k-uehara
コメント
Logged In: YES
user_id=1631

当プロジェクトにおいても同様の事例が発生しています。

https://sourceforge.jp/project/stats/
index.php?report=months&group_id=2861

2月に17万ダウンロードを記録しています。
システムバグではなく、アタック等によるカウントと言うことで
しょうか。
トータルDL数でもランキング入りしてしまってなんだか
恥ずかしいです^^;
2008-07-04 21:44 更新者: henoheno
コメント
Logged In: YES
user_id=564

お世話になっております。
久しぶりにダウンロード数の様子を見ましたが

2008/05 5,158
2008/05 21,935
2008/04 6,014
2008/03 28,488
2008/02 5,880

https://sourceforge.jp/project/stats/index.php?report=months&group_id=2861

となっており、「4月に突然50,000件規模のダウンロードがカウン
トされた日があり、この時が初めて」という当方の認識に対し、3
月および4月の合計が 理解できない状態 になっている様に見えます。

いずれインフラごと SF.net の実装に乗り換える事によって
根本的な解消が成されるのであろうとは思っています。

2008-07-06 22:22 更新者: tach
コメント
Logged In: YES
user_id=101

sf.net でもおそらくこういった件に対する対処はあまりなされて
いないはずです。いくつかの件を調査しましたが、そのすべてが国
内のプロバイダから、特定 UA(ふつうのブラウザのアクセスに見
えるので、UA文字列での単純除外はできない)による連続アクセス
です。

また、本トラッキングの「4月に突然50,000件規模のダウンロード
がカウントされた日があり、この時が初めて」というのは、
pukiwiki プロジェクトのことですよね。
https://sourceforge.jp/project/stats/index.php?report=months&group_id=166

しかし、2008-07-04 21:44 のコメントでは、o2on プロジェクトの
URL になっています。
https://sourceforge.jp/project/stats/index.php?report=months&group_id=2861

勘違いであるのならいいのですが、もし pukiwiki プロジェクトの
件でしたら、どこが理解できない状態なのか、教えて頂けると助か
ります。

よろしくお願いします。
2008-07-06 22:26 更新者: tach
コメント
Logged In: YES
user_id=101

ともあれ、とりあえず20秒以内の連続ダウンロード記録に関しては
一つにまとめるようにコードを修正してみました。過去の記録の変
更は状況を見て行う方向で検討しています。記録の期間が長いです
し、修正のためのコードも存在しないので、やるとしても時間がか
かります。
ご了承ください。
2008-07-18 00:17 更新者: henoheno
コメント
Logged In: YES
user_id=564

お疲れ様です。
いつもお世話になっております。

> また、本トラッキングの「4月に突然50,000件規模の
> ダウンロードがカウントされた日があり、この時が
> 初めて」というのは、
> pukiwiki プロジェクトのことですよね。

ご指摘の通りでした。失礼しました。

> もし pukiwiki
> プロジェクトの件でしたら、どこが理解できない
> 状態なのか、教えて頂けると助かります。

詳細な記録を保存していないため、本トピックの記述と
自分の記憶だけが頼りとなりますが:

- 4月に50000件規模の異常な日を観測した
- 5月に15000件規模の異常な日を観測した
- 毎月発生しておったので、今後(6月以降)も続く事を予想してこ
のトピックを立てた

という状況であったはずのに

現在の数字では
- 4月にはそのような事実は無かった
- 50000件規模のダウンロードがなされた日は無かった
- 毎月連続で発生していなかった
という状況になっています。

この差が理解できません。
2008-07-18 14:32 更新者: tach
コメント
Logged In: YES
user_id=101

4月の件ですが、50000件規模のダウンロードがカウントされた日と
いうのは、すくなくともこちらの記録では存在しません。DB に
入っている統計データは変更していませんし、生データをざっくり
と確認しても、DB に入っている統計値と変わっている点はありま
せんでした。

以下、生ログを grep した結果です。実際の統計処理はもう少しき
ちんとチェックしているので、こちらの数値の方が多めに出ている
と思いますが、それでも数万を記録した日はありません。

% for f in 2008/04/??/downloads_http_access.log.gz; do
echo `dirname $f`; zgrep pukiwiki $f | wc -l
done
2008/04/01
211
2008/04/02
244
2008/04/03
245
2008/04/04
243
2008/04/05
119
2008/04/06
125
2008/04/07
217
2008/04/08
259
2008/04/09
260
2008/04/10
303
2008/04/11
242
2008/04/12
149
2008/04/13
134
2008/04/14
204
2008/04/15
360
2008/04/16
208
2008/04/17
296
2008/04/18
246
2008/04/19
152
2008/04/20
107
2008/04/21
244
2008/04/22
259
2008/04/23
210
2008/04/24
197
2008/04/25
185
2008/04/26
154
2008/04/27
136
2008/04/28
346
2008/04/29
153
2008/04/30
216

3月30日に20000強、5月8日に15000強の記録はありますが、それ以
外では一万を超えている日はありません。
2008-11-26 19:57 更新者: sado
2008-11-26 20:33 更新者: tach
2014-07-22 23:25 更新者: henoheno
  • 状況オープン から 完了 に更新されました
  • チケット完了時刻2014-07-22 23:25 に更新されました
コメント

遅ればせながら、本件一旦完了とさせていただきます。

ファイルリリースをした後に 統計を見て一喜一憂するのは一つの楽しみでありますが、 昨今はwildすぎてその見守りも難しいところがあるかもしれないですね。

ご対応いただき、誠にありがとうございました。

添付ファイルリスト

添付ファイルはありません

編集

ログインしていません。ログインしていない状態では、コメントに記載者の記録が残りません。 » ログインする