統計情報

2008年6月19日から8月28日までの間に収集した、当ツールにおける解析結果の統計情報をまとめておきます(現在はデータの収集を終了しています)。この期間内に当ツールをご利用いただいた多くの皆さま、心より御礼申し上げます。

※営業行為を目的とした資料に用いることはお断りしますが、それ以外の引用については特にご連絡いただく必要はありません。引用の際は、このページのURL(Webの場合はリンクも)、及び、当ツールの制作者(松下健次郎)の氏名を「引用元」として記載してください。


1.調査期間と取得情報

2008年6月19日から2008年8月28日までの間にかけて、以下の情報を収集しました。期間内、本ツールを使った解析の全てを対象にしています。

  • 総解析回数(1リクエストごとの累積)
  • 1つでも問題が見つかった解析の回数
  • 解析により問題とされた語句と、それぞれの検出回数と、それぞれの問題種目(3大分類・16小分類 凡例説明ページを参照のこと)

2.標本数

期間内の総解析回数は15914回、そのうち1つでも問題が見つかったものが10296回です。

総解析回数と問題の見つかった解析回数の割合

3.検出された問題の内訳

解析結果全体を通して、延べ52074点の問題が見つかりました。

当ツールの大分類でみると、「基本」に該当する問題が3413点(7%弱)、「難読」に該当する問題が34072点(約65%)、続いて「品質」に該当する問題が14589点(約28%)となっています。

当ツールの大分類で見た問題の傾向

小分類別の内訳は以下の通りです(割合順)。

種目該当点数問題全体に対する割合
合計52074100.00%
一般的にはより平易な表記が望ましい言葉2420046.47%
助詞不足1368526.28%
常用漢字表外の漢字653712.55%
略語26105.01%
機種依存文字(環境依存文字)19433.73%
仮名表記が望ましい当て字7251.39%
禁忌・不快語5301.02%
冗長表現4860.93%
二重否定4180.80%
誤字・誤変換3320.64%
固有名詞表記の間違い1800.35%
登録商標など不用意に使うべきでない用語1270.24%
ら抜き言葉1180.23%
言葉の誤用980.19%
外国地名表記の間違い820.16%
人名表記の間違い30.01%
当ツールの小分類で見た問題の傾向

4.検出語句 上位100選

解析全体で10178語句が「問題のあるもの」として検出されました。参考までに上位100位までの語句を掲載しておきます。

語句種目検出回数問題全体に対する割合
一般的にはより平易な表記が望ましい言葉14432.77%
一般的にはより平易な表記が望ましい言葉12952.49%
一般的にはより平易な表記が望ましい言葉7341.41%
サーバ一般的にはより平易な表記が望ましい言葉7141.37%
Web一般的にはより平易な表記が望ましい言葉7031.35%
他の一般的にはより平易な表記が望ましい言葉5861.13%
一般的にはより平易な表記が望ましい言葉5621.08%
機種依存文字(環境依存文字)4990.96%
宜しく一般的にはより平易な表記が望ましい言葉4750.91%
機種依存文字(環境依存文字)4650.89%
全て一般的にはより平易な表記が望ましい言葉4310.83%
様々一般的にはより平易な表記が望ましい言葉4040.78%
その他一般的にはより平易な表記が望ましい言葉3850.74%
お疲れ様一般的にはより平易な表記が望ましい言葉3730.72%
ことができます冗長表現3530.68%
出来一般的にはより平易な表記が望ましい言葉3330.64%
機種依存文字(環境依存文字)3180.61%
下さい一般的にはより平易な表記が望ましい言葉3110.60%
ユーザ一般的にはより平易な表記が望ましい言葉2800.54%
ヶ月一般的にはより平易な表記が望ましい言葉2800.54%
一般的にはより平易な表記が望ましい言葉2730.52%
是非一般的にはより平易な表記が望ましい言葉2710.52%
超え一般的にはより平易な表記が望ましい言葉2690.52%
一般的にはより平易な表記が望ましい言葉2530.49%
常用漢字表外の漢字2500.48%
関わ一般的にはより平易な表記が望ましい言葉2480.48%
ソフトウェア誤字・誤変換2430.47%
既に一般的にはより平易な表記が望ましい言葉2320.45%
行な一般的にはより平易な表記が望ましい言葉2290.44%
一般的にはより平易な表記が望ましい言葉2290.44%
フォルダ一般的にはより平易な表記が望ましい言葉2170.42%
申し上げ一般的にはより平易な表記が望ましい言葉2150.41%
全く一般的にはより平易な表記が望ましい言葉1990.38%
色々一般的にはより平易な表記が望ましい言葉1940.37%
子供一般的にはより平易な表記が望ましい言葉1910.37%
OS略語1820.35%
IT略語1780.34%
箇所一般的にはより平易な表記が望ましい言葉1770.34%
何卒一般的にはより平易な表記が望ましい言葉1770.34%
更に一般的にはより平易な表記が望ましい言葉1750.34%
一般的にはより平易な表記が望ましい言葉1700.33%
WEB一般的にはより平易な表記が望ましい言葉1630.31%
一般的にはより平易な表記が望ましい言葉1510.29%
友達一般的にはより平易な表記が望ましい言葉1470.28%
共に一般的にはより平易な表記が望ましい言葉1460.28%
一般的にはより平易な表記が望ましい言葉1430.27%
他に一般的にはより平易な表記が望ましい言葉1400.27%
我々一般的にはより平易な表記が望ましい言葉1390.27%
身体一般的にはより平易な表記が望ましい言葉1380.27%
一般的にはより平易な表記が望ましい言葉1360.26%
進捗一般的にはより平易な表記が望ましい言葉1280.25%
機種依存文字(環境依存文字)1260.24%
HP略語1260.24%
の上、一般的にはより平易な表記が望ましい言葉1220.23%
中から一般的にはより平易な表記が望ましい言葉1130.22%
活か一般的にはより平易な表記が望ましい言葉1100.21%
尚、一般的にはより平易な表記が望ましい言葉1100.21%
コンビニ略語1070.21%
素敵一般的にはより平易な表記が望ましい言葉1040.20%
メモリ一般的にはより平易な表記が望ましい言葉900.17%
脆弱性常用漢字表外の漢字890.17%
DVD略語880.17%
何故一般的にはより平易な表記が望ましい言葉880.17%
のもの冗長表現880.17%
機種依存文字(環境依存文字)860.17%
常用漢字表外の漢字830.16%
捉え常用漢字表外の漢字830.16%
いけない二重否定810.16%
一般的にはより平易な表記が望ましい言葉800.15%
但し一般的にはより平易な表記が望ましい言葉800.15%
可愛一般的にはより平易な表記が望ましい言葉790.15%
稼動一般的にはより平易な表記が望ましい言葉790.15%
アクセスし助詞不足770.15%
個所一般的にはより平易な表記が望ましい言葉760.15%
見出一般的にはより平易な表記が望ましい言葉760.15%
挨拶一般的にはより平易な表記が望ましい言葉760.15%
割引一般的にはより平易な表記が望ましい言葉740.14%
キャラクター一般的にはより平易な表記が望ましい言葉740.14%
常用漢字表外の漢字730.14%
繋が一般的にはより平易な表記が望ましい言葉730.14%
下さ一般的にはより平易な表記が望ましい言葉720.14%
BS略語710.14%
できない助詞不足710.14%
馬鹿禁忌・不快語680.13%
萌え常用漢字表外の漢字680.13%
一層一般的にはより平易な表記が望ましい言葉680.13%
カ月一般的にはより平易な表記が望ましい言葉680.13%
常用漢字表外の漢字670.13%
機種依存文字(環境依存文字)660.13%
お手伝い仮名表記が望ましい当て字650.12%
IC略語650.12%
一人ひとり仮名表記が望ましい当て字640.12%
FM略語640.12%
日頃一般的にはより平易な表記が望ましい言葉640.12%
上手一般的にはより平易な表記が望ましい言葉640.12%
AM略語630.12%
SE略語630.12%
一般的にはより平易な表記が望ましい言葉630.12%
越え一般的にはより平易な表記が望ましい言葉620.12%
毎に一般的にはより平易な表記が望ましい言葉610.12%

5.反省と今後

おかげさまで、いち編集ライターとしては大変参考になる資料が手に入りました。今回収集したデータは、当ツールのバージョンアップを検討する上での資料として、ベースとなるシステムを無償提供しているYahoo!JAPANに機能改善のリクエストを送る際の根拠として、当方の執筆活動・講演活動上のネタとして、その他様々な形で活用させていただく予定です(利用者を特定できる情報・利用者の著作権を侵すような情報は収集していませんので、どうぞご了承のほどを)。

もっとも、取得した情報の種類が少なすぎて、本格的な研究・マーケティングに役立つデータにならなかったことは、少々反省です。

たとえば、「2.標本数」を元に計算すると、チェックした文章の約3分の2に何らかの問題が見つかったことになります。また、「3.検出された問題の内訳」なども併せて考えると、チェックした文章1本あたり3.3箇所の問題が含まれていたことになります。しかし、以下のような理由から、単純に「一般的な原稿の約3分の2には何らかの問題がある」「一般的な原稿には約3~4箇所の要修正箇所がある」と結論づけることはできません。

  • 解析数には、当ツールで一度解析して修正した文章の再チェック、再々チェックが含まれていると思われるので、初回の解析ではもっと高い確率で問題が見つかっている可能性があります。
  • あえて問題が多そうな文章を用いた「お試しチェック」や、当ツールの利用を前提としたかなり粗い状態の原稿がチェックされた回数も、相当数含まれていると思われます。
  • 集計したデータの中には、チェック項目をカスタマイズした解析の結果も混ざっています。
  • そもそも「文章の間違い」をプログラム処理で判別することは難しく、解析の精度はそれほど高くありません。「4.検出語句 上位100選」を見ていただくと分かりやすいですが、状況によっては全く問題のないものもかなり引っかかっています。

思いつくだけでも、他にもいろいろ考えなければならないことがあります。本レポートは、あくまで限定された状況下における一つの「傾向」を知るための資料でしかないことを、どうぞお忘れなく。

まあ、元々それほど深い考えでデータを取り始めたわけではないので、現状でも大満足なのですが…ユニークユーザー数とか、解析された文章の文字数とか、1リクエスト当たりの問題の数とか、簡単に取得できる情報がまだまだあるので、そのうちまた時間があるときにでも、細部を見直して、調査を再開したいと思います。その際はアナウンスしますので、是非またご協力の程を。

もし、当ツールや類似のツールを使った統計情報の取得に興味をお持ちの研究者の方がいたら、どうぞお気軽に声をお掛けください。何かしらお助けいただけるのであれば、何かしらお手伝いさせていただく所存です。

文 : 2008/8/31 松下健次郎