データ

http://ameblo.jp/asuka-layout/entry-10022157880.htmlを読んでまして、Rayさんの書かれている出現率に、若干の違和感を感じましたので、私の使っているデータを出現率順にしてみました。http://d.hatena.ne.jp/ytqwerty/20060704#p1で集めたデータにketttさんのデータなども加えた8万字データです。

4948 5.818%
4487 5.276%
4464 5.249%
4327 5.088%
3838 4.513%
3616 4.252%
3420 4.021%
3018 3.548%
2713 3.190%
2509 2.950%
2332 2.742%
2060 2.422%
2059 2.421%
2053 2.414%
2013 2.367%
1928 2.267%
1859 2.186%
1772 2.083%
1759 2.068%
1551 1.824%
1521 1.788%
1400 1.646%
1364 1.604%
1330 1.564%
1287 1.513%
1249 1.469%
1242 1.460%
1222 1.437%
1183 1.391%
1161 1.365%
1002 1.178%
960 1.129%
887 1.043%
876 1.030%
850 0.999%
823 0.968%
819 0.963%
813 0.956%
791 0.930%
737 0.867%
659 0.775%
646 0.760%
626 0.736%
598 0.703%
526 0.618%
524 0.616%
483 0.568%
463 0.544%
428 0.503%
381 0.448%
297 0.349%
291 0.342%
286 0.336%
267 0.314%
90 0.106%
72 0.085%
65 0.076%
50 0.059%
29 0.034%
19 0.022%
8 0.009%

濁点が別で清濁音そのものは一緒くたにしている点に注意ください。
で、気になりました点。

「ぁぃぅぇぉ」が0.01〜0.03%の低出現率

このデータでは「ぁ」が0.085%もある一方で、「ぅ」は0.009%に過ぎません。私が集めそうな文章の傾向として、「ファイル」等のPC用語がRayさんの触れる文章の傾向よりも突出していること、一方で「ぅ」はまるで使わない(ながら0%はいくらなんでもってことでサンプルには一応入れている)ため、母数が大きくなるにつれてパーセンテージは減っていくからでしょう。「ぉ」は「フォント」なんかをもっと含むようにすれば「ぇ」と同じ0.05%程度には伸びると思います。
また、「ゃゅょ」を頻度を多少無視しても速く打てるようにするべきなのであれば、「ぁぃぇぉ」も同様でしょう。幸い「ぁぃぇぉ」はイ段全てに絡む「ゃゅょ」と異なり、使う組み合わせなんて限られてますのでというかほとんど「ふ」「う」「ヴ」の後で、他は「しぇ/じぇ」「てぃ/でぃ」ぐらいですので、隅に追いやってなおかつある程度打ちやすくすることができます。その点飛鳥は若干ヴァンパイアやヴォーカルには冷たいのではないでしょうか。速く打ちたい要求がある分「ぬ」より大事な文字です。「ぅ」はどうでもいいです……実用するのってアンドゥトロアぐらいじゃないですか。ヴァンパイアやヴォーカルが大事でアンドゥトロアがどうでもいいというのは勿論偏見ですけど。
同様に「ゃゅょ」の割合もRayさんの「2ちゃんデータ」よりも更に高くなっています。

あと、関係ないところに言及しますと、清濁を分けますと3面になりますが、覚えやすさ云々とは別に、2面だと辛うじてどうにかなっても3面だと混乱してしまうバカがここに若干一名ほど居ますハイ。日頃配列のことばかり考えているならともかく、他の事やっているときは配列のことなんて頭から消したいわけで、無意識レベルまで練習したところで後天的に習得したものである以上脳のリソース喰ってるわけですよ。負担が25%も節約できるならそれは超重要と思います。3面から2面にできるなら33%です。ローマ字は多段シフトと見るのをやめてローマ字と見れば1面なわけで3面からすると66%使うキーはそれ以下なので相当な節約です。JISかなも同様のはずですが4段ですのでちょっとさっ引かないといけません。

……ところで清濁で言えばhttp://d.hatena.ne.jp/maple_magician/20061225/1167062695の案面白そうですね。清音と同じ音の濁音の組が打ち易そうです。

満足度優先配列理論

人間は、配列の満足度をどう感じ取っているのでしょうか。
5%の大頻度を誇る「ん」は、ほぼ全ての文字に絡みますので、決して同指や跳躍を無くすことはできません。そこで、いろいろな工夫を凝らして、「ん」の前後での悪運指が0.1%減ったところで、5%の1/50です。
「ぁ」は、データにも依るでしょうけど、0.0n%です。仮に0.08%としましょう。「ぬ」も、データにも依るでしょうけど、0.03%としましょう。これらは先の0.1%以下ですが、低頻度文字だけに、絡む文字なんて決まってますので、凄く容易に悪運指を減らすことができます。
「ぬ」絡みの悪運指を0%にするために、「ん」絡みの悪運指が0.2%増えたとします。
真っ当な配列作者なら、こんな「改善」はしません。
しかし、考えてみてください。
「ん」絡みを改善するために、「ぬ」絡みが全て悪運指になってしまう!しかし「ぬ」は低頻度なので完全無視してもトータルの数値は良くなる!これでいいのでしょうか!?
いや、良くない!(反語)
「ん」絡みを0.1%改善しても、体感できるのは、1/50です。
「ぬ」絡みを最悪の状態から最良の状態に改善すると、数値上は0.03%の改善に過ぎませんが、体感できるのは、実に1/1です。引き換えに「ん」が2/50悪化しても、ほぼ体感できませんので無視できます。
そして、そうやって、打ち易い低頻度キー/かなを増やして行くと、トータルでの数値は悪化していくにも関らず、打ち易く感じるキー/かなの割合は、どんどん増加していきます。
「あいうえお」のうち、「い」と「う」がダントツで多くてそれに比べれば「あ」「え」「お」は無視できるぐらいといっても、「い」と「う」が打ち易くて「あ」「え」「お」が打ちにくい配列の満足度は2/5であり、「あ」「え」「お」が打ち易くて「い」と「う」が打ちにくい配列の満足度は3/5で、後者の勝利なのです!そう、雨が降る確率も事故に遭う確率も宝くじが当たる確率もいつも1/2なのです。
さあ配列作者の皆さん!従来の評価関数は捨てましょう。代わりに、あるキーに絡む悪運指率の合計を評価関数としましょう。トータルで打ち易い打ちにくいなんてのは人間実感できませんので無視しましょう。そして、年末の宝くじを買いましょう。ゆくゆくは、あの時は宝くじを主催するだけの資金があれば一生遊べますよねなんて言いましたけど、やっぱり宝くじ屋って儲かりそうと思い直しかけている私が発行しようとしているサギくじ(1枚10おくえん、1等前後賞あわせてなんと大出血100円)を買ってください。なおサギくじのアイデアはここにGBL*1で公開しますので、もし実践される方は私に10おくえんください。
……4月1日に取っておきたいような内容でしたね。

*1:Generic Billion Licence, FAQはhttp://shinh.skr.jp/m/?date=20060910#p06にあります。
ちなみに本ケースでは、正確には、GBLをソフトウェア用から文書用に修正したGeneric Billion Document LicenceことGBDLということになるでしょうか。

GBL

マウスカーソルxor特許や、アイコン特許みたいな訴訟を防ぐために、ちょろっと思いついた「実践されたくない」ことを、あらかじめGBLと主張しておくのはアリではないかと少し頭を掠めたバカがここに若干一名。
そのためにもGBLの早期法的文書化が求められております。(←バカ)

追記
ちょっと自分でわけわからなくなってきたのでdelさせてくださいゆっくり考え直します。
他には、技術系クイズの裏技的冗談解法で題意は満たすけど実際使うとマズイやつを、真面目な回答を装って書く時に、GBLと書き足しておくと冗談と理解して貰えるかも……。