キーワード紛争「ましゅ」の巻 そのなな
正直意図を捕みかねているところもあるのだが、考えは伝わった*1ようなので、個人的にはサイレント紛争ウォッチャーに戻ります。
それだけではなんなので、キーワード自動リンクに関してパッと思いついたシステム案をメモ。
- 形態素解析かける
- 茶筅とかつかって形態素解析かけちゃえば、それなりに単語を分割してくれて品詞も付けてくれるので、「なっち」「なっちゃう」みたいな誤爆は防げるはず。でも形態素解析で使う辞書を登録されたキーワードに応じてアップデートしたりメンテナンスする必要があるかもしれない。当然処理はより重くなる。
- キーワードページの日記へのリンクに要約をつける
- キーワードページに補足された各ユーザーの日記へのリンクの横に、ヒットした文章を部分的につける。googleの要約のイメージ。キーワード繋がりで他のユーザーを探すときに、直接日記を見なくても、そこを見れば明らかなミスヒットがわかるように。
- キーワードにヒットよけキーワードをつける
- 今、誤爆を防ぐためにそのキーワードを含むキーワードを登録する、という手法がとられることがあるようだ。これらをわざわざキーワードとして登録せずに、ヒットよけキーワードとして登録できるようにしたらどうか。例えば、「コント」を登録するときには「コントロール」「コントローラ」「コントラスト」をヒットよけキーワードとして登録しておく*2。キーワード(ここでは「コント」)が日記に存在していても、それらがヒットよけキーワード(「コントローラ」とか)にもヒットするなら自動リンクは行わない。これで、登録時に想定されるミスヒットを減らすことができるのではないか。勿論、ヒットよけキーワードを後で他の人が追加してもよし。
「0->1,1->10」の話に関連してちょっと補足。
これらの処理はいまあるキーワードデータをなんら変更することなく行える。過去にあった「のの」騒動なんていうのも、アンチキーワードで回避できる率は高いはず。処理は重くなるかもしれないけど、どれも技術的には十分実行可能。パッと思いつくだけでもこれだけ出てくるのだから、ちゃーんと賢い人が考えればもっと素晴しいアイデアがでてくるでしょう。
現状のシステムにとらわれてキーワードを削除してしまうと、この「ありえるかもしれない将来」で救えたはずのキーワードが全く救えなくなってしまう。はてなのキーワード自動リンクシステムに一番重要なキーワードの多様性を、今のシステムの枠組にこだわるあまりに潰してしまうのはあまりにもったいない。
はてなは発展途上のシステムなんでしょ?ミッションクリティカルなシステムでもあるまいし、もっと自由にいきましょうよ。
*1:賛意のリファ?ありがとうございます
*2:この例は http://d.hatena.ne.jp/wata300/20040927#1096276800 よりかってに拝借