FrontPage  Index  Search  Changes  Login

FrontPage

ようこそ

このサイトでは、茶漉についての情報を流しつつ、ユーザからのコメントを募りたいと思います。こんな使い方をしたら便利とか、こんなことを発見したなど、何でも書き込んでください。もちろんバグ報告、新機能リクエストなどもどうぞ。

最新情報

2007年12月12日:茶漉の紹介論文を『日本語科学』に発表

国立国語研究所刊行の『日本語科学』22号(2007年10月)コーパス日本語学特集号に茶漉の紹介論文が載りました!

2007年11月2日:スパンの二重取り込み防止

例えば、キーワードが「する」でスパンが前3後3の場合、スパンが「粗末 - に - する - 、- 粗末 - に - する」だと、最初の「する」のスパンを取り込む時に両方の「粗末」が、二つ目の「する」のスパンを取り込む時に二つ目の「粗末」が再度取り込まれます。つまり同一トークンが二度カウントされることになります。そうすると「粗末」のコーパス全体の中の頻度よりスパン内頻度の方が高くなるという不具合が起こります。そこで同一のトークンは一度しかカウントされないようにプログラムを修正しました。さらに、この作業中に、スパン語数(取り込んだ語の数)の計算のアルゴリズムに誤りがあることが発覚しましたので、これもあわせて修正しました。

2007年10月7日:ソート機能追加

コロケーション出力の表を自由に何度もソートできるようにしました。出力が出たところで、例えばtスコアの見出しをクリックするとtスコア昇順に、同じ見出しを再度クリックすると降順になります。別の見出しをクリックすれば、今度はその見出しのコラムでソートされることになります。

2007年9月13日:Gスコア算出機能追加作業中

既にコロケーション出力の中にGスコアが出ますが、まだアルゴリズムの確認中ですので、出てくる値は信用しないでください。

2007年8月12日:全活用形アルゴリズムの修正

今までは、kwの全活用形指定を実現するのに、「あせる」なら「あせっ|あせる|あせれ」と展開するというやり方をしていました。ところがこの方法だと活用形が同一だが基本形が違う二形式がごっちゃになるという問題があることがわかりました。例えば、「分かれる」の連用形「分かれ」と「分かる」の仮定形「分かれ」は同一です。kw=分かる、全活用形、と指定して、「分かる」の展開形に「分かれ」が入ると、「分かれる」の連用形の例も一緒に引き出してきてしまうのです。終助詞「よ」と形容詞「よい」のガル接続形「よ」でも同様の問題が起きます。そこで「あせる」を展開する時に、「あせっ{あせる}|あせる{あせる}|あせれ{あせる}」のように基本形とペアにして処理するアルゴリズムに変更しました。これで上記の問題はすべて解決します。

2007年8月12日:品詞指定の仕様変更

品詞指定のスペックが変わりました。以前は茶筌が出力する品詞情報の文字列の部分マッチをしていました。利点もありますが、「動詞」と指定すると「形容動詞」も「助動詞」もマッチしてしまい不具合が生じます。また「助詞」と指定すると「副詞-助詞類接続」にマッチしてしまいます。そこで部分マッチではなく完全マッチに仕様を変更しました。ハイホンで区切られた品詞情報を一つずつ完全マッチするかどうか調べていくわけです。

2007年7月8日:デバッグモード追加

文数指定で前=99、後=99とすると、各語の後に品詞情報が付加された形で、1文全体が出力されるようにしました。kwic出力結果に納得がいかない場合に、これがデバッグに役立つだろうと思います。

Last modified:2008/08/12 12:30:13
Keyword(s):
References: