CGIについて


1.概要
 このCGIは入力された小説を解析し、台詞の割合や品詞頻度などの数値とともに、小説の傾向を示す簡単な診断結果を表示させます。
 基本的にはネット小説、さらに限定して言えばいわゆるSSと呼ばれる二次創作小説をデータの基礎としています。表示される診断、あるいはご自身が好きな作家さんの作品の結果と自らの作品の結果を比較するなどしてご利用ください。
 小論文や新聞記事なども解析することは一応可能となっていますが、その場合、ほとんど全てが小説の地の文扱いで解析されることになります。品詞の頻度などは参考になるでしょうが、診断はあてにならなくなることをご了承下さい。
 なお、品詞分解にはYahoo!デベロッパーネットワークの形態素解析APIを使用しています。

2.数値について
 形態素解析の結果の数値ですが、形容詞から助動詞は100文字あたりの品詞出現個数(個)を、終助詞から倒置法までは1文中にその表現が出てくる頻度(%)を示しています。名:動:形は自立語中に占める名詞・動詞・形容詞の比率を、MVRは動詞に対する形容詞類の割合を示しています。
 また終助詞以後の算出方法ですが、終助詞は文末に限らず全ての終助詞を頻度計算に含めています。体言止め/呼掛は文末にきている名詞の数を、連用中止法は句点および読点の手前に来ている連用形の品詞個数を、倒置法は文末が格助詞の個数をそれぞれ用いています。そのため厳密にはそれら表現手法に含まれないものも数に入っていますので、これらについてはおおよその目安として考えてください。

3.診断結果
 診断は全て地の文を対象として算出しています。
 特に複雑な計算を用いているわけではなく、対応する要素に対する評価を1文ずつ示しています。分かりにくいものとしては、口語評価では感動詞×終助詞を、指示語評価では連体詞を対象としています。
 また診断文中の”平均”は実際に平均をとったわけではなく、多数の(一部オリジナルを含む)SSをCGIでテストしていた間に、おおむね定まってきた評価軸を基にそう表現しています。例えば品詞によっては使用頻度が二極化しているものがあり、その中間を”平均”と表したりなどしています。

4.その他仕様
 キャラクター名などで、一部長い呼称は分割して認識されることがあるようです。その場合はやや名詞頻度が上がる可能性があります。
 一部半角記号は内部的に置換しています。また文字数などは基本的に全角かな・カナ・漢字を対象としています。改行も字数に含まれてはいません。
 台詞の解析対象となるのは「」で囲まれている部分のみです。『』や()、””などは地の文扱いとなっています。二重カギ括弧も正常に認識されません。
 原稿用紙換算は、いまのところ(総文字数+行数×10)/400で近似されています。
 文字数制限などでできるだけ回避するようにしてはいますが、Yahoo!デベロッパーの状態によっては制限字数内でもエラーが出る場合があるようです。その場合は時間をおくか、より短い文章で再度試してみてください。

5.参考リンク(敬称略)
 モノ書き一里塚 http://www.asahi-net.or.jp/~mi9t-mttn/
 小説HTMLの小人さん http://htmldwarf.hanameiro.net/
 文体診断ロゴーン http://logoon.org/

→入力画面に戻る

→E.N.Nachに戻る