解析データ説明

本サイトの解析データは、主に「MeCab」「NAIST-jdic」「textsearch_ja」を
デフォルト状態のままで利用して作成しております。

解析データそのものには列名は含めておりません。
解析データCSVの4列目以降は、textsearch_jaのja_analyzeの結果をそのまま出力しています。
3列目までの「file」「row」「num」は以下のような条件で付与しています。

file

解析データの青空文庫上でのHTMLファイル名を行毎に付与しています。
作品毎に解析データをダウンロードした場合はあまり必要ない列かもしれませんが、
一括ダウンロードで取得した解析データの場合、本列がなければ、どの行がどの作品の
解析結果なのか判断することができません。
解析対象データ一覧のCSV最終列にも本列を付与していますので、
検索・結合等に合わせてご利用ください。

row

解析対象データである青空文庫の作品を、一定の条件で行分割し、作品別かつ行毎にカウントした
数値を付与しています。一定の条件とは、以下のようになります。

  • 元のデータに改行タグ(<br />)がある箇所
  • カギ括弧の閉じがある箇所(」もしくは』)
  • 句点(。)がある箇所
  • ただし句点とカギ括弧の閉じが連続している場合(。」もしくは。』)は句点では行分割しない

num

row毎に、形態素をカウントした数値を付与してます。
「文の前半ではどのような単語が使われる傾向にあるのか」
「特定の単語の前後ではどのような単語が使われる傾向にあるのか」
といった分析での利用を想定しています。

解析対象データ一覧について

解析対象データ一覧のCSVは、青空文庫の「公開中 作家別作品一覧拡充版:全て」を基に、
解析対象データの行のみ抽出し、最終列にファイル名を付与した形式となっています。