概要
青空文庫の作品に対し、textsearch_jaで形態素解析を行ったCSVデータを無料で公開しています。
CCライセンスの範囲内であれば、登録・報告作業の必要なしに、営利目的であっても
ご自由に本データをダウンロードしてご利用いただけます。
データ形式はCSV形式で下記のようなイメージになります。詳しくは解析データ説明をご覧ください。
解析対象データ
2012年12月時点で青空文庫で公開されている作品中で、作品著作権フラグがない作品のうち
11,176件分のデータを解析しています。
解析対象データ一覧をこちらからCSV形式でダウンロードできます。
※1作品に複数人の著者等が登録されているケースがあるため、レコード数は11,176件ではありません。
解析データダウンロード
解析データを作品別にダウンロードしたい場合は、
解析データ一覧から検索してダウンロードしてください。
文字コードがUTF8とSJISの2種類のデータを用意しています。
WindowsでExcel等を使用して解析する場合はSJIS版のご利用をお勧めします。
また、11,176件全件分の一括ダウンロードや、文字遣い種別毎での一括ダウンロード用に
一括ダウンロード用のファイルを用意しています。
LodJAPAN 2012
本データ集は Linked Open Data Challenge Japan 2012 のデータセット部門エントリー作品です。
免責事項
本サイトの解析データについて、原作者はその正確性を一切保証しません。
また、本サイトの解析データのダウンロードおよび利用を通じて生じる損害に対する一切の責任を、
原作者は負わないものとします。