FreeCulture TextDumpバージョン
FreeCultureのPDFを
http://free-culture.org/freecontent/
PDFBoxを使って、テキストに変換しました。
ExtractTextというクラスです。
http://www.pdfbox.org/
TextDumpと書いてあるのは、テキストに、システムコードも含んでいるからです。
テキストは以下のライセンスにします。
http://creativecommons.org/licenses/by-nc/2.0/
ダウンロード(有効期限は2005年4月1日です。以降、サーバーに負荷が高いと別の場所に変わります。それはあらためて告知します。)
http://www.xucker.jpn.org/cc/freeculture.zip
このPDF
http://resare.com/fc/readme.html
から、MP3もダウンロードできます。
ライセンス的に、制限が少ないので、これらを元に英語を勉強していこうと思います。もちろん公開していきます。
もちろん翻訳するのもライセンス的に認められていますが、
日本語訳については、amazonから購入できるようです。
PDFBoxについて
http://www.pdfbox.org/
日本語も変換できました。
TM等の文字が?になることがあるようです。
ただし、許可されてないPDFはエラーが出ます。