2005-02-16から1日間の記事一覧

PDFBoxについて

http://www.pdfbox.org/ 日本語も変換できました。 TM等の文字が?になることがあるようです。 ただし、許可されてないPDFはエラーが出ます。

FreeCulture TextDumpバージョン

FreeCultureのPDFを http://free-culture.org/freecontent/PDFBoxを使って、テキストに変換しました。 ExtractTextというクラスです。 http://www.pdfbox.org/TextDumpと書いてあるのは、テキストに、システムコードも含んでいるからです。 テキストは以下の…