unoconv
サーバ (linux)上で,ワードファイル(dox / docx)をテキストに変換したいと思っていたのだが,unoconvがなかなかよさげなので,備忘録として。
MacOSXであれば,textutilなるコマンドがあるようだが,これはMacOSに依存しているようで,ほかの環境では使えない。
catdocなるものもあるようだけど,どうもdocxへの対応をしていない?
で,表題のunoconvはLibreOfficeで読み書きできるフォーマットなら対応しているよう。
とりあえずDebian jessieにインストールして試してみたところ,docもdocxもテキスト・HTML形式に無事変換できた。日本語を含むものであっても,utf-8で書き出してくれる。
MacOSXであれば,textutilなるコマンドがあるようだが,これはMacOSに依存しているようで,ほかの環境では使えない。
catdocなるものもあるようだけど,どうもdocxへの対応をしていない?
で,表題のunoconvはLibreOfficeで読み書きできるフォーマットなら対応しているよう。
とりあえずDebian jessieにインストールして試してみたところ,docもdocxもテキスト・HTML形式に無事変換できた。日本語を含むものであっても,utf-8で書き出してくれる。
UTF-8テキスト形式への変換
$ unoconv -f txt input.docx
HTML形式への変換
$ unoconv -f html input.docx
コメント
コメントを投稿