2015年11月18日水曜日

unoconv

サーバ (linux)上で,ワードファイル(dox / docx)をテキストに変換したいと思っていたのだが,unoconvがなかなかよさげなので,備忘録として。


MacOSXであれば,textutilなるコマンドがあるようだが,これはMacOSに依存しているようで,ほかの環境では使えない。
catdocなるものもあるようだけど,どうもdocxへの対応をしていない?
で,表題のunoconvはLibreOfficeで読み書きできるフォーマットなら対応しているよう。

とりあえずDebian jessieにインストールして試してみたところ,docもdocxもテキスト・HTML形式に無事変換できた。日本語を含むものであっても,utf-8で書き出してくれる。

UTF-8テキスト形式への変換

 $ unoconv -f txt input.docx

HTML形式への変換

 $ unoconv -f html input.docx