unoconv

サーバ (linux)上で,ワードファイル(dox / docx)をテキストに変換したいと思っていたのだが,unoconvがなかなかよさげなので,備忘録として。


MacOSXであれば,textutilなるコマンドがあるようだが,これはMacOSに依存しているようで,ほかの環境では使えない。
catdocなるものもあるようだけど,どうもdocxへの対応をしていない?
で,表題のunoconvはLibreOfficeで読み書きできるフォーマットなら対応しているよう。

とりあえずDebian jessieにインストールして試してみたところ,docもdocxもテキスト・HTML形式に無事変換できた。日本語を含むものであっても,utf-8で書き出してくれる。

UTF-8テキスト形式への変換

 $ unoconv -f txt input.docx

HTML形式への変換

 $ unoconv -f html input.docx  

コメント

このブログの人気の投稿

Linuxでの省電力設定

MSFS2020 G1000でのVORの使い方 (C172)

Word 2016の不具合