hwptxt로 바꾸는 방법을 찾아보다가 자꾸 에러가 났지 뭐야 ,,

일반적으로 알려진 방법은 크게 두가지가 있다.

  1. pyhwp를 설치하고, cmd 상에서 명령어 입력하기
pip install --user --pre pyhwp
hwp5txt --output "변환된_텍스트_파일명" "변환하고_싶은_한글파일.hwp"
  1. jupyter에서, os.system() 으로 입력하기
import os

exe = "hwp5txt --output 변환된_텍스트_파일명 변환하고_싶은_한글파일.hwp"
os.system(exe)

이후, python에서 아래와 같이 열어주면 된다.

hwp_txt = open("KDS콘크리트구조설계(강도설계법)일반사항.txt", "r")
print(hwp_txt.read())


그런데 나는, pyhwp를 설치했음에도 불구하고

$ hwp5txt - version       
command not found: hwp5txt

이렇게 뜨고 위 모든 방법에서 변환이 안되는 것이다 ㅠㅠㅠ


그래서 아래와 같은 방법을 이용해, 그냥 hwp를 python으로 열었다.

import olefile
f = olefile.OleFileIO('file.hwp')
encoded_text = f.openstream('PrvText').read()
decoded_text = encoded_text.decode('UTF-16')
decoded_text