[Python] hwp를 pdf로 바꾸기
hwp
를 txt
로 바꾸는 방법을 찾아보다가 자꾸 에러가 났지 뭐야 ,,
일반적으로 알려진 방법은 크게 두가지가 있다.
- pyhwp를 설치하고, cmd 상에서 명령어 입력하기
pip install --user --pre pyhwp
hwp5txt --output "변환된_텍스트_파일명" "변환하고_싶은_한글파일.hwp"
- jupyter에서,
os.system()
으로 입력하기
import os
exe = "hwp5txt --output 변환된_텍스트_파일명 변환하고_싶은_한글파일.hwp"
os.system(exe)
이후, python에서 아래와 같이 열어주면 된다.
hwp_txt = open("KDS콘크리트구조설계(강도설계법)일반사항.txt", "r")
print(hwp_txt.read())
그런데 나는, pyhwp를 설치했음에도 불구하고
$ hwp5txt - version
command not found: hwp5txt
이렇게 뜨고 위 모든 방법에서 변환이 안되는 것이다 ㅠㅠㅠ
그래서 아래와 같은 방법을 이용해, 그냥 hwp를 python으로 열었다.
import olefile
f = olefile.OleFileIO('file.hwp')
encoded_text = f.openstream('PrvText').read()
decoded_text = encoded_text.decode('UTF-16')
decoded_text