PDF 안에 있는 테이블을 엑셀로 변환하는 방법을 알아 볼 겁니다. 직접 복사 붙여넣기를 하면 서식이 완전히 깨지게 되구요. 나중에 원본을 고칠 땐 엑셀 파일에 수정 내용이 반영 안 된다는 단점이 있습니다. 파워쿼리를 이용해서 문제를 해결해보겠습니다.
PDF 표 엑셀 변환 방법
< 영상 설명 >
< 그림 설명 >
요약 내용은 아래와 같습니다.
- 요약 내용
- 데이터 → 데이터 가져오기 → 파일에서 → PDF 에서
- 파일 선택하기
- 추출할 데이터가 들어있는 데이터 선택한 뒤 ‘데이터 변환’
- 파워쿼리 편집기에서 깔끔하게 수정하기
- ‘닫기 및 다음으로 로드’ 선택
- [데이터 가져오기] 창이 나오면 ‘표’, ‘새 워크시트’ 선택
- 완성
- 새로고침 누르면 원본 데이터 수정 시 내용 반영됨
단순히 파일 내용을 복사해서 엑셀에 붙여 넣으면 데이터가 다 망가져서 나옵니다. 서식을 고치는 것도 일이고, 수정할 때마다 일일이 다시 데이터를 바꿔주는 것도 일이에요. 수작업으로 복붙을 하는 건 절대 비추 입니다.
따라서 이 경우 반드시 파워쿼리를 이용해야 됩니다. 아주 쉽습니다. 전혀 어렵지 않으니 천천히 따라와 주세요.
바로 알아보겠습니다.
먼저 뽑아내려는 파일이 PC 등 어딘가에 저장 되어 있어야 합니다. 저장을 했다면 엑셀에 접속한 뒤 [데이터] – [데이터 가져오기] – [파일에서] – [PDF 에서] 로 들어갑니다.

뽑아 낼 데이터가 들어있는 파일을 선택해 주세요.

그럼 시간이 조금 걸릴 건데요. 약간 기다리면 아래와 같은 창이 나옵니다. 왼쪽에 총 5개의 목록이 나왔는데요. 이건 내가 올린 파일 안에 있는 페이지를 말합니다. 왼쪽 목록은 파일 종류에 따라 다 다르게 나옵니다. 페이지가 많은 파일일수록 더 많은 항목이 나옵니다.

위 사진의 ‘Page001’ 이라고 되어 있는 건 1페이지를 말하는 거구요. ‘Page004’ 라고 되있는건 4페이지를 말하는 겁니다.
제가 미리 확인해봤는데 위 파일의 경우 4페이지에 테이블이 있었습니다. 그래서 이 경우 ‘Page004’를 선택하면 됩니다. 미리 확인을 못했던 경우 오른쪽 칸에서 미리보기로 테이블 상태를 확인할 수 있고요. 추출하려는 테이블이 맞다면 하단의 ‘데이터 변환’ 을 누르면 됩니다.
그럼 아래 사진처럼 파워쿼리 편집기가 나옵니다. 여기서 테이블을 편집할 수 있습니다.
예를들어 아래 사진의 ‘null’ 은 빈 칸을 의미합니다. 빈 칸이니 ‘null’ 이 입력되어 있는 열은 삭제해 주는 게 좋겠죠? Column1 열을 선택한 뒤 Delete 키를 눌러 삭제를 해줍니다.

그럼 아래 사진처럼 Column1 이 삭제 됩니다. 깔끔해 졌죠?
만약 첫 행을 머리글로 사용하고자 한다면 ‘첫 행을 머리글로 사용’ 을 누르면 됩니다.

그 외 편집하고 싶은 것이 있다면 편집을 진행 해 주면 됩니다. 파워쿼리 편집기에서 수정한 내용은 원본에 전혀 반영되지 않으니 편하게 편집 해주면 됩니다.

편집이 다 됐다면 [닫기 및 로드] – [닫기 및 다음으로 로드] 를 누릅니다.
그럼 아래와 같은 창이 나옵니다. [표], [새 워크시트] 를 선택한 뒤 ‘확인’ 을 누릅니다. 기존 시트에 데이터를 가져오고 싶은 경우 ‘기존 워크시트’ 를 누르면 됩니다.

그럼 아래와 같이 추출되어 나옵니다.

자, 파워쿼리를 이용할 때의 장점이 하나 더 있습니다. 파워쿼리를 이용해서 테이블을 추출한 경우, 원본 파일이 수정 될 때 엑셀의 표 역시 자동으로 같이 수정됩니다. 아래 사진처럼 [새로고침] 을 누르면 수정된 내용이 같이 자동 변경되요. 정말 편하죠?

지금까지 PDF 파일 내의 테이블 데이터를 엑셀에 갖고 오는 방법에 관한 글이었습니다.
