• Thứ Năm, 25/12/2003 09:58 (GMT+7)

    Cách chuyển file PDF thành file text

     Hiện nay, tài liệu trên mạng ở dạng .pdf rất phổ biến. Các tài liệu này sử dụng phần mềm Acrobat Reader để đọc. Acrobat Reader hỗ trợ tính năng cho phép cắt (copy) một đoạn tài liệu để dán (paste) vào một ứng dụng khác như Word chẳng hạn. Tuy nhiên tính năng này không làm việc được với một số font chữ. Tôi tìm hiểu được một phương pháp lấy nội dung text từ tập tin *.pdf,  xin giới thiệu để các bạn tham khảo và góp ý.

    Phần mềm mà các bạn phải có là Adobe Acrobat (chú ý không phải là Acrobat Reader), cài đặt toàn bộ chiếm tới 76MB trên ổ cứng, tuy nhiên bạn chỉ cần cài tùy chọn Adobe Acrobat là đủ.

    Sau khi cài đặt, bạn khởi động chương trình Adobe Acrobat, mở tập tin muốn lấy text, chọn File.Export.PostScript hay EPS, trong cửa sổ xuất hiện chọn PostScript File, chọn Option là Binary, Page là All, chọn Save, đặt tên file, chọn OK.

    Dùng Winword mở file vừa tạo, bạn sẽ có một văn bản rất dài toàn mã, chuyển con trỏ tới cuối văn bản, tìm 3 dòng cuối, bạn sẽ thấy một dòng miêu tả font, ví dụ như sau:

    %%DocumentNeededResources:%%+ font VNI-Times%%EOF

    Bạn chọn toàn văn bản (Ctrl + A), sửa lại font cho đúng với font vừa nhận dạng được, trong trường hợp này là VNI-Times. Nội dung chính của tài liệu nằm ở khoảng nửa sau văn bản.

    Bạn có thể thực hiện xóa thủ công những đoạn mã thừa, tuy nhiên tôi có vài thủ thuật nhỏ sau:

     Bạn chuyển con trỏ đến đầu đoạn văn bản cần giữ lại, nhấn giữ phím Shift và chọn đến đầu văn bản, dùng phím Delete để xóa hết thông tin vì đoạn này chỉ là phần mã thừa.

     Chọn Edit, Replace, trong phần Find gõ “Tj*Tf” (không có dấu ngoặc kép và ở giữa là dấu hoa thị), trong mục Replace để trắng, kích vào nút lệnh More, đánh dấu tùy chọn Use wildcards, sau đó chọn Replace All.

     Văn bản của bạn đã “sạch” hơn rất nhiều, tuy nhiên vẫn còn những ký hiệu ( ). Bạn cũng có thể sử dụng Relapce để xóa chúng đi như trên, trong khi Replace bạn nhớ gỡ bỏ tùy chọn Use wildcards.

    Và bây giờ bạn đã có nội dung cần có.

    Nguyễn Thanh Phú

    thanhphuhtv@vol.vnn.vn

    ID: A0201_72