windows下php运用XPDF读取pdf文件中内容

程序
5 744
caixiaoxu
2018-06-04

1.去XPDF官网下载最新版本的XPDF,我下的是xpdf-tools-win-4.00


2.中文包下载,我下载的是xpdf-chinese-simplified.tar


3.开始安装,当然这只是解压而已。创建一个文件夹xpdf,例如G:/xpdf,将解压后的文件中,bin64(我的是64位的电脑)下所有文件复制到文件xpdf中,doc文件下的sample-xpdfrc也复制到xpdf中,用记事本编辑sample-xpdfrc,将textEncoding UTF-8的注释符号“#”去掉,然后在最后加入

textPageBreaks      no

#----- begin Chinese Simplified support package (2011-sep-02) cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf #----- end Chinese Simplified support package

接着将文件改名为xpdfrc,最后将解压的中文包也丢到xpdf下就可以了

4.代码试一下。

public function index()
    {
        $file = 'G:\\datadir\\abc.pdf';
        $content = shell_exec ( "G:\\xpdf\\pdftotext.exe $file -" );
        dump($content) ;
    }

OK,文字抽取完毕,剩下的就根据自己需求去搞吧。下面是转为html格式的。

public function index()
{
$file = 'G:\\php\\phpstudy\\test2\\public\\uploads\\abc.pdf';
shell_exec ( "G:\\php\\phpstudy\\test2\\extend\\xpdf\\pdftohtml.exe $file -" );
}


回帖
  • duni1989
    01月08日 21:34

    你好,我按照你这个配置,始终没有配置好,可以给个联系方式吗

    0 回复
  • duni1989
    01月08日 21:34

    <?php

    namespace app\index\controller;

    class Index

    {

        //public function index()

        //{

        //    return '*{ padding: 0; margin: 0; } .think_default_text{ padding: 4px 48px;} a{color:#2E5CD5;cursor: pointer;text-decoration: none} a:hover{text-decoration:underline; } body{ background: #fff; font-family: "Century Gothic","Microsoft yahei"; color: #333;font-size:18px} h1{ font-size: 100px; font-weight: normal; margin-bottom: 12px; } p{ line-height: 1.6em; font-size: 42px } :)

     ThinkPHP V5十年磨一剑 - 为API开发设计的高性能框架

    [ V5.0 版本由 七牛云 独家赞助发布 ]
    ';

        //}

    public function index()

    {

    $file = 'D:\\phpstatus\\test2\\public\\uploads\\zhuangxiang.pdf';

    $content = shell_exec ( "D:\\phpstatus\\test2\\extend\\xpdf\\pdftotext.exe $file -" );

    var_dump($content);

    }

    }


0 回复
  • duni1989
    01月08日 21:36



    0 回复
  • duni1989
    01月08日 21:37

    请指教一下

    0 回复
  • caixiaoxu
    04月27日 09:01

    因为你的路径写错了

    duni1989:



    0 回复
  • 热议帖子
    windows下php运用XPDF读取pdf文件中内容 5
    composer安装之linux 2
    版本控制器--Git 2
    详解PhpSpreadsheet设置单元格 2
    PHP爬虫之Curl 2
    php压力测试工具ab 1
    php数组转树形结构 1
    windows下php的redis扩展安装和使用 0
    php之xunsearch安装与使用 0
    网页在线阅读word、excel、ppt、pdf、图片 0
    PHPTP5事务--数据库回滚 0
    网络实用工具 0
    宝塔控制面板如何添加伪静态(问题:除了首页全是404错误) 0
    phpspreadsheet读写xlsx文件 0
    站长程序员路程的无聊之举 0