做网站多久学会,怎么做跨境电商流程及步骤,如何设立邮箱和网站,不是常用的网页制作工具高保真PDF至HTML转换pdf2htmlEX介绍传统pdf2html有两种#xff1a;一种相当于pdf2text加一些比较弱的格式#xff0c;基本跟pdf2text也差不了多少另一种是把所有渲染成图片然后嵌到一个html,结果是文字信息都丢失(不能选择#xff0c;拷贝)#xff0c;生成的文件还巨大。pd…高保真PDF至HTML转换pdf2htmlEX介绍传统pdf2html有两种一种相当于pdf2text加一些比较弱的格式基本跟pdf2text也差不了多少另一种是把所有渲染成图片然后嵌到一个html,结果是文字信息都丢失(不能选择拷贝)生成的文件还巨大。pdf2htmlEX结合二者优点既保留了文字又保留了格式。具体来说有如下特性1.从pdf提取字体2.保证渲染准确性针对web进行优化(包括减少文件大小文字行合并(为HTML文字选择)字体重编码等等)3.其他内容用图片显示4.单文件输出一个HTML搞定一切pdf2htmlEX开源主页地址详细介绍中文讨论组编译流程官方编译文档https://github.com/coolwanglu/pdf2htmlEX/wiki/Building对环境要求较高建议使用最新机器本例安装采用centos7YUM基本包yum install cmake gcc gcc-c gnu-getopt java-1.8.0-openjdk libpng-devel fontforge-devel cairo-devel poppler-devel libspiro-devel poppler-data libjpeg-turbo-devel git fontconfig-devel glibc-static glibc-devel libtool-ltdl-devel zlib-devel poppler-glib-devel mk-configure.noarch libjpeg-turbo libtiff giflib-devel libXt-devel automake bzip2 libuninameslist-devel libspiro dbus-python-devel pango-devel chrpath uuid-c uuid uthash-devel.noarch jpackage-utils.noarch gettext libxml2-python27 libxml2-python26 python27-python-devel libxslt-python26 libxslt libxslt-devel python-devel python-javapackages.noarch –nogpgcheck poppler-cpp poppler-cpp-devel libstdc48-static openjpeg-devel libjpeg libjpeg-devel libpng freetype freetype-devel libxml2 libxml2-devel zlib glibc glib2 glib2-devel bzip2-devel ncurses ncurses-devel curl curl-devel e2fsprogs e2fsprogs-devel krb5 krb5-devel libidn libidn-devel openssl openssl-devel libtool libtool-libs libevent-devel libevent openldap openldap-devel nss_ldap openldap-clients openldap-servers libtool-ltdl bison vim wget make crontabs mlocate ntp lrzsz autoconf libx* qt-* qt4-devel libtiff libopen* gtk2 gtk2-devel gtk2-devel-docs kernel-devel gtk-doc cjkuni-uming-fonts cjkuni-ukai-fonts编译openjpegwget http://downloads.sourceforge.net/openjpeg.mirror/openjpeg-2.1.0.tar.gz;tar -xzf openjpeg-2.1.0.tar.gz;cd openjpeg-2.1.0;cmake .;make make install;编译popplerwget http://poppler.freedesktop.org/poppler-0.35.0.tar.xz;tar -xf poppler-0.35.0.tar.xz;cd poppler-0.35.0;./configure --enable-xpdf-headers --enable-libopenjpeg ;make make installln -s /usr/local/lib/libpoppler.so.54 /usr/lib64/libpoppler.so.54ln -sv /usr/share/poppler /usr/local/share编译 fontforgegit clone https://github.com/coolwanglu/fontforge.git fontforge;cd fontforge;git checkout pdf2htmlEX ./autogen.sh;./configure make V1 make installcp fontforge.pc /usr/local/lib/pkgconfig/;ln -s /usr/local/lib/libfontforge.so.2 /usr/lib64/libfontforge.so.2#设置环境变量export PKG_CONFIG_PATH/usr/local/lib/pkgconfig编译pdf2htmlEXgit clone git://github.com/coolwanglu/pdf2htmlEX.git;cd pdf2htmlEX;cmake . ;make make install;FQA1.pdf2htmlEX 自动隐藏转码后没有找到字体库的字导致html中文字无法显示的解决办法如果系统没有安装字体时pdf2htmlEX会默认隐藏该字段内容。转换的html没有内容。通过修改源码./src/HTMLRenderer/font.cc// TODO: this function is called when some font is unable to process, may use the name there as a hintvoid HTMLRenderer::export_remote_default_font(long long fn_id){f_css.fs . CSS::FONT_FAMILY_CN fn_id {font-family:sans-serif;visibility:visible;} endl;// f_css.fs . CSS::FONT_FAMILY_CN fn_id {font-family:sans-serif;visibility:hidden;} endl;}pdf2htmlEX --help 中文解释help用法: pdf2htmlEX [options] []-f,--first-page 需要转换的起始页 (默认: 1)-l,--last-page 需要转换的最后一页 (默认: 2147483647)--zoom 缩放比例--fit-width 适合宽度 像素--fit-height 适合高度 像素--use-cropbox 使用剪切框 (default: 1)--hdpi 图像水平分辨率 (default: 144)--vdpi 图像垂直分辨率 (default: 144)--embed 指定哪些元素应该被嵌入到输出--embed-css 将CSS文件嵌入到输出中 (default: 1)--embed-font 将字体文件嵌入到输出中 (default: 1)--embed-image 将图片文件嵌入到输出中 (default: 1)--embed-javascript 将javascript文件嵌入到输出中 (default: 1)--embed-outline 将链接嵌入到输出中 (default: 1)--split-pages 将页面分割为单独的文件 (default: 0)--dest-dir 指定目标目录 (default: .)--css-filename 生成的css文件的文件名 (default: )--page-filename 分割的网页名称 (default:)--outline-filename 生成的链接文件名称 (default:)--process-nontext 渲染图行文字除外 (default: 1)--process-outline 在html中显示链接 (default: 1)--printing 支持打印 (default: 1)--fallback 在备用模式下输出 (default: 0)--embed-external-font 嵌入局部匹配的外部字体 (default: 1)--font-format 嵌入的字体文件后缀 (ttf,otf,woff,svg) (default: woff)--decompose-ligature 分解连字- fi (default:0)--auto-hint 使用fontforge的autohint上的字体时不提示 (default: 0)--external-hint-tool 字体外部提示工具 (overrides --auto-hint) (default: )--stretch-narrow-glyph 伸展狭窄的字形而不是填充 (default: 0)--squeeze-wide-glyph 收缩较宽的字形而不是截断 (default: 1)--override-fstype clear the fstype bits in TTF/OTF fonts (default:0)--process-type3 convert Type 3 fonts for web (experimental) (default: 0)--heps 合并文本的水平临界值单位像素(default: 1)--veps vertical threshold for merging text, in pixels (default: 1)--space-threshold 断字临界值 (临界值 * em) (default:0.125)--font-size-multiplier 一个大于1的值增加渲染精度 (default: 4)--space-as-offset 把空格字符作为偏移量 (default: 0)--tounicode 如何处理ToUnicode的CMap (0auto, 1force,-1ignore) (default: 0)--optimize-text 尽量减少用于文本的HTML元素的数目 (default: 0)--bg-format 指定背景图像格式 (default: png)-o,--owner-password 所有者密码 (为了加密文件)-u,--user-password 用户密码 (为了加密文件)--no-drm 覆盖文档的 DRM 设置 (default: 0)--clean-tmp 转换后删除临时文件 (default: 1)--data-dir 指定的数据目录 (default: .\share\pdf2htmlEX)--debug 打印调试信息 (default: 0)-v,--version 打印版权和版本信息-h,--help 打印使用帮助信息3.常用命令1.转码操作1.1 pdf2htmlEX pdf/test.pdf --debug1 #开启debug模式用于监控转码过程1.2. pdf2htmlEX -f 3 -l 5 --fit-width1024 --bg-formatjpg pdf/test.pdf #只有第三第四和第五页转换该页的宽度为1024像素。生成JPEG格式背景图像1.3. pdf2htmlEX --embedcfijo --dest-dirout pdf/test.pdf # 分离所有资源(字体图片CSS和JavaScript)并将存储在指定的out文件中1.4. pdf2htmlEX --embedcfijo --split-pages1 --dest-dirout --page-filenametest-%d.page pdf/test.pdf #分离所有资源(字体图片CSS和JavaScript) 并按照--split-pages分离所有页面test-%d.page存放在指定out目录1.5 pdf2htmlEX pdf/test.pdf --optimize-text 1 #分栏时每一行文字生成在一个div标签内查看pdf字体#emb 意思 字体是否内置[rootlocalhost ]# pdffonts 3.pdfname type encoding emb sub uni object ID----------------- ------------- ---------- --- --- --- ---------- --- ---------- --- ---------_GBK CID TrueType GBK-EUC-H no no no 16 0_GBK CID TrueType GBK-EUC-H no no no 17 0SSJ0ZCNHHr-1 Type 1 Custom yes no yes 19 0E-BZZCNHHr-3 Type 1 Custom yes no yes 18 0E-BXZCNHHs-5 Type 1 Custom yes no yes 43 0SSJ0ZCNHHs-6 Type 1 Custom yes no yes 21 0E-FZZCNHHs-7 Type 1 Custom yes no yes 20 0DY2ZCNHHs-8 Type 1 Custom yes no yes 44 0减少生成的html的字体的大小https://github.com/yu-liang-kono/pdf2htmlEXOptimize