保存电子书好难！

发布时间：2025-01-11 17:52:14

保存电子书好难！

保存电子书好难！扫描版的电子书（图1 2 3）要怎么制作成矢量的PDF（不知道是不是叫这种，图4）呀？好像听说itextsharp或者pypdf可以但是不知道要怎么操作，以及不知道还有没有其他免编程的方式🏀🏀 扫描版比矢量PDF版弊端在于： 1️⃣扫描版是图片，放大会糊；矢量的文字都是一个一个的，放大缩小都不会糊 2️⃣扫描版是图片，体积很大，一本书轻易几百M或者上G；但是矢量版总是几百K或者几M 3️⃣扫描版有一些会残缺，字看不到，但是矢量文字是完整的目前已经试过： 1️⃣Foxit和acrobat的OCR转成可编辑文本，都不尽如意，比如foxit就会出现像图5转成图6那样，字体和格式变乱；或者脚注本来是右上角结果变成和正文一样大 2️⃣目前大概了解到可能要通过编程先识别文本，再按原来的布局将文本组合回去（不确定这样行不行得通，但是我不知道咋进行，不确定是不是理解错了，完全没有学过计算机或者编程） 3️⃣不是转成epub或者mobi等。很多epub和mobi等格式都可以是矢量的文字，但是它们没有PDF扫描件那样原始的书的布局❗如果要引用学术著作某一页比较麻烦；而且一些数学公式等的排版也是乱糟糟的 4️⃣不只是要识别文字❗不只是要识别文字❗是识别出文字后还要把这些文字按原样布局放回去❗ 5️⃣只要文字转成矢量文字，如果一面中有插图，那个插图要单独保留下来（如果插图也能转成矢量图就更好） 6️⃣听说很多是直接word转的，没得重新制作的，可是一些矢量文字的PDF的创建工具并不是显示ms word而是itextsharp或者pypdf等等，所以盲猜还是可以另做的蹲蹲🍠大拿们 #PDF #pdf转换器 #矢量文字 #PDF工具 #扫描版 #求助 #编程 #PyPDF2 #OCR #文字识别