我的Tiflic DIY Bookscanner

注意:我在这里讨论的绝不是我的原创作品。这个设计是由用户创建的MohibDIY图书扫描器论坛。他的原始计划在这里。这些是我基于自己的设计经验所做的笔记。此外,他推荐的软件是iOS和Windows,而我的平台恰恰相反——Android和OS x。我有我自己的一套推荐以及我写的一些脚本。下面将介绍所有这些内容。Mohib的计划足以构建一个扫描仪,但他们缺少的是Instructable风格的“步骤1 -做这个”流程。我会试着放一点进去。

博士tl;

没有TLDR,你关节了!这是一个构建帖子,所以它是全部或全无的。

背景

我一直对在。的工作感兴趣DIY Bookscanner.。我对一种扫描仪非常感兴趣,这种扫描仪可以用CNC从胶合板上切割下来,使用了两个带有远程触发器的单反相机。最终,这有点昂贵,笨重,超出了我微薄的能力。我一直想买一种无损图书扫描仪。我有几十本书,如果不是几百本的话,我很乐意用纸质书来交换电子版。

当我第一次听说这个完全可以用PVC管做结构的简化版本,并使用一个智能手机作为摄像头时,我的耳朵像史酷比一样竖起来。我看到这段视频而且非常感兴趣。它似乎在可膨胀的范围内,并且有一个不错的吞吐量。我有很多页面要扫描,所以每分钟的页面越多,我花的时间就越少。

我决定冒险尝试建造这个。为此,我基本上直接从亚马逊购买了Mohib推荐的大部分内容。我一开始没买的,后来几乎全买了。在他的计划中,几乎所有标记为“可选”的东西我都认为是必不可少的。我会讲到的。

材料

我也能在附近的True Value得到几乎所有的计划。我希望在大卖场里呆的时间越少越好。事实上,当地的员工对这个项目很感兴趣,我也就我的项目进行了很多交谈。这就是我花10分钟找到正确的17美分螺丝的时候得到回报的地方,我最终花了大约100美元在材料和工具上在扫描仪上工作。

另一个大的采购问题是放在书页上的塑料压板。我也试着在当地的一个玻璃地方采购,但是它非常昂贵,而且,他们不愿意卖给我3/8″有机玻璃。我发现了一个很棒的网站利用塑料在这里,我可以很容易地用一个简单的web表单订购我想要的东西。因为我知道这个需要最长的准备时间,所以我做的第一件事就是下这个。

此链接将在丙烯酸开始。请选择以下选项:

清晰的
3/8“厚度
11“宽度
15 1/4”长度

然后在下面挑选6个洞,如果你想买计划中的东西。它实际上可能做4或2个洞,这取决于你希望从你的压板的灵活性。实际上,我已经用了两个星期了,还没有把把手移到不同的洞里。每钻一个孔要花2美元,所以我赌了8美元未来的灵活性。当你从Tap塑料公司订购并包括孔时,你需要给他们发送一个在哪里钻孔的图表。我从设计图中提取了一页CAD图纸并发给了他们我得到的是完美的。

带着定购的压板玻璃,我去了当地的五金店(康威SC的Walker’s True Value),带着一份打印出来的计划,我的目标是拿到清单上的每一件物品。理想情况下,我希望能够在不去洛斯(Lowes)或家得宝(Home Depot)的情况下建造它。我失败了一点,但不是很大。

其中一个有问题的部分是桶形螺母。这是你在宜家风格的扁平包装家具中可以找到的小物件,圆柱体两端有螺丝刀槽,中间有一个螺纹孔。该计划要求两个螺纹为1/4-20,长度为1/2″,这在美国很难找到。该计划提到了英国的一家供应商,但这些东西的运输是禁止的。我想避免这种情况。幸运的是,True Value也有相同的东西,但长度是3/4″。我决定尝试一下,只在必要时购买英国版。剧透警报- 3/4″版本工作。

我能够得到的3/4 " PVC管和连接器的把手和1 1/4 " PVC管的结构。我不能得到的是帽和卫生T连接器的1 1/4 "管。虽然他们有箱子,但已经脱销了。我最终在Lowes得到了这些东西,然后有一个复杂的问题,只有白色塑料,而所有其他11 /4”PVC管和连接器我有黑色。我买了清单上的每一个螺栓、螺母、垫圈、螺纹杆、钢缆等。还有一些螺栓我从未使用过,直到今天我都不知道它们应该放在哪里。

我还浏览了计划,从亚马逊订购了大部分东西,比如三脚架球头、聚焦轨和星形旋钮。我认为Mohib的疯狂之处在于,他没有使用亚马逊的会员链接,因为他只把4%的购买量放在了桌面上。我将列出所有的东西在这里与我的会员链接,因为我不是疯子。如果莫希布告诉我他的同伙身份,我会用他们换他的因为他比我更值得那笔钱。然而,有些人是值得的。

我最初跳过了可选的LED灯。这是一个错误,在我第一次试用后,我回去买了它。我最初也试过在书下面使用一个来自Dollar General的防滑垫。这是一个错误。用户dpc在DIY图书扫描器论坛上,我指向了黏黏的Siconi垫子,它是黑夜和白天,而不是我尝试过的任何其他选择。所以,如果你真的想要构建它,我建议你购买以下列表中的所有东西。

Manfrotto 2909超级夹子,带2907短螺柱

Vastar通用智能手机三脚架适配器

CamKix无线蓝牙相机快门遥控智能手机

Exmax 1/4“3/8”三脚架迷你球头

创新组件AN4C-5S221 1.38“星形旋钮Thru孔1/4-20钢锌插入黑色PP(包装为10)

DSLRKIT 2方式微距聚焦轨滑块

LEDMO 20W泛光灯LED防水IP65泛光灯,日光白色

Siconi集合7.5″大粘垫,灰色

集会

现在我将列出我所采取的步骤。这将节省您从CAD图纸逆向工程的麻烦。至少在一个案例中,我最初的切割是错误的,因为我看错了图表。不客气

滚筒

我不会骗你,压板句柄是迄今为止全部挑战的部分。钢缆握住它的钢缆是最糟糕的,所以一旦你通过它,它都是下坡。

步骤1 -拿3/4 " PVC和切割一个13 "片和两个7 "片。我只是用了一把钢锯,因为我手边有一把。这些将结束在连接器,所以如果削减是任何接近直线,连接器将是相当宽容。

步骤2 - 在两个45度的3/4“连接器中,从两侧钻一个孔0.5”。这个孔的尺寸与桶螺母相同 - 如果您在案例中获得欧洲版本或1/4“,则为10 mm。桶螺母将滑入这些,我需要购买一个文件钻头,并在孔的内侧运行,以使我最终适合。你想要适合的紧张,但他们确实需要能够进出滑出。

步骤3 - 将90度连接器连接到13“件的两端。将7个“件”放入那些连接器中。将45度连接器连接到此,以远离管道的孔结束。

现在是这个项目最糟糕的部分,把钢缆弄进去。这是非常重要的,因为这是给压板把手的稳定性(它得到最多的磨损和撕裂),以这种方式构建允许模块化的方式,试图用某种严重的水泥或粘合剂永久固定不会。尽管如此,这仍然是艰难的。

步骤4 -测量钢缆。在我找到有效的方法之前,我尝试了一些方法。我有一卷细线,就是你用来挂相框的那种。无论你用什么来测量,它需要不拉伸,所以钢丝似乎是一个不错的选择。把螺帽放进孔里。我把电缆穿了两段,足够我绕着每个螺帽转一圈,足够我把管子拉紧。拉几次,因为在这个过程中,你的管道会被拉紧到连接器中,你不想测量有很多松弛。我用一个Sharpie标记最外层的电线,而我有它尽可能紧,我可以设法用双手拉,而跪在压板把手。

步骤5 - 拉出电线并将其沿着自行车制动电缆铺设,以转移该测量。将连接器向下旋转,以便当您使循环使标记也在大部分内部。我实际上把桶螺母放在我的循环里面,然后再打它,以确保它适合。每个方向的硬件商店人,我没有打扰锻炼工具。一旦我有装修,我就可以在我想要的地方,我把整个东西放在废木上并用锤子击中了几次。它像魅力一样工作。

步骤6 -将压型电缆穿过压板的手柄。将第一个筒形螺母穿过孔和环。这个比较简单。让第二个人进来很有挑战性。我是用我测量的同一根电线把另一端拉紧的。这是我自己做的,我发现要拉得足够硬才能把第二个螺帽塞进去是非常具有挑战性的。我是用钢丝和螺丝刀拉动的组合,同时让桶形螺母穿过孔的一侧。我建议你和另一个人一起做,这样可以节省我花的30分钟左右时间。好消息是,在这一点上,所有最艰难的工作已经完成。

步骤7 -使用橡胶垫圈和钢1/4 " - 20螺栓,连接压板把手到压板。我不会说谎,我发现有一个完整的压板与把手在我的手中非常满意。我做了一些摄像机测试,这让我很开心。

相机的手臂

步骤1 -切一个5 "片1 1/2 " PVC管和一个13 "片。因为你买的是36寸的,所以我建议你也剪一些其他长度的。我每3“从7″到13”为我的组装的直立部分,原因我将在后面讨论。当你有了它,无论如何正在切割,我建议也切割7“和10”块。

步骤2 -将螺纹杆切割成9 1/4”和19 1/2”。我尝试了一些技巧,但最有效的是使用钢锯和锉刀的末端,直到我可以拧一个星旋钮到末端。在我完成这个项目后,通过我在Facebook上看到的一则广告这个产品它的存在是为了修复螺纹的末端。我个人没有用过,但如果我第一次看到它,我肯定会买下来的。

步骤3 - 钻1个1/2“PVC盖的中心的1/4”孔。螺纹杆将通过这些。从图中的照片中,看起来与夹具连接的盖子有额外的孔和额外的螺栓。我没有训练这些洞,并从原始清单中留下了几个螺栓。我不知道该怎么办,所以我最终跳了起来。

步骤4 -组装相机臂。在每个螺纹杆件,你将螺丝在两个螺母和添加一个垫圈约3/4 "从结束。这可能会有很大的不同,所以你需要实验。你将把平衡杆穿过一个盖子放进一个附件里。将长件拧入夹具端,短件拧入机架安装。旋转杆,将其拧入附件,然后拧紧螺母,直到整个东西是紧的。你不会想要这些东西到处乱晃,所以要确保所有东西都牢固牢固。

步骤5 -把长PVC片在长螺纹杆上,滑下进入帽,保持钳。在上面,放置卫生T型接头。用短片PVC和机架安装重复这个过程。在这一点上,你有装配大多与两件螺纹杆伸出T型接头。

步骤6 -对于每一个螺纹杆,在杆上放置1 7/8”垫圈,并向下滑动到T型接头。将星形接头拧入螺纹杆并拧紧。第一次这样做,你就会像压板手柄一样捡起松弛的部分。要准备好在很长一段时间里有一点转变,因为一些安定会发生。

步骤7 -螺丝球接头适配器进入机架安装。当这是在,螺丝智能手机适配器到球接头适配器。在这一点上,你基本上已经组装好了东西。夹在桌子或任何你的扫描表面上,调整顶部,这样手机摄像头就可以对准书本。

最初的计划是用一块13英寸的PVC作为相机的支架。我发现,当我开始尝试较小的书籍时,这样的高度使相机放置得相当远。我的目标是为这本书获得尽可能多的像素。当我扫描小的平装书或文摘大小的杂志,我使用较短长度的聚氯乙烯,使相机更近。如果使用带有光学变焦功能的手机,这就不是什么问题了,但我希望尽可能多地将视野填满书。这是整个项目中最容易被篡改的部分。试试一些尺码,看看哪个适合你。改变它们并不难。然而,特别是当去真的很短的时候,这可能意味着你有很多螺纹杆得到星旋钮扭曲。这部分可能很乏味,但它是可能的。

有一次,我在把手机拿近的时候变得过于激进,因为太近了,手机都被压板撞了。在扫描过程中移动手机——如果不是最糟糕的情况——是非常糟糕的情况。我不得不寻求一种折中方案,既要让相机离得足够近,以最大限度地提高像素,又要保持高度以避免碰撞。

关于材料颜色的说明:仔细阅读器将注意到我提到相机臂的白色PVC零件,同时注意到我相机臂的照片中是黑色的。我早点发现了白色的作品在压板上的反射中出现,所以我喷涂着它们黑色。

光源

Mohib在最初的设计中将他的LED灯列为可选设计,但我在早期的测试中发现,我在书中没有得到足够的光照,而且它很容易受到阴影的影响。最后我买了盏灯和一个开关,并装上了电线。计划是用一根蹦极绳把它绑在相机的支架上,但我一直找不到一个好的角度。最后我把它放在一堆书上,效果很好。然而,有些光线直接照射到相机的镜头上,所以我进一步用纸板遮盖了部分顶部。虽然有点荒唐,但最终还是成功了。这部分几乎肯定需要你的努力。

手机软件

Mobib推荐一些iOS应用程序。这是我在今天在Android上使用的。如果您发现更好的建议请告诉我,因为没有什么是完美的。

Android上的Bubble Level。我用它可以尽可能地获得原始展示位置。手机越靠近,在后处理中处理较少的倾斜。

相机应用程序非常关键,需要一些功能可行。您必须能够控制ISO值而不是自动分配。您希望您的手机摄像机的最低一部分是因为传感器上的最大信号。您希望对焦点进行最大控制。你需要对命名有一些控制。分配一个前缀,让你的扫描照片是PREFIX0001到PREFIX0100,与从一些有时间戳的混乱或任意数字中挑选出它们,这有很大的不同。

我选择了Android上的相机FV。我给出了免费版尝试验证它是否会满足最低标准,然后支付升级以解锁我想要的功能。有很多替代方案,所以如果有人发现合适的话,请告诉我,所以我也可以尝试一下。

扫描完这本书后,文件需要转移到计算机上。我发现通过USB插入和使用Android文件传输很痛苦,所以我安装了Dropsync。在免费版本中,它允许手机上的一个文件夹与Dropbox中的一个文件夹同步。我把相机FV文件夹设置为一个特别的文件夹,然后把它同步到我的Dropbox账户中的“DIY图书扫描收件箱”。它每5分钟运行一次,所以总是在后面。当我在做实际的扫描时,一些照片正在同步。虽然不是真正的时间,但在15或20分钟内就会赶上来,所以我尽量确保自己在做这件事时从不匆忙。最终我将把书批处理在一起,这样很多书就可以随着时间的推移被扫描和同步。当最后的内容逐渐出现时,我便能够处理最早的内容。

如果有一个与相同的功能具有相同的功能,但仅使用本地网络,我会非常满意。再次,让我知道你是否知道这样的Android应用程序。

桌面软件

对于预处理,我在OS X上使用Scantailor似乎最好的品种。我最终建造了使用这些方向从源头高达斯托勒。如果建立它超出了你,这是一个下载我在高塞拉建造的版本,当然不提供任何形式的保证。

对于OCR,我安装了tesseract.通过自制程序。

我安装了文本规范化uni2ascii通过自制程序。

对于PDF转换,我通过Homebrew安装了imagemagick,其中包括“转换”命令。

使用

此时,您将整个框架放在一起。您安装了Android应用程序。

虽然我稍后会讨论文件命名,但我在对齐相机之前设置计数器和文件前缀,因为没有点在输入文本时从对齐时敲击这一点。

把你正在用的任何一部手机放在手机支架里。我尽我所能地使用Bubble level应用,然后把书放在Siconi粘性垫上,用力推。无论你认为多大的努力是最合理的,都要再努力15%。我翻到一个漂亮的页边空白处有全文,以便评估框架,然后把压板放在上面。我把手机旋转到尽可能的方形。如果你的相机有取景线,你想让字体的线条与它们对齐。如果你需要更多或更少的画面,可以使用宏调整器来上下移动手机(少很少是我的问题,通常我把它调到下面)。在将所有东西重新排列好后,我再次回到Bubble关卡,只是为了验证我的调整没有将它踢出关卡。

相机FV仅允许4个字符的前缀。我为任何给定的书选择了三本(我开始使用“AAA”并每次递增。)我将计数器重置为1,并将前缀设置为AAAR或IaRORY,当我扫描最右边的(奇数页面)并以封面开始一直到内心封面。即使页面空白,也需要扫描,否则在整理时会稍后划线。扫描R后,我将书翻转下来并用AAAL重复过程,再次将计数器重置为1。这些将在后处理脚本中重新编号和整理。您可以从前面扫描左页面,只需要调整脚本。

如果你的双手都很灵巧,你可以从右向上扫视两边。如果你是左撇子,你可以选择颠倒整个过程,不像我描述的那样,这样你就可以用左手操作压板。扫描的过程是一个提起压板,翻页,放下,点击蓝牙触发按钮的过程。配置您的相机应用程序,以便尽快抓拍相机是有帮助的。我的方法花费的时间太长了,每增加一张照片的一秒钟,就会给300页的书增加至少5分钟的时间。我尝试了不同的自动对焦选项来加速。到目前为止,我只取得了有限的成功。

这部分是经过练习的技能方面,随着时间的推移而提高。最终的目标是有节奏的翻页,放下压板和捕捉图片,以尽可能少的物理调整压板或书。我还是以Mohib 30%的速度扫描在他的演示视频中。如果我不能达到他的速度,这将对这个项目的可行性造成很大的打击。我也想每分钟浏览22页,以便尽可能多地处理书籍,每小时占用我的空间。

后处理

下面使用虚假的示例名称和值,但您可以找出如何映射它,您有什么。我使用的shell脚本是可在我的GitHub目录的项目。如果您想提交更改,请随时叉并发送拉出请求。如果您不知道这意味着什么,只需下载zip文件并将它们使用它们。

现在,这本书已经被扫描过了。你最终会在你的Dropbox帐户或无论如何你移动你的文件一组文件命名为AAAL0001 - AAAL0156和AAAR0001 - AAAR0156。我创建了名为AAAL和AAAR的文件夹,并将文件移到其中。如果文件的数量不匹配,您就有问题了。如果它们不匹配,并且在中间丢失,这是非常直接的。看看缺失文件的两边,找出页码,再拍一张照片。它可能有不同的对齐和绝对不同的名称,所以要跟踪这些是什么。我倾向于使用像AAAX这样的前缀来明确这些是需要重命名的填充扫描。

更难的是,如果文件是连续但数字不匹配。这意味着两个文件夹中的一个具有太多或太少的图片。如果页面粘在一起,您需要查找丢失或额外的页面。我看每10个文件,看看页码是否递增20.如果没有,则问题在该范围内。如果扫描了两次页面,则删除一个页面。如果缺少,我捕获丢失的页面并命名为它将正确排序,类似AAAL0101A.jpeg。如果已添加或删除文件,则使用我的RENUMBER.SH脚本将返回顺序编号,并没有丢失。

现在是时候使用ScanTailor进行处理了。我将做左边和右边分开,因为他们将需要不同的方向校正。我们的目标是让ScanTailor尽可能自动地做很多事情。有很多可能的选择,我建议ScanTailor论坛获取更多信息。我可以花费尽可能多的时间讨论斯托诺尔配置作为这一长篇帖子的整个剩余部分。

我将使用Scantailor从原始AAAL和AAAR目录流程到名为AAA-STL和AAA-STR的目录。我仍然需要将它们分开。他们会很快得到合并。如上所述,我的目标是配置并允许Scantailor使用默认自动设置进行工作。任何书籍都尚未为我造成100%。如果需要,我发现检查并修复单个页面,希望像地狱一样,我不需要。

我还创建文件夹AAA-PDFL和AAA-PDFR。这是为了允许我潜行为OCR文本的不同的ScantoR播放器配置与捕获的页面的PDF。虽然我喜欢灵活性,最初我设想了一个OCR目标,而在PDF目标保留它们的同时,在实践中,我使用相同的OCR目标,只需将文件从-pdf目录中复制到-pdf目录。这些将很快发挥作用。

毕竟此预处理后,现在我运行我的处理脚本名称进程。这是以下事情:

  1. 为AAA-ST-RENUMBERED和AAA-PDF-RENUMBERED,AAA-OCR,AAA-PDF和AAA-FIMP的文件夹创建文件夹
  2. 复制并将文件从AAA-ST和AAA-PDF目录中重新编写到余额的等价物。此时,L和R被删除,文件被整理,使得通过文件1分页到结束显示了这本书。
  3. 在每个页面上运行TESSERACT。对于aaa0001.tif,它将创建aaa0001.txt
  4. 在所有的文件已经OCR,它将cat文件到一个文本文件在AAA-final
  5. 它将在文本文件上运行Uni2Ascii来清除文本文件中的奇怪伪像
  6. 它将使用转换功能的文件在aaa - PDF -重编号创建一个完整的PDF文件的所有这些图形。这通常比纯文本文件大50到150倍。

现在,我有了适合eInk阅读设备的文本的OCR版本,以及适合平板电脑或台式机的图形版本。如果一个人想要一个永久的高质量文本文件(例如Project Gutenberg),那么可以针对PDF对OCR版本进行校对。

所有这些看起来都是很长的路要走才能得到纸质书的电子版,事实也确实如此。除非人们每小时的收费很低,否则购买这本书通常比实际扫描它便宜。对于随手可得且价格合理的书,我会重新购买。对于没有当前电子版本的书籍(通常是较老的非畅销书),这是最好的选择。我想把我收集的20年来的科幻杂志存档,然后再把它们转交给某个档案管理员,或者更有可能的是,转交给我的路边回收。我想要报道,不想再把报纸藏起来了。

多年来,我曾说过我很乐意在我家中交易一些纸质书籍进行数字版本。现在,有一点时间和人力可能。我很高兴。

物理和设计改进或替代软件建议(和在GitHub上的拉请求改进我的脚本)是愉快的接受。关于我在追求这个项目时是否理智的问题,会被困惑地解读,然后基本上被忽略。批评我扫描我自己的财产以供我自己使用的任何法律、道德或伦理影响的评论,对我来说非常无趣,也被当作这样对待。

如果您自己构建此项,请告诉我图片和您自己的吞吐量统计数据。祝你好运,小心翼翼。

由...出版

戴夫

Dave Slusher是一个博客,播客,电脑程序员,作家,科幻迷和父亲。

关于“我构建的tillic DIY图书扫描器”的5点思考

留下一个回复

您的电子邮件地址将不会被公布。必填字段被标记*

这个网站使用Akismet来减少垃圾邮件。了解如何处理评论数据