本教程將展示如何使用PdgCntEditor工具軟件輕松完成這項任務(wù)。
一般操作步驟
-
在PdgCntEditor軟件中打開PDF文件(如果無法保存目錄,請查看Debug1部分的解決方法)。
-
從書籍目錄頁中復(fù)制目錄內(nèi)容。
-
粘貼復(fù)制的目錄內(nèi)容到PdgCntEditor軟件中(如果多復(fù)制了目錄頁的羅馬數(shù)字頁碼,請查看Debug2部分的解決方法)。
-
在PdgCntEditor中,全選文本。
-
依次點擊上面的三個按鈕:
- 自動分割頁碼按鈕(標有"g"圖標)。
- 自動縮進按鈕(標有"1."圖標)。
- 設(shè)置起始頁按鈕(標有"pdf"圖標)。
-
去除多余的"....."(可以在Sublime Text中執(zhí)行此操作,操作前會自動高亮顯示待處理內(nèi)容,不易出錯)。
- 執(zhí)行正則查找:\s.{3,}\s(\d+),替換為\t\1(具體說明見備注1)。
-
保存即可。
參考鏈接
- 軟件原作者鏈接(老馬的原創(chuàng)空間)
- 找目錄
- 當當網(wǎng)
- 京東
- 還可以使用軟件作者提供的其它軟件工具或者Adobe PDF自帶掃描功能對目錄頁進行OCR后直接復(fù)制。
- 其它教程:
小技巧
- 如果書籍有缺失,可以選擇從某一目錄下的頁碼自動加減某個數(shù)字(選中內(nèi)容后軟件里也有自動加減頁碼數(shù)的按鈕),進行更新。
- 可以使用Sublime Text進行正則替換,操作前會自動高亮顯示待處理內(nèi)容,不易出錯;PdgCntEditor幫助文檔中提供了常用的正則規(guī)則。
備注
- 去除多余的"....."正則式解析:
- 正則查找:\s.{3,}\s(\d+),替換為\t\1。
- 這個查找正則表達式匹配0個或多個空格,后跟三個或更多的點,然后是0個或多個空格,最后是另一個或多個數(shù)字(即頁碼,使用括號捕獲為第一組)。替換正則式表示tab加第一組內(nèi)容,即將"......xx"替換為頁碼"xx"。
Debug
-
保存失敗原因與解決:
- 文檔加密:需要先用pdf24解密。
- 文檔只讀模式:需要先另存為一下,取消只讀模式。
- 已打開文檔,需要先關(guān)閉。
-
從書籍目錄頁復(fù)制目錄內(nèi)容后,粘貼到軟件中發(fā)現(xiàn)多粘貼了目錄頁的羅馬數(shù)字頁碼:
- 需要使用以下正則表達式:[ivx]+\sContents 替換為空。
- 正則表達式 [ivx] 匹配的是羅馬數(shù)字字符中的任何一個,以便匹配類似于 "i Contents"、"ii Contents"、"iii Contents" 等帶有羅馬數(shù)字序號的文本。
__EOF__
|