免费黄色视频在线观看_日韩无码AV中字中_性欧美嫩交hd_国产成人一区二区在线

歡迎來到中博奧技術(shù)有限公司官網(wǎng)

檔案數(shù)字化掃描分別率

時(shí)間:2024-08-23 作者:老師 來源:網(wǎng)絡(luò) 點(diǎn)擊量:

  檔案數(shù)字化掃描分別率

  檔案數(shù)字化掃描的分辨率取決于需要掃描的文本或圖片的大小和清晰度要求。一般來說,以下是常見的幾種分辨率:

  1.150 DPI:適用于OCR文字識(shí)別,快速掃描需要轉(zhuǎn)換為文本的純文字文件。

  2.300 DPI:適用于常規(guī)彩色掃描及黑白文本掃描。

  3.600 DPI:適用于特別清晰的彩色掃描及高質(zhì)量的黑白文本掃描。

  4.1200 DPI:適用于非常高清晰的彩色掃描,如衛(wèi)星地圖等。

  需要注意的是,分辨率越高,掃描文件體積也會(huì)相應(yīng)增大,因此在選擇分辨率時(shí)需要根據(jù)實(shí)際需求和存儲(chǔ)容量進(jìn)行權(quán)衡。

  紙質(zhì)檔案數(shù)字化有哪些基本要求

  紙質(zhì)檔案數(shù)字化有哪些基本要求

  紙質(zhì)檔案是以紙張作為載體的一種檔案,如保存?zhèn)洳榈墓膱D紙、信札、電報(bào)、戶籍、帳冊(cè)、契約、證書、書稿、日記、筆記、家譜的原本和原稿。以下我為大家整理了紙質(zhì)檔案數(shù)字化有哪些基本要求的詳細(xì)內(nèi)容,希望對(duì)大家有所幫助!

檔案數(shù)字化掃描分別率

  紙質(zhì)檔案數(shù)字化基本要求

  1、基本原則

  紙質(zhì)檔案數(shù)字化的基本原則是使檔案信息資源準(zhǔn)確方便快捷地提供利用,使可以公開的檔案信息資源得到共享,以滿足社會(huì)對(duì)檔案利用的需求。

  2、數(shù)字化對(duì)像的確定原則

  應(yīng)當(dāng)對(duì)所要進(jìn)行數(shù)字化的對(duì)象按照一定的原則和方法進(jìn)行確認(rèn),只有符合一定要求的紙質(zhì)檔案文獻(xiàn)才能進(jìn)行數(shù)字化。

  檔案數(shù)字化掃描分別率

  1)符合國(guó)家法律法規(guī)的原則

  紙質(zhì)檔案的數(shù)字化,必須符合國(guó)家檔案開放規(guī)定以及有關(guān)規(guī)定。

  2)價(jià)值性原則屬于歸檔范圍且應(yīng)永久或長(zhǎng)期保存的、社會(huì)利用價(jià)值高的'檔案可列入數(shù)字化加工的范圍。

  3、基本環(huán)節(jié)

  紙質(zhì)檔案數(shù)字化的基本環(huán)節(jié)主要包括:檔案整理、目錄建庫(kù)、檔案掃描、圖像處理、圖像存儲(chǔ)、數(shù)據(jù)質(zhì)檢、數(shù)據(jù)掛接、數(shù)據(jù)驗(yàn)收、數(shù)據(jù)備份、成果管理等。

  檔案掃描

  1、掃描方式

  1)根據(jù)檔案幅面的大?。ˋ4、A3、A0等)選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀(如工程圖紙可采用0號(hào)圖紙掃描儀)進(jìn)行掃描。大幅面檔案可采用大幅面數(shù)碼平臺(tái),或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設(shè)備等進(jìn)行掃描,也可以采用小幅面掃描后的圖像拼接方式處理。

  檔案數(shù)字化掃描分別率

  2)紙張狀況較差,以及過薄、過軟或超厚的檔案,應(yīng)采用平板掃描方式;紙張狀況好的檔案可采用高速掃描方式以提高工作效率。

  2、掃描色彩模式

  1)掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用黑白二值。

  2)頁(yè)面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進(jìn)行掃描。

  3)頁(yè)面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁(yè)面為多色文字的檔案,可采用灰度模式掃描。

  4)頁(yè)面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可視需要采用彩色模式進(jìn)行掃描。

  3、掃描分辨率

  1)掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準(zhǔn)。

  2)采用黑白二值、灰度、彩色幾種模式對(duì)檔案進(jìn)行掃描時(shí),其分辨率一般均建議選擇≥200dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當(dāng)提高分辨率。

  3)需要進(jìn)行OCR漢字識(shí)別的檔案,掃描分辨率建議選擇≥300dpi。

  檔案數(shù)字化工作流程是怎樣的?

  檔案數(shù)字化加工流程

  前期檔案整理

  檔案借出

  從檔案室接件,填寫檔案移交清冊(cè),一式兩份。拿到檔案后,開始核對(duì)檔案數(shù)量,數(shù)量核對(duì)無誤后簽字確認(rèn),將檔案拿回加工現(xiàn)場(chǎng)。

  目錄數(shù)據(jù)準(zhǔn)備

  按照各類檔案整理規(guī)定的要求,在檔案管理系統(tǒng)著錄目錄數(shù)據(jù)。如有錯(cuò)誤或不規(guī)范的案卷題名、文件名、責(zé)任者、日期、起止頁(yè)號(hào)等,應(yīng)進(jìn)行修改。

  拆除裝訂

  在不去除裝訂物情況下,會(huì)影響掃描工作進(jìn)行的檔案,應(yīng)拆除裝訂物。拆除裝訂物時(shí)應(yīng)注意保護(hù)檔案不受損害。

  頁(yè)面修整

  破損嚴(yán)重、無法直接進(jìn)行掃描的檔案,應(yīng)先進(jìn)行技術(shù)修復(fù),褶皺不平影響掃描質(zhì)量的原件應(yīng)先進(jìn)行相應(yīng)處理(壓平或熨平等)后再進(jìn)行掃描。

  檔案掃描

  掃描方式

 ?。?)根據(jù)檔案幅面的大小(A4、A3、A0等)選擇相應(yīng)規(guī)格的掃描儀或?qū)I(yè)掃描儀(如工程圖紙可采用0號(hào)圖紙掃描儀)進(jìn)行掃描。大幅面檔案可采用大幅面數(shù)碼平臺(tái),或者縮微拍攝后的膠片數(shù)字化轉(zhuǎn)換設(shè)備等進(jìn)行掃描。

  (2)紙張狀況較差,以及過薄、過軟或超厚的檔案,應(yīng)采用平板掃描方式;紙張狀況好的檔案,可采用高速掃描方式以提高工作效率。

  掃描色彩模式

 ?。?)掃描色彩模式一般有黑白二值、灰度、彩色等。通常采用彩色。

  (2)頁(yè)面為黑白兩色,并且字跡清晰、不帶插圖的檔案,可采用黑白二值模式進(jìn)行掃描。

 ?。?)頁(yè)面為黑白兩色,但字跡清晰度差或帶有插圖的檔案,以及頁(yè)面為多色文字的檔案,可采用灰度模式掃描。

 ?。?)頁(yè)面中有紅頭、印章或插有黑白照片、彩色照片、彩色插圖的檔案,可采用彩色模式進(jìn)行掃描。

  掃描分辨率

 ?。?)掃描分辨率參數(shù)大小的選擇,原則上以掃描后的圖像清晰、完整、不影響圖像的利用效果為準(zhǔn)。

 ?。?)采用黑白二值、灰度、彩色幾種模式對(duì)檔案進(jìn)行掃描時(shí),其分辨率一般應(yīng)設(shè)為200-300dpi。特殊情況下,如文字偏小、密集、清晰度較差等,可適當(dāng)提高分辨率。

  圖像處理

  圖像數(shù)據(jù)質(zhì)量檢查

 ?。?)對(duì)圖像偏斜度、清晰度、失真度等進(jìn)行檢查。發(fā)現(xiàn)不符合圖像質(zhì)量要求時(shí),應(yīng)重新進(jìn)行圖像的處理。

 ?。?)由于操作不當(dāng),造成掃描的圖像文件不完整或無法清晰識(shí)別時(shí),應(yīng)重新掃描。

 ?。?)發(fā)現(xiàn)文件漏掃時(shí),應(yīng)及時(shí)補(bǔ)掃并正確插入圖像。

 ?。?)發(fā)現(xiàn)掃描圖像的排列順序與檔案原件不一致時(shí),應(yīng)及時(shí)進(jìn)行調(diào)整。

  糾偏、去污、圖像拼接、裁邊處理

 ?。?)對(duì)出現(xiàn)偏斜的圖像應(yīng)進(jìn)行糾偏處理,以達(dá)到視覺上基本不感覺偏斜為準(zhǔn)。對(duì)方向不正確的圖像應(yīng)進(jìn)行旋轉(zhuǎn)還原,以符合閱讀習(xí)慣。

 ?。?)對(duì)圖像頁(yè)面中出現(xiàn)的影響圖像質(zhì)量的雜質(zhì),如黑點(diǎn)、黑線、黑框、黑邊等應(yīng)進(jìn)行去污處理。處理過程中應(yīng)遵循在不影響可懂度的前提下展現(xiàn)檔案原貌的原則。

 ?。?)對(duì)大幅面檔案進(jìn)行分區(qū)掃描形成的多幅圖像,應(yīng)進(jìn)行拼接處理,合并為一個(gè)完整的圖像,以保證檔案數(shù)字化圖像的整體性。

 ?。?)采用彩色模式掃描的圖像應(yīng)進(jìn)行裁邊處理,去除多余的白邊,以有效縮小圖像文件的容量,節(jié)省存儲(chǔ)空間。

  圖像存儲(chǔ)

  存儲(chǔ)格式

  (1)采用黑白二值模式掃描的圖像文件,一般采用PDF格式存儲(chǔ)。

 ?。?)采用灰度模式和彩色模式掃描的文件,一般采用PDF格式存儲(chǔ)。

  圖像文件命名

 ?。?)紙質(zhì)檔案目錄數(shù)據(jù)庫(kù)中的每一份文件,都有一個(gè)與之相對(duì)應(yīng)的檔號(hào),以該檔號(hào)為這份文件掃描后的圖像文件命名。如圖像文件較大,不便于網(wǎng)絡(luò)瀏覽,可拆分為多個(gè)圖像文件,文件名后增加A、B、C等區(qū)別。

 ?。?)分別建立文件夾,以文件檔號(hào)命名,并存儲(chǔ)對(duì)應(yīng)圖像文件。

  數(shù)據(jù)掛接

  將每一份紙質(zhì)檔案掃描所得的圖像存儲(chǔ)到相應(yīng)檔號(hào)的文件夾后,認(rèn)真核查每一份圖像文件的名稱與檔案目錄數(shù)據(jù)庫(kù)中該份文件的檔號(hào)是否相同,圖像文件的頁(yè)數(shù)與檔案目錄數(shù)據(jù)庫(kù)中文件的總頁(yè)數(shù)是否相同等。通過每一份圖像文件所在文件夾的名稱與檔案目錄數(shù)據(jù)庫(kù)中該份文件的檔號(hào)的一致性,建立起一一對(duì)應(yīng)的關(guān)聯(lián)關(guān)系,為實(shí)現(xiàn)檔案目錄數(shù)據(jù)庫(kù)與圖像文件的批量掛接提供條件。

  紙質(zhì)檔案進(jìn)行數(shù)字化轉(zhuǎn)換后原件可以銷毀嗎

  能(A)紙質(zhì)文件的數(shù)字化處理紙質(zhì)文件的數(shù)字化處理方法主要有兩種:直接掃描法和縮微法。

  1.直接掃描方法所謂直接掃描法,就是用掃描儀對(duì)原始紙質(zhì)文件進(jìn)行光學(xué)掃描,將圖像信息傳輸?shù)焦怆娹D(zhuǎn)換器中變成模擬電信號(hào),再將模擬電信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào),再通過計(jì)算機(jī)接口傳輸?shù)接?jì)算機(jī)存儲(chǔ)器中。直接掃描可以分為兩種方式:

  (1)對(duì)紙質(zhì)文件進(jìn)行掃描后,使用字符識(shí)別(OCR)軟件進(jìn)行識(shí)別,最終生成文本文件。這種數(shù)字文件的優(yōu)點(diǎn)是:占用空間小,便于計(jì)算機(jī)全文檢索,文件使用時(shí)易于提取和編輯。其缺點(diǎn)是:不能保留原文件的排版格式,以及簽名、印章等原始信息;有時(shí)候OCR字符識(shí)別的準(zhǔn)確率低,檢查修改困難,數(shù)字化效率很低,實(shí)際上已經(jīng)破壞了原始文件的真實(shí)性。

  (2)掃描紙質(zhì)文件,形成數(shù)字圖像文件。這種圖像文件的優(yōu)點(diǎn)是:能保持文件內(nèi)容和排版的原貌,數(shù)字化速度快。缺點(diǎn)是:無法進(jìn)行全文檢索,無法編輯文本內(nèi)容,占用存儲(chǔ)空間大。以上兩種方法的優(yōu)缺點(diǎn)正好互補(bǔ)。現(xiàn)在有一種方法可以把兩種方法的優(yōu)點(diǎn)結(jié)合到一個(gè)文件里,就是做一個(gè)雙層PDF。

  制作方法是:將原來的紙質(zhì)文件掃描成數(shù)字圖像文件再轉(zhuǎn)換成文本文件,然后將兩個(gè)內(nèi)容相同的文件放在同一個(gè)PDF文件中,圖像文件放在文本文件的上層,文本文件隱藏在圖像文件的下層。在查詢這個(gè)文件時(shí),我們不僅可以看到上層的原始圖像文件,還可以全文搜索隱藏的文本文件。

  2.縮微方法所謂縮微膠片轉(zhuǎn)換方法,就是對(duì)已經(jīng)縮微的文件,使用專用的掃描設(shè)備(即縮微膠片掃描儀),將縮微膠片上的模擬圖像轉(zhuǎn)換成數(shù)字圖像的方法。與直接掃描法相比,顯微掃描法更經(jīng)濟(jì)、簡(jiǎn)單、高效。但是,這種方法必須建立在紙質(zhì)文件的微細(xì)加工基礎(chǔ)上。

  值得注意的是,掃描微縮膠片后,原微縮膠片應(yīng)與紙質(zhì)檔案一起保存,不得擅自銷毀。這樣,文件就形成了“三集”的存儲(chǔ)狀態(tài)。盡管縮微膠片不如數(shù)字文件易于保存、復(fù)制、查詢和傳播,但作為模擬信息,縮微膠片文件具有數(shù)字文件所不具備的優(yōu)點(diǎn),如人類可讀、穩(wěn)定性好、體積小等,是紙質(zhì)文件所不具備的,應(yīng)成為檔案信息資源的重要補(bǔ)充形式。

  (B)紙質(zhì)文件的數(shù)字化工作流程紙質(zhì)檔案數(shù)字化是一個(gè)復(fù)雜的過程,其基本環(huán)節(jié)主要包括:檔案整理、檔案掃描、圖像處理、圖像存儲(chǔ)、編目建庫(kù)、數(shù)據(jù)掛鉤、數(shù)據(jù)驗(yàn)收、數(shù)據(jù)備份、成果管理。文件整理紙質(zhì)檔案掃描前,根據(jù)檔案管理情況,按照以下步驟對(duì)檔案進(jìn)行適當(dāng)整理,并根據(jù)需要進(jìn)行標(biāo)記,以保證檔案的數(shù)字化質(zhì)量。

  (1)文件出庫(kù)一般來說,對(duì)大量紙質(zhì)檔案進(jìn)行數(shù)字化處理,首先要將待數(shù)字化的檔案從檔案?jìng)}庫(kù)搬到臨時(shí)周轉(zhuǎn)倉(cāng)庫(kù);然后,數(shù)字處理人員從周轉(zhuǎn)倉(cāng)庫(kù)接收文件進(jìn)行數(shù)字化。無論前者或后者,數(shù)字化處理人員都必須按預(yù)定計(jì)劃提出申請(qǐng),經(jīng)審批后,向雙方移交檔案,登記并完成交接手續(xù)。

  (2)目錄數(shù)據(jù)準(zhǔn)備根據(jù)《檔案著錄規(guī)則》(DA/T18-1999)的要求,規(guī)范檔案的內(nèi)容,包括確定檔案的著錄項(xiàng)目、字段長(zhǎng)度和內(nèi)容要求。然后,建立一個(gè)用于數(shù)字文件檢索的目錄數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)建設(shè)可以利用原有紙質(zhì)檔案的編目基礎(chǔ)。如果原始紙質(zhì)文件目錄存在錯(cuò)誤或不規(guī)范,如標(biāo)題、文件名、負(fù)責(zé)人、起止頁(yè)碼和頁(yè)數(shù)等。,應(yīng)該修改。紙質(zhì)檔案未建立機(jī)讀目錄數(shù)據(jù)庫(kù)的,應(yīng)按檔案著錄規(guī)則重新錄入。

  (3)解除捆綁文件可以在去除綁定前逐一貼上條形碼,以便在后續(xù)流程中通過識(shí)別條形碼對(duì)掃描的文件進(jìn)行準(zhǔn)確高效的控制。條形碼還可以為今后檔案借閱和利用的管理提供方便。然后,工作人員一卷一卷、一頁(yè)一頁(yè)地檢查檔案。對(duì)缺失內(nèi)容、遺漏內(nèi)容、顛倒頁(yè)碼、珍貴破損檔案進(jìn)行登記,交檔案保管機(jī)構(gòu)妥善處理。

  對(duì)于不解除綁定會(huì)影響掃描工作的文件,應(yīng)解除綁定。拆除裝訂時(shí),應(yīng)注意保護(hù)文件不受損壞。拆除裝訂后,應(yīng)將原文件按順序排列,并用夾子夾住,以防散落。對(duì)于歷史悠久,紙質(zhì)條件差,不方便拆封的,可以使用零頁(yè)邊距掃描儀進(jìn)行掃描。

  (4)區(qū)分掃描件和非掃描件。根據(jù)要求,將同一案卷中的掃描件和非掃描件分開,剔除無關(guān)和重復(fù)件。

  (5)頁(yè)面修剪紙張的質(zhì)量與掃描儀的選擇和掃描效果有關(guān)。因此,對(duì)于破損嚴(yán)重、褶皺不平、字跡模糊的檔案,必須分別登記處理。比如折疊的文件可以熨燙;對(duì)于被污染的紙張,可以在通風(fēng)的環(huán)境下用軟刷輕輕刷掉漂浮的灰塵、污垢或霉菌;必須修復(fù)損壞和不完整的文檔。

  (六)備案登記將整理后的原始文件移交給掃描人員,制作并填寫紙質(zhì)文件數(shù)字化處理交接登記表,詳細(xì)記錄整理后每個(gè)文件的起始頁(yè)碼和頁(yè)碼。

  (七)裝訂、修復(fù)和歸還掃描工作完成后,已拆除的檔案應(yīng)按檔案保管要求重新裝訂?;謴?fù)裝訂時(shí),要注意保持文件的排列順序不變,做到安全、準(zhǔn)確、不遺漏。更換嚴(yán)重?fù)p壞的輥和箱。裝訂人員會(huì)在裝訂好的文件上加蓋專用印章和專用數(shù)碼印章。文件的數(shù)字處理和重新裝訂完成后,應(yīng)進(jìn)行清點(diǎn)。清點(diǎn)無誤后,交回檔案管理部門,辦理檔案歸還手續(xù)。

  2.文件掃描(1)掃描設(shè)備的選擇根據(jù)文件格式的大小(A4、A3、A0等。),選擇相應(yīng)規(guī)格的掃描儀。大幅面文件可以用寬幅掃描儀掃描,縮微后用膠片數(shù)字轉(zhuǎn)換設(shè)備掃描,小幅面掃描后用圖像拼接。紙張狀況不好、太薄、太軟或太厚的文件,以及多色頁(yè)面的文件,都可以用普通平板掃描儀掃描。

  紙張條件好的A4、A3文件可以用高速掃描儀掃描,提高工作效率。不適合拆包的文件可以用零頁(yè)邊距掃描儀掃描。(2)掃描顏色模式的選擇通常,有兩種掃描顏色模式:一種是掃描形成黑白二值圖像。這種圖像只有黑白兩級(jí),沒有過渡灰度。其特點(diǎn)是黑白分明,字跡清晰,文件容量小。它適用于掃描筆跡清晰、線條清晰的文本或圖形文件。

  二是掃描形成連續(xù)色調(diào)的靜態(tài)圖像。這類圖像分為灰度圖像和彩色圖像。灰度圖像由從最暗的黑色到最亮的白色的不同灰度組成?;叶缺硎疽环鶊D像從亮部到暗部的層次,也叫色階?;叶仍礁撸瑢哟卧截S富,文件容量越大?;疑J竭m合掃描黑白照片和圖像文件,色階的選擇要適中,只要不影響畫質(zhì)即可。

  顏色模式中的顏色數(shù)量表示顏色的范圍。顏色越多,圖像越生動(dòng)真實(shí),文件容量越大。同樣,色號(hào)的選擇也要適度,不是越多越好。彩色模式適用于掃描文件或頁(yè)面上帶有紅色抬頭和印章的彩色照片文件。需要永久保存或長(zhǎng)期保存,或移交國(guó)家檔案館的檔案,一般應(yīng)采用彩色模式掃描。

  (3)掃描分辨率掃描分辨率參數(shù)的選擇原則上是基于掃描圖像的清晰度和完整性,不會(huì)影響圖像的利用效果。黑白二進(jìn)制、灰度、彩色模式掃描文件時(shí),分辨率一般建議大于等于200dpi。特殊情況下,如文字小、文字密、清晰度差等。,分辨率可以適當(dāng)提高。對(duì)于需要OCR漢字識(shí)別的文件,掃描分辨率建議選擇300dpi。

  (4)光學(xué)字符識(shí)別處理目前OCR技術(shù)已經(jīng)相當(dāng)成熟,一般掃描儀都有自己的OCR軟件,使用起來也非常方便。但是OCR的識(shí)別準(zhǔn)確率往往不盡如人意,影響檢索效果。手動(dòng)修改稿件中的錯(cuò)別字很麻煩。因此,提高OCR識(shí)別率是檔案數(shù)字化中的一個(gè)重要問題。

  其實(shí)只要注意以下幾點(diǎn),就可以明顯提高OCR識(shí)別率:一是選擇合適的掃描分辨率。過低的掃描分辨率往往會(huì)導(dǎo)致OCR識(shí)別率下降,過高的分辨率則會(huì)使圖像文件過大,降低識(shí)別速度。在實(shí)際操作中,操作者可以通過查看OCR識(shí)別后生成的文本中紅色錯(cuò)別字的數(shù)量(如小于3%)來判斷可接受性,決定是否以此分辨率掃描,進(jìn)行OCR識(shí)別。

  二是盡量黑白二進(jìn)制模式掃描。用掃描儀掃描文檔時(shí),OCR通常接受灰色或黑白二進(jìn)制模式,不接受彩色模式。如果稿件的印刷質(zhì)量好,可以采用灰色模式,否則應(yīng)采用黑白二進(jìn)制模式。掃描時(shí),您可以手動(dòng)調(diào)整黑白閾值的大小。如果黑白二值圖像上的文字輪廓不完整,適當(dāng)增加閾值。

  如果文本的輪廓太粗,說明信息冗余較多,可以適當(dāng)降低閾值。這樣調(diào)整后形成的黑白二值掃描圖像可以達(dá)到更好的OCR識(shí)別效果。

  第三,在進(jìn)行OCR識(shí)別時(shí)注意字符的傾斜校正。OCR識(shí)別允許文檔輕微傾斜,但過度傾斜會(huì)影響識(shí)別率。校正方法是在掃描軟件上點(diǎn)擊傾斜校正按鈕,識(shí)別軟件會(huì)在OCR識(shí)別前自動(dòng)校正圖像。

  四是稿件識(shí)別前的預(yù)處理。去除稿件中的雜物和圖片,因?yàn)殡s物會(huì)干擾文字識(shí)別,圖片無法識(shí)別,會(huì)影響OCR的文字分割。針對(duì)稿件中的欄目,建議手動(dòng)設(shè)置欄目區(qū)域,即用多個(gè)方框選擇要識(shí)別的文字,然后進(jìn)行OCR識(shí)別。五是采取適當(dāng)?shù)淖R(shí)別方法。簡(jiǎn)體和繁體稿件混雜,中英文稿件識(shí)別率往往較低。如果簡(jiǎn)體和繁體中英文分塊分布,可以用圖像處理軟件將不同的文本塊編輯成文本塊相似的文件,然后分別用OCR識(shí)別不同的字符。

  (5)掃描注冊(cè)認(rèn)真填寫紙質(zhì)文件數(shù)字化轉(zhuǎn)換流程交接登記表,登記掃描頁(yè)數(shù),核對(duì)每份文件實(shí)際掃描頁(yè)數(shù)與歸檔時(shí)填寫的文件頁(yè)數(shù)是否一致。如不一致,應(yīng)注明具體原因和處理方法。3.圖像處理掃描完成后,獲得的圖像必須按要求進(jìn)行技術(shù)處理,以糾正掃描文件與原始文件之間的偏差,使掃描文件更清晰、更規(guī)范。

  圖像處理一般包括以下內(nèi)容:(1)影像數(shù)據(jù)質(zhì)量檢查檢查圖像的偏斜、清晰度和失真。如果發(fā)現(xiàn)不符合質(zhì)量要求,應(yīng)對(duì)圖像進(jìn)行重新處理。當(dāng)掃描的圖像文件不完整或因操作不當(dāng)無法清晰識(shí)別時(shí),應(yīng)重新掃描;如有漏掃描文件,及時(shí)補(bǔ)掃描,正確插入圖像;當(dāng)發(fā)現(xiàn)掃描圖像的排列順序與原始文件不一致時(shí),應(yīng)及時(shí)調(diào)整。認(rèn)真填寫相關(guān)表格,記錄質(zhì)量檢查結(jié)果和處理意見。

  (2)整改應(yīng)該校正偏轉(zhuǎn)圖像,以便在視覺上感覺不到偏轉(zhuǎn)。方向不正確的圖片要旋轉(zhuǎn)還原,符合閱讀習(xí)慣。

  (3)去污影響圖像質(zhì)量的雜質(zhì),如黑點(diǎn)、黑線、黑框和黑邊,應(yīng)該去除。在處理過程中,應(yīng)注意不要破壞文件的原始信息。

  (4)圖像拼接掃描不同區(qū)域的大幅面文件形成的多幅圖像應(yīng)拼接合并成一幅完整的圖像,以保證文件數(shù)字圖像的完整性。

  (5)修剪彩色模式下掃描的圖像應(yīng)進(jìn)行修剪,去除多余的白邊,以有效減少圖像文件的容量,節(jié)省存儲(chǔ)空間。以上的整改、去污、修整等處理都可以根據(jù)肉眼手動(dòng)完成。也可以使用專門設(shè)計(jì)的軟件,預(yù)先進(jìn)行一定的設(shè)置,然后由計(jì)算機(jī)自動(dòng)處理。計(jì)算機(jī)處理當(dāng)然效率高,但不如手工處理靈活。

  比如,一旦污漬的大小被設(shè)計(jì)得太小,電腦會(huì)自動(dòng)把一些標(biāo)點(diǎn)符號(hào)作為污漬去掉。因此,掃描圖像的處理也需要采用手動(dòng)和自動(dòng)相結(jié)合的處理方式。

  4.圖像存儲(chǔ)(1)存儲(chǔ)格式以黑白二進(jìn)制模式掃描的圖像文件通常以TIFF(G4)格式存儲(chǔ)。以灰色模式和彩色模式掃描的圖像文件通常以JPEG格式存儲(chǔ)。存儲(chǔ)時(shí)壓縮比的選擇應(yīng)以保證掃描圖像易讀性的前提下最小化存儲(chǔ)容量為基礎(chǔ)。提供網(wǎng)絡(luò)查詢的掃描圖像,也可以存儲(chǔ)為CEB,PDF或其他格式的文件。

  (2)圖像文件的命名數(shù)字檔案資源應(yīng)以檔案號(hào)或唯一標(biāo)識(shí)符命名。用檔案號(hào)命名數(shù)字檔案資源的,按卷排序的,應(yīng)按《檔案號(hào)編制規(guī)則》(DA/T 13-1994)編制檔案號(hào),建議增加檔案類別碼作為類別號(hào)的子項(xiàng);若按件排序,案卷號(hào)可采用“全宗號(hào)-案卷類別碼年份-保管期限-機(jī)構(gòu)(問題)碼-件號(hào)-分件號(hào)”的結(jié)構(gòu)。

  5.目錄數(shù)據(jù)庫(kù)建設(shè)(1)數(shù)據(jù)格式選擇目錄數(shù)據(jù)庫(kù)建設(shè)應(yīng)選擇通用數(shù)據(jù)格式,所選數(shù)據(jù)格式應(yīng)能通過XML文檔直接或間接交換數(shù)據(jù)。這個(gè)數(shù)據(jù)庫(kù)的建立可以通過專門的檔案管理系統(tǒng)或者掃描處理管理軟件錄入,也可以通過EXCEL專門設(shè)計(jì)的檔案目錄表錄入,然后將數(shù)據(jù)導(dǎo)入檔案管理系統(tǒng)。

  (2)檔案描述根據(jù)《檔案著錄規(guī)則》(DA/T18-1999)的要求,建立檔案目錄數(shù)據(jù)庫(kù),錄入檔案目錄數(shù)據(jù)。

  (3)目錄數(shù)據(jù)的質(zhì)量檢查為保證數(shù)據(jù)的準(zhǔn)確性,可采用“單機(jī)錄入-人工校對(duì)”或“雙機(jī)錄入-計(jì)算機(jī)自動(dòng)校對(duì)”的方法。無論是人工校對(duì)還是計(jì)算機(jī)校對(duì),都要檢查描述項(xiàng)目是否齊全,描述內(nèi)容是否規(guī)范準(zhǔn)確,如發(fā)現(xiàn)不合格數(shù)據(jù),應(yīng)進(jìn)行修改或重新記錄。

  6.數(shù)據(jù)掛鉤(1)匯總掛鉤檔案數(shù)字化轉(zhuǎn)換過程中形成的編目數(shù)據(jù)庫(kù)和影像文件,經(jīng)質(zhì)量檢查合格后,通過網(wǎng)絡(luò)及時(shí)加載到數(shù)據(jù)服務(wù)器進(jìn)行匯總。目錄數(shù)據(jù)庫(kù)和鏡像文件要避免慢且容易出錯(cuò)的手動(dòng)掛接,盡量批量使用電腦自動(dòng)掛接。只要將掃描的數(shù)字文件按照紙質(zhì)文件的文件號(hào)進(jìn)行命名,就可以通過編制掛鉤程序或借助相應(yīng)的軟件,實(shí)現(xiàn)相關(guān)數(shù)字圖像的自動(dòng)搜索和相應(yīng)電子地址信息的添加,從而實(shí)現(xiàn)批量、快速掛鉤。

  (2)數(shù)據(jù)關(guān)聯(lián)基于紙質(zhì)文件目錄數(shù)據(jù)庫(kù),從每個(gè)紙質(zhì)文件掃描的一個(gè)或多個(gè)圖像被存儲(chǔ)為圖像文件。將圖像文件存儲(chǔ)在相應(yīng)的文件夾中時(shí),需要仔細(xì)檢查每個(gè)圖像文件的名稱是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件號(hào)相同,圖像文件的頁(yè)數(shù)是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件頁(yè)數(shù)相同,圖像文件的總數(shù)是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件數(shù)相同。

  利用每個(gè)圖像文件的文件名與該文件在歸檔目錄數(shù)據(jù)庫(kù)中的文件號(hào)建立一一對(duì)應(yīng)的關(guān)系,為歸檔目錄數(shù)據(jù)庫(kù)與圖像文件的自動(dòng)批量連接提供了條件。

  (3)交接登記認(rèn)真填寫紙質(zhì)文件數(shù)字化轉(zhuǎn)換過程交接登記表,記錄數(shù)據(jù)關(guān)聯(lián)后的頁(yè)數(shù),檢查每次文件關(guān)聯(lián)后的頁(yè)數(shù)與文件整理掃描時(shí)填寫的頁(yè)數(shù)是否一致。如不一致,應(yīng)注明具體原因和處理方法。

  7.數(shù)據(jù)接受檢查所有已經(jīng)采樣數(shù)字化的數(shù)據(jù),包括目錄數(shù)據(jù)庫(kù)、圖像文件和數(shù)據(jù)掛鉤的整體質(zhì)量。當(dāng)目錄數(shù)據(jù)庫(kù)和圖像文件鏈接出現(xiàn)錯(cuò)誤,或者目錄數(shù)據(jù)庫(kù)和圖像文件中有一個(gè)不完整、不清晰、有錯(cuò)誤時(shí),抽檢將標(biāo)記為“不合格”。一個(gè)全宗文件,當(dāng)數(shù)字轉(zhuǎn)換質(zhì)量抽檢合格率達(dá)到95%以上(含95%)時(shí),將被驗(yàn)收為“通過”。

  合格率=通過抽樣檢查的文件數(shù)/通過抽樣檢查的文件總數(shù)×100%。認(rèn)真填寫紙質(zhì)檔案數(shù)字化驗(yàn)收登記表。驗(yàn)收“通過”的結(jié)論必須經(jīng)過審核簽字才能生效。

  8.數(shù)據(jù)備份完整、合格的數(shù)據(jù)應(yīng)及時(shí)備份。為保證數(shù)據(jù)安全,備份載體的選擇應(yīng)多樣化,可采用線上線下相結(jié)合的方式實(shí)現(xiàn)多套備份,并注意遠(yuǎn)程存儲(chǔ)。

  還應(yīng)該檢查備份數(shù)據(jù)。備份數(shù)據(jù)的檢查內(nèi)容主要包括備份數(shù)據(jù)是否可以打開,數(shù)據(jù)信息是否完整,文件數(shù)量是否準(zhǔn)確。數(shù)據(jù)備份后,應(yīng)在相應(yīng)的備份介質(zhì)上做好標(biāo)記,以便于查找和管理。填寫紙質(zhì)文件數(shù)字備份管理登記表。

  9.數(shù)字結(jié)果管理應(yīng)加強(qiáng)紙質(zhì)檔案數(shù)字化成果的管理,確保其安全性、完整性和長(zhǎng)期可用性。提供紙質(zhì)檔案數(shù)字化成果在線檢索利用時(shí),應(yīng)當(dāng)有制作單位的電子標(biāo)識(shí),并根據(jù)具體情況采用可下載或不可下載的數(shù)據(jù)格式。

  紙質(zhì)檔案進(jìn)行數(shù)字化轉(zhuǎn)換后原件可以銷毀

  能(A)紙質(zhì)文件的數(shù)字化處理紙質(zhì)文件的數(shù)字化處理方法主要有兩種:直接掃描法和縮微法。

  1.直接掃描方法所謂直接掃描法,就是用掃描儀對(duì)原始紙質(zhì)文件進(jìn)行光學(xué)掃描,將圖像信息傳輸?shù)焦怆娹D(zhuǎn)換器中變成模擬電信號(hào),再將模擬電信號(hào)轉(zhuǎn)換成數(shù)字電信號(hào),再通過計(jì)算機(jī)接口傳輸?shù)接?jì)算機(jī)存儲(chǔ)器中。

  直接掃描可以分為兩種方式:(1)對(duì)紙質(zhì)文件進(jìn)行掃描后,使用字符識(shí)別(OCR)軟件進(jìn)行識(shí)別,最終生成文本文件。這種數(shù)字文件的優(yōu)點(diǎn)是:占用空間小,便于計(jì)算機(jī)全文檢索,文件使用時(shí)易于提取和編輯。

  其缺點(diǎn)是:不能保留原文件的排版格式,以及簽名、印章等原始信息;有時(shí)候OCR字符識(shí)別的準(zhǔn)確率低,檢查修改困難,數(shù)字化效率很低,實(shí)際上已經(jīng)破壞了原始文件的真實(shí)性。

  (2)掃描紙質(zhì)文件,形成數(shù)字圖像文件。這種圖像文件的優(yōu)點(diǎn)是:能保持文件內(nèi)容和排版的原貌,數(shù)字化速度快。缺點(diǎn)是:無法進(jìn)行全文檢索,無法編輯文本內(nèi)容,占用存儲(chǔ)空間大。以上兩種方法的優(yōu)缺點(diǎn)正好互補(bǔ)?,F(xiàn)在有一種方法可以把兩種方法的優(yōu)點(diǎn)結(jié)合到一個(gè)文件里,就是做一個(gè)雙層PDF。

  制作方法是:將原來的紙質(zhì)文件掃描成數(shù)字圖像文件再轉(zhuǎn)換成文本文件,然后將兩個(gè)內(nèi)容相同的文件放在同一個(gè)PDF文件中,圖像文件放在文本文件的上層,文本文件隱藏在圖像文件的下層。在查詢這個(gè)文件時(shí),我們不僅可以看到上層的原始圖像文件,還可以全文搜索隱藏的文本文件。

  2.縮微方法所謂縮微膠片轉(zhuǎn)換方法,就是對(duì)已經(jīng)縮微的文件,使用專用的掃描設(shè)備(即縮微膠片掃描儀),將縮微膠片上的模擬圖像轉(zhuǎn)換成數(shù)字圖像的方法。與直接掃描法相比,顯微掃描法更經(jīng)濟(jì)、簡(jiǎn)單、高效。但是,這種方法必須建立在紙質(zhì)文件的微細(xì)加工基礎(chǔ)上。

  值得注意的是,掃描微縮膠片后,原微縮膠片應(yīng)與紙質(zhì)檔案一起保存,不得擅自銷毀。這樣,文件就形成了“三集”的存儲(chǔ)狀態(tài)。盡管縮微膠片不如數(shù)字文件易于保存、復(fù)制、查詢和傳播,但作為模擬信息,縮微膠片文件具有數(shù)字文件所不具備的優(yōu)點(diǎn),如人類可讀、穩(wěn)定性好、體積小等,是紙質(zhì)文件所不具備的,應(yīng)成為檔案信息資源的重要補(bǔ)充形式。

  (B)紙質(zhì)文件的數(shù)字化工作流程紙質(zhì)檔案數(shù)字化是一個(gè)復(fù)雜的過程,其基本環(huán)節(jié)主要包括:檔案整理、檔案掃描、圖像處理、圖像存儲(chǔ)、編目建庫(kù)、數(shù)據(jù)掛鉤、數(shù)據(jù)驗(yàn)收、數(shù)據(jù)備份、成果管理。文件整理紙質(zhì)檔案掃描前,根據(jù)檔案管理情況,按照以下步驟對(duì)檔案進(jìn)行適當(dāng)整理,并根據(jù)需要進(jìn)行標(biāo)記,以保證檔案的數(shù)字化質(zhì)量。

  (1)文件出庫(kù)一般來說,對(duì)大量紙質(zhì)檔案進(jìn)行數(shù)字化處理,首先要將待數(shù)字化的檔案從檔案?jìng)}庫(kù)搬到臨時(shí)周轉(zhuǎn)倉(cāng)庫(kù);然后,數(shù)字處理人員從周轉(zhuǎn)倉(cāng)庫(kù)接收文件進(jìn)行數(shù)字化。無論前者或后者,數(shù)字化處理人員都必須按預(yù)定計(jì)劃提出申請(qǐng),經(jīng)審批后,向雙方移交檔案,登記并完成交接手續(xù)。

  (2)目錄數(shù)據(jù)準(zhǔn)備根據(jù)《檔案著錄規(guī)則》(DA/T18-1999)的要求,規(guī)范檔案的內(nèi)容,包括確定檔案的著錄項(xiàng)目、字段長(zhǎng)度和內(nèi)容要求。然后,建立一個(gè)用于數(shù)字文件檢索的目錄數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)建設(shè)可以利用原有紙質(zhì)檔案的編目基礎(chǔ)。如果原始紙質(zhì)文件目錄存在錯(cuò)誤或不規(guī)范,如標(biāo)題、文件名、負(fù)責(zé)人、起止頁(yè)碼和頁(yè)數(shù)等。,應(yīng)該修改。紙質(zhì)檔案未建立機(jī)讀目錄數(shù)據(jù)庫(kù)的,應(yīng)按檔案著錄規(guī)則重新錄入。

  (3)解除捆綁文件可以在去除綁定前逐一貼上條形碼,以便在后續(xù)流程中通過識(shí)別條形碼對(duì)掃描的文件進(jìn)行準(zhǔn)確高效的控制。條形碼還可以為今后檔案借閱和利用的管理提供方便。然后,工作人員一卷一卷、一頁(yè)一頁(yè)地檢查檔案。

  對(duì)缺失內(nèi)容、遺漏內(nèi)容、顛倒頁(yè)碼、珍貴破損檔案進(jìn)行登記,交檔案保管機(jī)構(gòu)妥善處理。對(duì)于不解除綁定會(huì)影響掃描工作的文件,應(yīng)解除綁定。拆除裝訂時(shí),應(yīng)注意保護(hù)文件不受損壞。拆除裝訂后,應(yīng)將原文件按順序排列,并用夾子夾住,以防散落。對(duì)于歷史悠久,紙質(zhì)條件差,不方便拆封的,可以使用零頁(yè)邊距掃描儀進(jìn)行掃描。

  (4)區(qū)分掃描件和非掃描件。根據(jù)要求,將同一案卷中的掃描件和非掃描件分開,剔除無關(guān)和重復(fù)件。

  (5)頁(yè)面修剪紙張的質(zhì)量與掃描儀的選擇和掃描效果有關(guān)。因此,對(duì)于破損嚴(yán)重、褶皺不平、字跡模糊的檔案,必須分別登記處理。比如折疊的文件可以熨燙;對(duì)于被污染的紙張,可以在通風(fēng)的環(huán)境下用軟刷輕輕刷掉漂浮的灰塵、污垢或霉菌;必須修復(fù)損壞和不完整的文檔。

  (六)備案登記將整理后的原始文件移交給掃描人員,制作并填寫紙質(zhì)文件數(shù)字化處理交接登記表,詳細(xì)記錄整理后每個(gè)文件的起始頁(yè)碼和頁(yè)碼。

  (七)裝訂、修復(fù)和歸還掃描工作完成后,已拆除的檔案應(yīng)按檔案保管要求重新裝訂?;謴?fù)裝訂時(shí),要注意保持文件的排列順序不變,做到安全、準(zhǔn)確、不遺漏。更換嚴(yán)重?fù)p壞的輥和箱。裝訂人員會(huì)在裝訂好的文件上加蓋專用印章和專用數(shù)碼印章。文件的數(shù)字處理和重新裝訂完成后,應(yīng)進(jìn)行清點(diǎn)。清點(diǎn)無誤后,交回檔案管理部門,辦理檔案歸還手續(xù)。

  2.文件掃描(1)掃描設(shè)備的選擇根據(jù)文件格式的大小(A4、A3、A0等。),選擇相應(yīng)規(guī)格的掃描儀。大幅面文件可以用寬幅掃描儀掃描,縮微后用膠片數(shù)字轉(zhuǎn)換設(shè)備掃描,小幅面掃描后用圖像拼接。紙張狀況不好、太薄、太軟或太厚的文件,以及多色頁(yè)面的文件,都可以用普通平板掃描儀掃描。紙張條件好的A4、A3文件可以用高速掃描儀掃描,提高工作效率。不適合拆包的文件可以用零頁(yè)邊距掃描儀掃描。

  (2)掃描顏色模式的選擇通常,有兩種掃描顏色模式:一種是掃描形成黑白二值圖像。這種圖像只有黑白兩級(jí),沒有過渡灰度。其特點(diǎn)是黑白分明,字跡清晰,文件容量小。它適用于掃描筆跡清晰、線條清晰的文本或圖形文件。二是掃描形成連續(xù)色調(diào)的靜態(tài)圖像。

  這類圖像分為灰度圖像和彩色圖像。灰度圖像由從最暗的黑色到最亮的白色的不同灰度組成。灰度表示一幅圖像從亮部到暗部的層次,也叫色階。灰度越高,層次越豐富,文件容量越大?;疑J竭m合掃描黑白照片和圖像文件,色階的選擇要適中,只要不影響畫質(zhì)即可。

  顏色模式中的顏色數(shù)量表示顏色的范圍。顏色越多,圖像越生動(dòng)真實(shí),文件容量越大。同樣,色號(hào)的選擇也要適度,不是越多越好。彩色模式適用于掃描文件或頁(yè)面上帶有紅色抬頭和印章的彩色照片文件。需要永久保存或長(zhǎng)期保存,或移交國(guó)家檔案館的檔案,一般應(yīng)采用彩色模式掃描。

  (3)掃描分辨率掃描分辨率參數(shù)的選擇原則上是基于掃描圖像的清晰度和完整性,不會(huì)影響圖像的利用效果。黑白二進(jìn)制、灰度、彩色模式掃描文件時(shí),分辨率一般建議大于等于200dpi。特殊情況下,如文字小、文字密、清晰度差等。,分辨率可以適當(dāng)提高。對(duì)于需要OCR漢字識(shí)別的文件,掃描分辨率建議選擇300dpi。

  (4)光學(xué)字符識(shí)別處理目前OCR技術(shù)已經(jīng)相當(dāng)成熟,一般掃描儀都有自己的OCR軟件,使用起來也非常方便。但是OCR的識(shí)別準(zhǔn)確率往往不盡如人意,影響檢索效果。手動(dòng)修改稿件中的錯(cuò)別字很麻煩。因此,提高OCR識(shí)別率是檔案數(shù)字化中的一個(gè)重要問題。

  其實(shí)只要注意以下幾點(diǎn),就可以明顯提高OCR識(shí)別率:一是選擇合適的掃描分辨率。過低的掃描分辨率往往會(huì)導(dǎo)致OCR識(shí)別率下降,過高的分辨率則會(huì)使圖像文件過大,降低識(shí)別速度。在實(shí)際操作中,操作者可以通過查看OCR識(shí)別后生成的文本中紅色錯(cuò)別字的數(shù)量(如小于3%)來判斷可接受性,決定是否以此分辨率掃描,進(jìn)行OCR識(shí)別。

  二是盡量黑白二進(jìn)制模式掃描。用掃描儀掃描文檔時(shí),OCR通常接受灰色或黑白二進(jìn)制模式,不接受彩色模式。如果稿件的印刷質(zhì)量好,可以采用灰色模式,否則應(yīng)采用黑白二進(jìn)制模式。掃描時(shí),您可以手動(dòng)調(diào)整黑白閾值的大小。

  如果黑白二值圖像上的文字輪廓不完整,適當(dāng)增加閾值。如果文本的輪廓太粗,說明信息冗余較多,可以適當(dāng)降低閾值。這樣調(diào)整后形成的黑白二值掃描圖像可以達(dá)到更好的OCR識(shí)別效果。第三,在進(jìn)行OCR識(shí)別時(shí)注意字符的傾斜校正。OCR識(shí)別允許文檔輕微傾斜,但過度傾斜會(huì)影響識(shí)別率。

  校正方法是在掃描軟件上點(diǎn)擊傾斜校正按鈕,識(shí)別軟件會(huì)在OCR識(shí)別前自動(dòng)校正圖像。

  四是稿件識(shí)別前的預(yù)處理。去除稿件中的雜物和圖片,因?yàn)殡s物會(huì)干擾文字識(shí)別,圖片無法識(shí)別,會(huì)影響OCR的文字分割。針對(duì)稿件中的欄目,建議手動(dòng)設(shè)置欄目區(qū)域,即用多個(gè)方框選擇要識(shí)別的文字,然后進(jìn)行OCR識(shí)別。

  五是采取適當(dāng)?shù)淖R(shí)別方法。簡(jiǎn)體和繁體稿件混雜,中英文稿件識(shí)別率往往較低。如果簡(jiǎn)體和繁體中英文分塊分布,可以用圖像處理軟件將不同的文本塊編輯成文本塊相似的文件,然后分別用OCR識(shí)別不同的字符。

  (5)掃描注冊(cè)認(rèn)真填寫紙質(zhì)文件數(shù)字化轉(zhuǎn)換流程交接登記表,登記掃描頁(yè)數(shù),核對(duì)每份文件實(shí)際掃描頁(yè)數(shù)與歸檔時(shí)填寫的文件頁(yè)數(shù)是否一致。如不一致,應(yīng)注明具體原因和處理方法。3.圖像處理掃描完成后,獲得的圖像必須按要求進(jìn)行技術(shù)處理,以糾正掃描文件與原始文件之間的偏差,使掃描文件更清晰、更規(guī)范。

  圖像處理一般包括以下內(nèi)容:(1)影像數(shù)據(jù)質(zhì)量檢查檢查圖像的偏斜、清晰度和失真。如果發(fā)現(xiàn)不符合質(zhì)量要求,應(yīng)對(duì)圖像進(jìn)行重新處理。當(dāng)掃描的圖像文件不完整或因操作不當(dāng)無法清晰識(shí)別時(shí),應(yīng)重新掃描;如有漏掃描文件,及時(shí)補(bǔ)掃描,正確插入圖像;當(dāng)發(fā)現(xiàn)掃描圖像的排列順序與原始文件不一致時(shí),應(yīng)及時(shí)調(diào)整。認(rèn)真填寫相關(guān)表格,記錄質(zhì)量檢查結(jié)果和處理意見。

  (2)整改應(yīng)該校正偏轉(zhuǎn)圖像,以便在視覺上感覺不到偏轉(zhuǎn)。方向不正確的圖片要旋轉(zhuǎn)還原,符合閱讀習(xí)慣。

  (3)去污影響圖像質(zhì)量的雜質(zhì),如黑點(diǎn)、黑線、黑框和黑邊,應(yīng)該去除。在處理過程中,應(yīng)注意不要破壞文件的原始信息。

  (4)圖像拼接掃描不同區(qū)域的大幅面文件形成的多幅圖像應(yīng)拼接合并成一幅完整的圖像,以保證文件數(shù)字圖像的完整性。

  (5)修剪彩色模式下掃描的圖像應(yīng)進(jìn)行修剪,去除多余的白邊,以有效減少圖像文件的容量,節(jié)省存儲(chǔ)空間。以上的整改、去污、修整等處理都可以根據(jù)肉眼手動(dòng)完成。也可以使用專門設(shè)計(jì)的軟件,預(yù)先進(jìn)行一定的設(shè)置,然后由計(jì)算機(jī)自動(dòng)處理。計(jì)算機(jī)處理當(dāng)然效率高,但不如手工處理靈活。比如,一旦污漬的大小被設(shè)計(jì)得太小,電腦會(huì)自動(dòng)把一些標(biāo)點(diǎn)符號(hào)作為污漬去掉。因此,掃描圖像的處理也需要采用手動(dòng)和自動(dòng)相結(jié)合的處理方式。

  4.圖像存儲(chǔ)(1)存儲(chǔ)格式以黑白二進(jìn)制模式掃描的圖像文件通常以TIFF(G4)格式存儲(chǔ)。以灰色模式和彩色模式掃描的圖像文件通常以JPEG格式存儲(chǔ)。存儲(chǔ)時(shí)壓縮比的選擇應(yīng)以保證掃描圖像易讀性的前提下最小化存儲(chǔ)容量為基礎(chǔ)。提供網(wǎng)絡(luò)查詢的掃描圖像,也可以存儲(chǔ)為CEB,PDF或其他格式的文件。

  (2)圖像文件的命名數(shù)字檔案資源應(yīng)以檔案號(hào)或唯一標(biāo)識(shí)符命名。用檔案號(hào)命名數(shù)字檔案資源的,按卷排序的,應(yīng)按《檔案號(hào)編制規(guī)則》(DA/T 13-1994)編制檔案號(hào),建議增加檔案類別碼作為類別號(hào)的子項(xiàng);若按件排序,案卷號(hào)可采用“全宗號(hào)-案卷類別碼年份-保管期限-機(jī)構(gòu)(問題)碼-件號(hào)-分件號(hào)”的結(jié)構(gòu)。

  5.目錄數(shù)據(jù)庫(kù)建設(shè)(1)數(shù)據(jù)格式選擇目錄數(shù)據(jù)庫(kù)建設(shè)應(yīng)選擇通用數(shù)據(jù)格式,所選數(shù)據(jù)格式應(yīng)能通過XML文檔直接或間接交換數(shù)據(jù)。這個(gè)數(shù)據(jù)庫(kù)的建立可以通過專門的檔案管理系統(tǒng)或者掃描處理管理軟件錄入,也可以通過EXCEL專門設(shè)計(jì)的檔案目錄表錄入,然后將數(shù)據(jù)導(dǎo)入檔案管理系統(tǒng)。

  (2)檔案描述根據(jù)《檔案著錄規(guī)則》(DA/T18-1999)的要求,建立檔案目錄數(shù)據(jù)庫(kù),錄入檔案目錄數(shù)據(jù)。

  (3)目錄數(shù)據(jù)的質(zhì)量檢查為保證數(shù)據(jù)的準(zhǔn)確性,可采用“單機(jī)錄入-人工校對(duì)”或“雙機(jī)錄入-計(jì)算機(jī)自動(dòng)校對(duì)”的方法。無論是人工校對(duì)還是計(jì)算機(jī)校對(duì),都要檢查描述項(xiàng)目是否齊全,描述內(nèi)容是否規(guī)范準(zhǔn)確,如發(fā)現(xiàn)不合格數(shù)據(jù),應(yīng)進(jìn)行修改或重新記錄。

  6.數(shù)據(jù)掛鉤(1)匯總掛鉤檔案數(shù)字化轉(zhuǎn)換過程中形成的編目數(shù)據(jù)庫(kù)和影像文件,經(jīng)質(zhì)量檢查合格后,通過網(wǎng)絡(luò)及時(shí)加載到數(shù)據(jù)服務(wù)器進(jìn)行匯總。目錄數(shù)據(jù)庫(kù)和鏡像文件要避免慢且容易出錯(cuò)的手動(dòng)掛接,盡量批量使用電腦自動(dòng)掛接。只要將掃描的數(shù)字文件按照紙質(zhì)文件的文件號(hào)進(jìn)行命名,就可以通過編制掛鉤程序或借助相應(yīng)的軟件,實(shí)現(xiàn)相關(guān)數(shù)字圖像的自動(dòng)搜索和相應(yīng)電子地址信息的添加,從而實(shí)現(xiàn)批量、快速掛鉤。

  (2)數(shù)據(jù)關(guān)聯(lián)基于紙質(zhì)文件目錄數(shù)據(jù)庫(kù),從每個(gè)紙質(zhì)文件掃描的一個(gè)或多個(gè)圖像被存儲(chǔ)為圖像文件。將圖像文件存儲(chǔ)在相應(yīng)的文件夾中時(shí),需要仔細(xì)檢查每個(gè)圖像文件的名稱是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件號(hào)相同,圖像文件的頁(yè)數(shù)是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件頁(yè)數(shù)相同,圖像文件的總數(shù)是否與歸檔目錄數(shù)據(jù)庫(kù)中的文件數(shù)相同。利用每個(gè)圖像文件的文件名與該文件在歸檔目錄數(shù)據(jù)庫(kù)中的文件號(hào)建立一一對(duì)應(yīng)的關(guān)系,為歸檔目錄數(shù)據(jù)庫(kù)與圖像文件的自動(dòng)批量連接提供了條件。

  (3)交接登記認(rèn)真填寫紙質(zhì)文件數(shù)字化轉(zhuǎn)換過程交接登記表,記錄數(shù)據(jù)關(guān)聯(lián)后的頁(yè)數(shù),檢查每次文件關(guān)聯(lián)后的頁(yè)數(shù)與文件整理掃描時(shí)填寫的頁(yè)數(shù)是否一致。如不一致,應(yīng)注明具體原因和處理方法。

  7.數(shù)據(jù)接受檢查所有已經(jīng)采樣數(shù)字化的數(shù)據(jù),包括目錄數(shù)據(jù)庫(kù)、圖像文件和數(shù)據(jù)掛鉤的整體質(zhì)量。當(dāng)目錄數(shù)據(jù)庫(kù)和圖像文件鏈接出現(xiàn)錯(cuò)誤,或者目錄數(shù)據(jù)庫(kù)和圖像文件中有一個(gè)不完整、不清晰、有錯(cuò)誤時(shí),抽檢將標(biāo)記為“不合格”。

  一個(gè)全宗文件,當(dāng)數(shù)字轉(zhuǎn)換質(zhì)量抽檢合格率達(dá)到95%以上(含95%)時(shí),將被驗(yàn)收為“通過”。合格率=通過抽樣檢查的文件數(shù)/通過抽樣檢查的文件總數(shù)×100%。認(rèn)真填寫紙質(zhì)檔案數(shù)字化驗(yàn)收登記表。驗(yàn)收“通過”的結(jié)論必須經(jīng)過審核簽字才能生效。

  8.數(shù)據(jù)備份完整、合格的數(shù)據(jù)應(yīng)及時(shí)備份。為保證數(shù)據(jù)安全,備份載體的選擇應(yīng)多樣化,可采用線上線下相結(jié)合的方式實(shí)現(xiàn)多套備份,并注意遠(yuǎn)程存儲(chǔ)。還應(yīng)該檢查備份數(shù)據(jù)。備份數(shù)據(jù)的檢查內(nèi)容主要包括備份數(shù)據(jù)是否可以打開,數(shù)據(jù)信息是否完整,文件數(shù)量是否準(zhǔn)確。數(shù)據(jù)備份后,應(yīng)在相應(yīng)的備份介質(zhì)上做好標(biāo)記,以便于查找和管理。填寫紙質(zhì)文件數(shù)字備份管理登記表。

  9.數(shù)字結(jié)果管理應(yīng)加強(qiáng)紙質(zhì)檔案數(shù)字化成果的管理,確保其安全性、完整性和長(zhǎng)期可用性。提供紙質(zhì)檔案數(shù)字化成果在線檢索利用時(shí),應(yīng)當(dāng)有制作單位的電子標(biāo)識(shí),并根據(jù)具體情況采用可下載或不可下載的數(shù)據(jù)格式。

  干貨:檔案數(shù)字化加工,核心7大步驟,檔案管理人必備!

  檔案數(shù)字化具體流程:從檔案的收集、掃描錄入、整理、歸檔入庫(kù)、利用、統(tǒng)計(jì)、編研、鑒定等過程實(shí)現(xiàn)全生命周期的自動(dòng)化管理。

  1、檔案收集:按照檔案形成的規(guī)律,把各企業(yè)單位分散的材料進(jìn)行接收、征集、集中起來。

  2、檔案整理:根據(jù)不同需求,對(duì)收集起來的檔案分類組成有序體系,規(guī)范化處理。

  3、掃描錄入:將有價(jià)值的檔案進(jìn)行分類掃描錄入系統(tǒng)歸檔,采用中博奧檔案管理系統(tǒng),分類保管檔案。

  4、歸檔入庫(kù):根據(jù)國(guó)家檔案分類要求標(biāo)準(zhǔn),建立標(biāo)準(zhǔn)檔案分類,進(jìn)行歸檔。

  5、檔案利用:通過中博奧檔案管理系統(tǒng)的借閱手續(xù),是檔案資料直接可以為各企業(yè)單位提供檔案利用服務(wù)工作。

  6、檔案統(tǒng)計(jì):運(yùn)用中博奧統(tǒng)計(jì)技術(shù)和方法,通過表冊(cè)和數(shù)字的形式描述和分析檔案工作的各種現(xiàn)象、狀態(tài)和趨勢(shì)情況,可以了解和掌握檔案工作總體情況。

  7、檔案鑒定:利用系統(tǒng)甄別檔案文件的現(xiàn)實(shí)價(jià)值和歷史價(jià)值以及年限,進(jìn)行存毀的判斷條件。

  8、檔案銷毀:根據(jù)不同年限檔案、不具有保存價(jià)值的檔案,在系統(tǒng)上導(dǎo)出目錄,將相對(duì)應(yīng)的檔案消除或銷毀。

  利用中博奧檔案管理系統(tǒng),一款專業(yè)的檔案管理軟件,中博奧功能涵蓋檔案收集、檔案著錄、檔案查詢、檔案借閱、檔案利用、檔案統(tǒng)計(jì)、檔案鑒定、檔案銷毀的全生命周期管理,適用于科技檔案管理、人力資源信息管理、證照管理、客戶資料管理、文件資料管理等等,同時(shí)還適用于自動(dòng)化辦公應(yīng)用?;旧弦粋€(gè)軟件就能夠滿足一個(gè)企業(yè)當(dāng)中,不同人員的辦公需求。

標(biāo)簽

我是中博奧客服:小奧
中博奧技術(shù)有限公司& 版權(quán)所有工信部備案號(hào):豫ICP備11015869號(hào)-8 Copyright ? 2023-2024

檔案整理檔案數(shù)字化

檔案掃描檔案管理軟件系統(tǒng)

TEL:18937133779

To Top