網友評分: 5分
Extract Text 能夠提取不同類型文檔的文本內容。它基于微軟索引服務器中的技術,該服務器使用稱為iFilter的東西來索引文件中的文本。
從PDF文檔中提取文本
從PDF文件中提取文本所需的PDF過濾器DLL包含在Adobe Reader 7.0.5到9.x中。從Adobe Reader 10(也稱為Adobe Reader x)的發布開始,該DLL不再是Adobe Reader安裝的一部分。
從Office文檔中提取文本
Microsoft提供了一個篩選器包,使您能夠從以下文件格式提取文本:.docx、.docm、.pptx、.pptm、.xlsx、.xlsm、.xlsb、.zip、.one、.vdx、.vsd、.vss、.vst、.vdx、.vsx和.vtx。
這個程序使用起來很簡單。它是一個命令行實用程序,只接受兩個參數。它必須知道要從中提取文本的文檔的文件名。它還需要保存提取文本的新文件的文件名。
支持32位和64位過濾器。
現在使用Microsoft.NET 4.0而不是2.0。
標簽: 文本提取