以文本方式查看主题 - 中文XML论坛 - 专业的XML技术讨论区 (http://bbs.xml.org.cn/index.asp) -- 『 DTD/XML Schema 』 (http://bbs.xml.org.cn/list.asp?boardid=23) ---- 请教大侠:如何从PDF中自动抽取元数据,转化XML文档 (http://bbs.xml.org.cn/dispbbs.asp?boardid=23&rootid=&id=11406) |
-- 作者:xinlv -- 发布时间:10/29/2004 11:12:00 AM -- 请教大侠:如何从PDF中自动抽取元数据,转化XML文档 偶要做一个项目,从给定的一篇PDF文档中自动抽取出元数据,并用xml进行表示. 偶根本不知如何从PDF文档中自动抽取数据.想必是从分析PDF格式表示开始吧.可是偶却不知要看什么书.哪位大侠能推荐看介绍pdf格式的书,助偶一臂之力.急呀!谢了!
|
-- 作者:Mooner -- 发布时间:11/8/2004 5:30:00 PM -- 基本上,这个,很难。。。 我第一次听说从PDF生成XML 以前只知道XML借助XSLT可以转为PDF。。。。。 |
-- 作者:hello105 -- 发布时间:11/8/2004 6:53:00 PM -- 有一个开源的包pdfbox,可以在sourceForge上找到,基于xml得所以因该能很方便的实现 |
-- 作者:xinlv -- 发布时间:11/9/2004 11:17:00 AM -- 谢谢两位! 前几天,我听人说先看perl的书,就会有答案了. 请问hello105, 你说的开源的包pdf和sourceForge,指的是什么呀? 我一点都不懂,你能告诉我该看什么书吗? 非常感谢! |
-- 作者:hello105 -- 发布时间:11/10/2004 12:34:00 PM -- http://sourceforge.net/index.php sourceforge是一个开源项目的集散地,可以找到很多你需要的开源的东西 |
W 3 C h i n a ( since 2003 ) 旗 下 站 点 苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》 |
5,587.891ms |