以文本方式查看主题

-  中文XML论坛 - 专业的XML技术讨论区  (http://bbs.xml.org.cn/index.asp)
--  『 DTD/XML Schema 』  (http://bbs.xml.org.cn/list.asp?boardid=23)
----  请教大侠:如何从PDF中自动抽取元数据,转化XML文档  (http://bbs.xml.org.cn/dispbbs.asp?boardid=23&rootid=&id=11406)


--  作者:xinlv
--  发布时间:10/29/2004 11:12:00 AM

--  请教大侠:如何从PDF中自动抽取元数据,转化XML文档
偶要做一个项目,从给定的一篇PDF文档中自动抽取出元数据,并用xml进行表示.
偶根本不知如何从PDF文档中自动抽取数据.想必是从分析PDF格式表示开始吧.可是偶却不知要看什么书.哪位大侠能推荐看介绍pdf格式的书,助偶一臂之力.急呀!
谢了!
文字
文字
   
--  作者:Mooner
--  发布时间:11/8/2004 5:30:00 PM

--  
基本上,这个,很难。。。
我第一次听说从PDF生成XML
以前只知道XML借助XSLT可以转为PDF。。。。。
--  作者:hello105
--  发布时间:11/8/2004 6:53:00 PM

--  
有一个开源的包pdfbox,可以在sourceForge上找到,基于xml得所以因该能很方便的实现
--  作者:xinlv
--  发布时间:11/9/2004 11:17:00 AM

--  
谢谢两位!
前几天,我听人说先看perl的书,就会有答案了.
请问hello105,
你说的开源的包pdf和sourceForge,指的是什么呀?
我一点都不懂,你能告诉我该看什么书吗?
非常感谢!
--  作者:hello105
--  发布时间:11/10/2004 12:34:00 PM

--  
http://sourceforge.net/index.php
sourceforge是一个开源项目的集散地,可以找到很多你需要的开源的东西
W 3 C h i n a ( since 2003 ) 旗 下 站 点
苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
5,587.891ms