5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

pdf→html TEX→html についてですが

1 :syokora:2006/06/05(月) 23:26:51 ID:???
Webアプリケーションを作成することとなり、ブラウザ上でアップロード
すれば、自動で pdfをhtml化 TEX(テフ)をhtml化 のどちらかの機能を
もったものを作りたいのですが、これは可能でしょうか? また、
可能な場合どのような手法をとればよいでしょうか?(言語など)


2 :sage:2006/06/06(火) 02:35:05 ID:I3k0I/lt
PDFをHTML化→Googleがすでに実現しているのでは。
ただし、PDFになった時点で、例えばTeXとかの構造に関する情報は失われているので、
“見た目”の再現しかできないと思う。それはHTML的ではないよね。

TeXをHTML化→ローカルで動くLaTeX2HTMLなどがそれなりに実用化されてるので、
充分に可能では。ソースをWeb経由でサーバに送って、サーバ上でLaTeX2HTMLで変換して、
結果を表示すればいいと思う。CGIでもPHPでもなんでもできるのでは。

どっちにせよ、すでに実現されているものなので、アプリケーションを作成するうえでの
新規性はなさげ。

3 :syokora:2006/06/06(火) 09:44:48 ID:???
それが可能という前提なのですが、自動で pdfをhtml化 
TEX(テフ)をhtml化 のどちらかを行い、そのときに
年度、所属、文書のジャンルなどでカテゴリわけも行うと
いうことは可能でしょうか?


4 :nobodyさん:2006/06/09(金) 21:36:14 ID:???
>>3

PDFに適切なメタデータが付与されていれば、分類可能では。
TeXで作る時に、hyperrefパッケージとかで、pdfauthorやpdfkeywordに
きちんとデータを与えておけば、それを使ってデータベース化可能だと思う。
TeX→HTMLについても、ソースに\authorや\keywords, \institution(これら
はクラスファイルによってあったりなかったり)など、コマンドの引数として
情報が書いてあれば、それを使って文字列処理できるのでは。

# ただ、そういったデータがついていないファイルについては、誤分類
# 覚悟の上で、「本文中に工学部と書かれていれば所属タグを工学部にする」
# などの処理をするしかないかな。

2 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.00 2017/10/04 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)