XMLとは? HTMLとの違いからメリット、PDFからの変換方法や画像表示の設定まで詳説
本記事はマークアップ言語のひとつであるXMLについて初心者向けに基本から解説するほか、J-STAGEでも採用されオンラインジャーナル分野で主流となっているJATSについて解説します。
XML入門編:オンラインジャーナルのスタンダード言語「XML」とは?
XML(Extensible Markup Language)とは、HTMLと並んで研究者や論文を執筆する人が知っておきたいマークアップ言語のひとつです。拡張子は.xmlになります。
もう少し詳しく説明すると、マークアップ言語とはテキストをタグで括ることで構造化する表記ルールのことです。そのひとつがXMLで、J-STAGEなどの多くの有名オンラインジャーナルで導入されています。
XMLとHTMLとの違いとは?
XMLとよく似た言語としてHTMLがあります。
HTML(Hyper Text Markup Language)は主にWebページを表示するために利用されるマークアップ言語です。HTMLは既にタグが決まっているのに対して、XMLでは独自に決めたタグ名を利用できるのが大きな違いです。
どちらもSGML(Standard Generalized Markup Language)と呼ばれる文章のレイアウトをマークアップする規格から派生しています。
もともとXMLとHTMLとは異なるものでしたが、両者は徐々に近づいています。
まず2000年にXMLベースのHTMLであるXHTMLというマークアップ言語が登場しました。これにより HTMLをXMLとしても扱うことができるようになっています。その後、2014年にはHTMLの新規格となるHTML5の利用が勧告され、XMLと融合が図られています。
XMLのメリットとデメリット
XMLの最大メリットはその汎用性と拡張性の高さです。
データの内容に合わせて文字を修飾する「タグ」を自由に定義することができるため、データ構造も自由に変えられます。
世界基準に統一された記述方式により、あらゆるコンピュータシステムで利用でき、共有や管理のしやすさもメリットの一つです。
その反面タグとパラメータで構成されるため、数が増えるごとにそのデータサイズが膨大となり、コンピュータ処理に負荷がかかって編集しにくいというデメリットもあります。
【メリット】
・アプリケーションに依存しない
・再利用性が高い
【デメリット】
・編集しにくい
・コンピュータ処理の負荷が大きい
JATS(Journal Article Tag Suite) XMLとは?
研究者の方に是非知っておいていただきたいのがJATS(Journal Article Tag Suite)です。
JATSはオンラインジャーナルに特化したXMLです。医学分野の学術雑誌用のNLM DTDを元にしたもので、2012年には米国規格協会(ANSI)で標準化されています。
JATSは業界のデファクトスタンダードとして世界中の学術雑誌で利用されているほか、国内ではJ-STAGEで採用されています。現在はJATS1.1が主流です。
XML入門編:「XML」の開き方
ここでは拡張子が「.xml」のファイルの中身を見るための方法として、テキストエディタで開く・Webブラウザで開く・XMLビューアーで開くの3つの方法を解説します。
1)テキストエディタで開く方法
テキストエディタはWindows10に標準でインストールされているメモ帳アプリや、フリーで利用できるサクラエディタなどどんなアプリでも構いません。
XMLファイルを右クリックして「プログラムから開く」からテキストエディタを選択してファイルを開きます。HTMLと同様に「<タグ>テキスト</タグ>」の形式で中身を確認することができます。
2)Webブラウザで開く方法
WebブラウザはMicrosoft Edge・Google Chrome・Firefox、Safariなどがあります。XMLファイルを右クリックして「プログラムから開く」から好きなWebブラウザを選択してファイルを開きます。
Webブラウザで開くとインデントされ、テキストエディタよりも見やすく表示されます。
3)XMLビューアーで開く方法
専用のビューアーを利用するとより見やすくなります。XML Explorerなどのビューアーをインストールして開きます。ビューアーをインストールするときにファイルの関連付けができていれば、XMLファイルをダブルクリックするだけでファイルが開きます。
XML応用編:「XML」の作成法と画像表示の指定方法
では具体的にXMLファイルを作成する方法をご紹介します。
1)テキストエディタで新規文書を作成する
XML文書はテキストなのでエディタで作成できます。
2)XML宣言を記述する
文書の初めにXML宣言を記述します。
これは「この文書はXMLの〇〇のバージョンである」ということを示すためのものです。「<?xml version=”1.0″ encoding=”UTF-8″ ?>」のように記述します。これはバージョン1.0、文字コードはUTF-8ということを示しています。
3)画像表示
画像にはタグを使用し、画像の外部ファイルを指定します。
<fig id=”F1″>
<graphic xlink:href=”F1(画像)”/>
<attrib>帰属先名</attrib>
</fig>
テキストエディタでHTMLを記述したことがある方はよくわかると思いますが、XMLを一から手作業で作成するのは非常に大変です。そのため一般的にはWordなどのファイルからXMLに変換するツールを利用したほうが効率的です。
PDFやWordをXMLファイルに変換する方法
ファイル変換ツールとしては以下のようなものが有名です。
・Doxillion:Windows、Macに対応した変換ツールです。Wordから変換できるので手軽です。
・Word2XML コンバータ:サイバーテックが提供する変換ツール。フォルダ単位で変換できます。
最近ではオンラインで変換してくれるツールもありますが、セキュリティー上のリスクを考慮すると避けたほうがよいでしょう。
安全かつ手軽にXMLデータ作成を行いたいなら印刷業者に委託しても
学術出版を手掛ける印刷会社によっては、論文のXMLデータ作成サービスを提供しているところもあります。手軽さ・正確性を考えると専門スキルを持つ印刷会社に依頼するのもひとつの選択肢です。
>>>全文XMLデータ作成対応のJ-STAGE掲載代行サービス
SOUBUN .COMには学会サポート会社として80年の歴史があります。
学会・学術のDX化にも力を入れており、学術大会の参加登録や査読管理のシステム化、大会用HP制作や電子ジャーナル制作など幅広く承っております。
ご興味がございましたら、ぜひ以下のサービスページをご覧ください。