XMLとは? HTMLとの違いからメリット、PDFからの変換方法や画像表示の設定まで詳説

本記事はマークアップ言語のひとつであるXMLについて初心者向けに基本知識や使い方を説明するほか、J-STAGEでも採用されオンラインジャーナル分野で主流となっているJATSについて解説します。
XML入門編:オンラインジャーナルのスタンダード言語「XML」とは?
XMLの基礎知識
XML(Extensible Markup Language)とは、データを構造化して表現するマークアップ言語です。データの各部分がどのように関連しているのか、どのような情報を含んでいるのかを構造化することで、プログラムがデータを解析しやすくなり、異なるシステム間でのデータ共有や再利用が簡単になります。
HTMLと並び、研究者や論文執筆者が習得しておくべき重要なマークアップ言語のひとつです。J-STAGEなどの多くの有名オンラインジャーナルで導入されており、ファイルの拡張子は.xmlになります。
基本的な構成
マークアップ言語は、テキストの構造やフォーマットを明確に定義するために使用される言語のことです。テキストデータにタグや要素、属性を組み合わせることで、文書(ドキュメント)の構造を整え、データの意味や関連性を正確に表現できるように設計されています。
・タグ
XMLの基本的な構成要素で、データの開始と終了を示します。開始タグと終了タグで囲まれた範囲を要素と呼びます。例えば、<name>と</name>は「name」というタグを表します。
・要素
タグに囲まれたコンテンツや他の要素を含むことができる部分です。要素はネストして使用することができ、文書の階層的な構造を形成します。例えば、<name>SOUBUN.COM</name>は「name」という要素で、”SOUBUN.COM” がその内容です。
・属性
要素に追加情報を提供するために使用される名前と値のペアです。属性は開始タグ内で定義され、要素の特性を詳細に指定するのに役立ちます。例えば、<person id=”123″>は「person」という要素に「id」という属性が付けられており、その値は「123」です。
XMLのメリットとデメリット
XMLの最大メリットはその汎用性と拡張性の高さです。
データの内容に合わせて文字を修飾する「タグ」を自由に定義することができるため、データ構造も自由に変えられます。
世界基準に統一された記述方式により、あらゆるコンピュータシステムで利用でき、共有や管理のしやすさもメリットの一つです。
その反面タグとパラメータで構成されるため、数が増えるごとにそのデータサイズが膨大となり、コンピュータ処理に負荷がかかって編集しにくいというデメリットもあります。
【メリット】
・アプリケーションに依存しない
・再利用性が高い
【デメリット】
・タグを手動でつける場合、手間がかかる
XML入門編:「XML」と「HTML」の違いは?
XMLとHTMLとの違い
HTML(Hyper Text Markup Language)は主にWebページを表示するために利用されるマークアップ言語です。XMLでは独自に決めたタグ名を利用できるのに対し、HTMLは既にタグが決まっているのが大きな違いです。
XMLの目的がデータの交換と転送であるのに対し、HTMLはウェブページの構造とスタイルを定義し、テキスト、画像、ボタン、チェックボックス、ドロップダウンボックスなどの装飾を配置することを目的としています。
HTMLでユーザーが情報を読み取りやすくし、XMLでコンピューターがデータを認識しやすくなる役割を担っていると考えても良いでしょう。役割の異なるXMLとHTMLですが、両者の長所を活かして連携させることで効率的なシステム運用が可能になります。
XMLとHTMLの類似点
XMLとHTMLにはいくつかの共通点もあります。
・マークアップ言語としての性質
XMLとHTMLは両方ともマークアップ言語であり、タグを使用してデータやコンテンツを構造化します。
・タグベースの構造
開始タグと終了タグを使用して要素の開始と終了を定義することで、データを階層的に構造化します。
・標準化されたフォーマット
XMLとHTMLはいずれもW3C(World Wide Web Consortium)によって標準化されています。そのため、webプラウザや他のソフトウェアがこれらのフォーマットを解釈しやすくなっています。
XMLとHTMLの融合
XMLとHTMLはどちらもSGML(Standard Generalized Markup Language)と呼ばれる文章のレイアウトをマークアップする規格から派生しています。
SGMLはテキストの構造と内容を定義するための国際標準のマークアップ言語で、1986年に国際標準化機構(ISO)によって標準化されました。
2000年には、HXMLをXML互換形式で記述するためのXHTMLが開発され、 HTMLをXMLの文法で扱うことができるようになりました。その後の技術発展を経て、2014年にはHTMLの新規格となるHTML5が正式に勧告されたように、XMLとHXMLの融合が図られています。
JATS(Journal Article Tag Suite) XMLとは?
研究者の方に是非知っておいていただきたいのがJATS(Journal Article Tag Suite)です。
JATSはオンラインジャーナルに特化したXMLです。医学分野の学術雑誌用のNLM DTDを元にしたもので、2012年には米国規格協会(ANSI)で標準化されています。
JATSは業界のデファクトスタンダードとして世界中の学術雑誌で利用されているほか、国内ではJ-STAGEで採用されています。現在はJATS1.1が主流です。
XML入門編:「XML」の開き方
ここでは拡張子が「.xml」のファイルの中身を見るための方法として、テキストエディタで開く・Webブラウザで開く・XMLビューアーで開くの3つの方法を解説します。
1)テキストエディタで開く方法
テキストエディタはWindows10に標準でインストールされているメモ帳アプリや、フリーで利用できるサクラエディタなどどんなアプリでも構いません。
XMLファイルを右クリックして「プログラムから開く」からテキストエディタを選択してファイルを開きます。HTMLと同様に「<タグ>テキスト</タグ>」の形式で中身を確認することができます。
2)Webブラウザで開く方法
WebブラウザはMicrosoft Edge・Google Chrome・Firefox、Safariなどがあります。XMLファイルを右クリックして「プログラムから開く」から好きなWebブラウザを選択してファイルを開きます。
Webブラウザで開くとインデントされ、テキストエディタよりも見やすく表示されます。
3)XMLビューアーで開く方法
専用のビューアーを利用するとより見やすくなります。XML Explorerなどのビューアーをインストールして開きます。ビューアーをインストールするときにファイルの関連付けができていれば、XMLファイルをダブルクリックするだけでファイルが開きます。
XML応用編:「XML」の作成法と画像表示の指定方法
では具体的にXMLファイルを作成する方法をご紹介します。
1)テキストエディタで新規文書を作成する
XML文書はテキストなのでエディタで作成できます。
2)XML宣言を記述する
文書の初めにXML宣言を記述します。
これは「この文書はXMLの〇〇のバージョンである」ということを示すためのものです。「<?xml version=”1.0″ encoding=”UTF-8″ ?>」のように記述します。これはこの文書がXMLのバージョン1.0であり、エンコーディングにUTF-8を使用することを示しています。
3)画像表示
画像にはタグを使用し、画像の外部ファイルを指定します。
<fig id=”F1″>
<graphic xlink:href=”F1(画像)”/>
<attrib>帰属先名</attrib>
</fig>
テキストエディタでHTMLを記述したことがある方はよくわかると思いますが、XMLを一から手作業で作成するのは非常に大変です。そのため一般的にはWordなどのファイルからXMLに変換するツールを利用したほうが効率的です。
PDFやWordをXMLファイルに変換する方法
ファイル変換ツールとしては以下のようなものが有名です。
・Doxillion:Windows、Macに対応した変換ツールです。Wordから変換できるので手軽です。
・Word2XML コンバータ:サイバーテックが提供する変換ツール。フォルダ単位で変換できます。
最近ではオンラインで変換してくれるツールもありますが、セキュリティー上のリスクを考慮すると避けたほうがよいでしょう。
安全かつ手軽にXMLデータ作成を行いたいなら印刷業者に委託しても
学術出版を手掛ける印刷会社によっては、論文のXMLデータ作成サービスを提供しているところもあります。手軽さ・正確性を考えると専門スキルを持つ印刷会社に依頼するのもひとつの選択肢です。
>>>全文XMLデータ作成対応のJ-STAGE掲載代行サービス
SOUBUN .COMには学会サポート会社として80年の歴史があります。
学会・学術のDX化にも力を入れており、学術大会の参加登録や査読管理のシステム化、大会用HP制作や電子ジャーナル制作など幅広く承っております。
ご興味がございましたら、ぜひ以下のサービスページをご覧ください。