ウェブアーカイブ
この記事は クリエイティブ・コモンズ・表示・継承ライセンス3.0 のもとで公表されたウェブアーカイブ - Wikipediaを素材として二次利用しています。
ウェブアーカイブ (web Archive) は、WWW(Web、ウェブ)全体もしくはその一部を収集し、そのコレクションを後世の研究者、歴史家、一般大衆のために保存して、アーカイブとしたもの。
Webのサイズは膨大であるため、Webアーカイブではクローラを使って自動収集を行う。最大規模のWebアーカイブ機関は、Web全体のアーカイブ作成を自動・手動の両面で行っている「インターネット・アーカイブ」(Internet Archive)である。各国の国立図書館もまた文化的に重要なWebコンテンツを保存しようとしている。
2004年には、日本でもこの方面のアーカイブを検討するという方向が小泉内閣で打ち出され、国立国会図書館による事業が始まった。
Webの収集
Webアーカイブはクローラを使ってウェブページの収集プロセスを自動化している。クローラはWebの一般利用者がブラウザを使ってWebコンテンツを閲覧するのと同じようなやり方でWebページを辿っていく。Heritrixクローラは有名なツールの一つであり、アーカイブ的なクロールを行うのに用いられている。
Webアーカイブで収集されるのは、あらゆる種類のWebコンテンツである。これにはHTMLのウェブページ、スタイルシート、JavaScript、画像、ビデオなどが含まれる。さらに収集したリソースに関するメタデータも蓄積する。例えば、アクセス日時、MIMEタイプ、サイズなど。これらのメタデータにより、アーカイブされているコレクションの信頼性と同一性を確保できる。
アーカイビングの難しさと限界
Webアーカイブは収集を主としてクロールに頼っているため、Webクローリングの難しさに影響を受ける。
- ロボット排除の取り決め(robots exclusion protocol)によりクローラはウェブサイトの一部へのアクセスが拒否されることがある。
- ウェブサイトの大部分がDeep Webとして隠れた領域となっていることもある。例えば、フォームの先にあるはずの結果ページなどは、クローラはリンクを辿って行き着くことができないためDeep Webの領域となってしまう。
- ウェブサーバーの中にはクローラに対して通常のWebブラウザに対するのとは別のページ内容を返すことがある。これはサーチエンジンを騙してサイトへのトラフィックを増やそうとする際に行われる手法の一つでもある。
- クローラ・トラップが、クローラにページを無限に延々とダウンロードさせることがある(例えば、カレンダーなど)。このためクローラは通常、動的ページのダウンロード数の上限を設定されている。
Webは非常に巨大なため、その大部分を収集するには相当な計算機資源を必要とする。また、Web自体の内容の変化も速いため、サイト全体をクローラが収集する前にその内容が変わってしまうことさえある。
Webアーカイブが対処しなければならないのは技術的な側面だけではなく、知的財産権といった法的、社会的側面もある。
Peter Lyman (2002)は「Webは一般にパブリックドメインのソースのように見られているが、これは著作権付きの情報である。従って、アーキビストはWebをコピーする法的権利を保持していない。」と述べている。
「インターネット・アーカイブ」のようにアーカイブしたコンテンツを一般に公開しているアーカイブの中には、コンテンツの所有者が一般公開を希望しない場合には、アーカイブしたコンテンツを公開から外したり、削除できるようにしているところもある。また、特定の場所からのみアクセス可能にしたり、特定の決められた利用法でのみアクセス可能にしたりしているアーカイブもある。
手動によるアーカイビング
「インターネット・アーカイブ」のようなアーカイブサイトは、ロボット(クローラ)が自動でサイトを片っ端からかき集めている一方、利用者が手動で任意のサイトを保存する機能もある。手動保存はURLを指定することで行われる。
手動保存専用のアーカイブサイトとしては、「ウェブ魚拓」、「ひよっ Hiyo.jp」がある。(保存するページの言語は関係ない)。海外での例としては「WebCite」、「archive.today(旧称 Archive.is)」がある。
関連項目
参考文献
- Day, M. (2003). "Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives". Research and Advanced Technology for Digital Libraries: Proceedings of the 7th European Conference (ECDL): 461–472.
- Lyman, P. (2002). "Archiving the World Wide Web". Building a National Strategy for Preservation: Issues in Digital Media Archiving.
外部リンク
- Internet Archive(英語)
- 『消失したウェブサイトとは?(→アーカイブ)』 - 国会図書館インターネット資料収集保存事業
- ウェブ魚拓のサイト
- WebArchivist(英語)[リンク切れ]
- Portuguese Web Archive(英語)
- Web archiving bibliography(英語)
「ウェブアーカイブ」の書誌情報
- 項目名: ウェブアーカイブ
- 著作者: ウィキペディアの執筆者
- 発行所: ウィキペディア日本語版
- 更新日時: 2015年5月6日 10:52 (UTC)
- 取得日時: 2015年6月10日 05:30 (UTC)
- 版指定URI: http://ja.wikipedia.org/w/index.php?title=%E3%82%A6%E3%82%A7%E3%83%96%E3%82%A2%E3%83%BC%E3%82%AB%E3%82%A4%E3%83%96&oldid=55455489
- 主な執筆者: (改版集計情報)
- 項目の版番号: 55455489