「インターネットアーカイブ」という言葉を聞いたことはありますか。Webの仕事に携わっている人や普段からインターネットを活用する人であれば知っている人は多いかもしれません。
インターネットアーカイブと聞くと、「Webページの情報を保存して、過去の状態をチェックできるサービス」のことを思いつく方が多いと思います。しかし、実はサービスそのものをそのように呼ぶわけではなく、実はこの名称は団体名の事を指します。
本記事では、インターネットアーカイブの意味や、過去のWebサイトを確認する方法、削除する方法などについて解説していきます。
目次
インターネットアーカイブとは?
Webページの情報を保存して、過去の状態をチェックできるサービスを「インターネットアーカイブ」だと思っている方は多いと思いますが、実はこのサービスそのものを指している訳ではありません。まずは、意味や概要を解説します。
Webページのアーカイブ閲覧サービスを運営している非営利団体
インターネットアーカイブは、Webページのアーカイブ閲覧サービスを運営している非営利団体のことを指します。1996年にブリュースター・ケール氏によって設立されました。
無料利用できる「Wayback Machine(ウェイバックマシン)」というツールを提供しており、過去のWebサイトの情報や削除されたものの閲覧などを行うことが可能です。このようなWebサイトの過去の状態をチェックできるものを総称してインターネットアーカイブと呼ばれることが多いですが、実際にはこの「Wayback Machine」がその機能を担っているといえます。
Webの図書館のような役割を果たしている
最初は、デジタル上で公開された情報やデータなどを、世界中の人が無料で閲覧できるようにする目的で開発されました。ホームページで確認したところ、現時点で保存されているデータ量は8,280億ページを超えるほどで、Webの図書館のような役割を果たしています。
本来は研究者への情報提供を前提としていますが、Webサイトの変遷を残し続けているそのデータは、ユーザーが見やすい構成や反応の良いサイトのリサーチなど、SEO対策を行おうと考えている人にとっても非常に活用できるようになっています。
関連記事:アーカイブ(archive)とは?インターネットアーカイブやメールアーカイブなど基本的仕組みを解説
インターネットアーカイブの提供しているサービス
インターネットアーカイブは、さまざまなサービスを多く提供しています。このサービスを生かして、世界のどんな人でも平等に情報やデータをチェックできることに貢献しているのです。一般的に活用されているものは以下の5つです。
● Wayback Machine
● Archive-It
● Open Library
● Political TV Ad Archive
● Software Archive
Wayback Machine
Wayback Machine(ウェイバックマシン)は、過去のWebサイトの情報や削除されたものの閲覧などを行うことが可能なツールで、サービスの中では最もポピュラーなものになっています。「以前から使っていたものが実はWayback Machineだった」ということも少なくありません。前述していますが、現時点で保存されているデータ量は8,280億ページを超えるほどで、クロールの機能の高さも備えているため、他のツールでは出てこない情報もWayback Machineなら閲覧できる可能性が高くなっています。多くの人が活用できる非常に便利なサービスです。
Archive-It
Archive-It(アーカイブイット)は、専門的な知識がなくても各種データを保存することができ、アーカイブ作成を可能にするサービスです。Archive-Itが用意した操作画面を使えば簡単に指定したWebサイトやページを保存することができ、いつでも見返したり、全文検索を行ったりすることができます。ただし、Archive-Itは有料サービスとなるので注意しましょう。
引用:Archive-It
Open Library
Open Library(オープンライブラリィ)はその名の通りオープンなデジタル図書館サービスで、インターネットアーカイブ内の電子書籍なら児童書から学術書まで全て確認できるようになっています。掲げている最終的な理想としては「すべての出版物を誰でも利用できるようにすること」が目的とされており、出版物の情報を集めるとともに、その出版物へのアクセスを提供しています。また、ブラウザでの読み上げ機能や目次の自動生成も行ってくれるため、書籍について情報を集めたい方にとっては使い勝手の良いサービスといえるでしょう。
引用:Open Library
Political TV Ad Archive
Political TV Ad Archive(ポリティカルティーヴィ―アドアーカイブ)は、政治のTV広告やソーシャルメディアなどの広告を残しているサービスです。事実確認と国民が信頼できる報道を組み合わせているため、政治や情勢に関する信頼度の高い情報を収集することができます。「信頼できるジャーナリズム組織と提携している」と発表しているため、一般の人達でも信頼するに値する情報を得ることができるでしょう。
Software Archive
Software Archive(ソフトウェアアーカイブ)は、さまざまな種類の合法的にダウンロード可能なソフトウェアと関連情報を保存しているサービスです。ソフトウェアそのものの情報を入手できるのはもちろん、それに関連するニュースの情報などもチェックできます。また、ゲームのソフトウェアについてもさまざまな情報を入手でき、ゲームのハイスコアやスキルのリプレイなども確認できます。
関連記事:Wayback Machine(ウェイバックマシン)とは?使い方や意味を徹底解説します!
Wayback Machineの利用方法
アーカイブサービスの中では最もポピュラーなWayback Machineですが、さまざまなシーンで活用が可能です。ここからはシーン別にWayback Machineの利用方法について解説します。
過去のWebサイトを確認する方法
Wayback Machineで、過去のWebサイトを確認する方法は以下の通りです。
1. 検索窓にURLまたはキーワードを入力
2. キャッシュした日付が棒グラフで画面上部に表示されるため、棒グラフが表示されている年をクリック
3. 調べたい年をクリックすると、カレンダーが表示されるため調べたい月日を指定してクリック(青い丸が付いている日付が、データが保存されている日)
4. 調べたい日をクリックすると、当時のWebサイトの状態を確認できる(リンクもつながっているため、他のページの確認も可能)
手動でWebサイトを保存する方法
Wayback Machineは基本的に自動でキャッシュを行い、Webサイトの情報を収集していますが、キャッシュされるタイミングは不明で必ずしも毎日行われている訳ではありません。そのため、手動でWebサイトを保存することができます。クローラーの巡回頻度が少ない場合、現時点でのキャッシュを残したい場合などに活用すると良いでしょう。手動でWebサイトを保存する方法は以下の通りです。
1. 検索窓に保存したいページのURLを入力し、「SAVE PAGE」をクリック
2. 保存処理が完了
過去のWebサイトを削除する方法
Wayback Machineに保存されている過去のWebサイトやページを削除したい場合は、Wayback Machineを運営しているインターネットアーカイブにメールを送って、削除を依頼する必要があります。
フォームなどは用意されていないため、「info@archive.org」宛てにメールを送るようにしましょう。削除にあたっては、削除したいURLとその削除したいWebサイトの運営者である証明を送る必要があります。また、インターネットアーカイブはアメリカの団体のため、英語で削除を依頼しなければなりません。
クローラーのアクセスを制限する方法
「過去のものは削除をしなくても良いが、今後のWebサイトへのキャッシュは行ってほしくない」ということであれば、クローラーのアクセスを制限する方法があります。
robots.txtに以下のタグを記述してサーバーのトップディレクトリにアップしておきます。
User-agent: ia_archiver
Disallow: /
意味としては、「インターネットアーカイブによるクロールを“Disallow(拒否)”する」ということで、これによって、Wayback Machineには自身のサイトが残らない状態となります。
Wayback Machineで確認できないもの
膨大な量のデータを保存し続けているWayback Machineですが、閲覧できないページやデータもあります。Wayback Machineで確認できないものは主に以下のようなものがあげられます。
● 手動保存が進んでいないWebサイト
● IDなどで制限されたWebサイト
● 削除依頼されているWebサイト
手動保存が進んでいないWebサイト
手動の保存が進んでいないものは、Wayback Machineで確認が行えません。Wayback Machineは基本的に自動でキャッシュを行っていますが、必ずしも毎日行われている訳ではありません。そのため、自動での保存はいつ行われるか分からなくなっています。そのため、Wayback Machineなどのアーカイブに残したい場合は、手動でWebサイトを保存することを推奨します。登録には一定の時間が必要なため、保存されるのには少し時間がかかります。保存が完了していない間は検索をしても表示がされませんが、しっかりと手動保存を進めていくことでアーカイブに残るようになります。
IDなどで制限されたWebサイト
IDなどで閲覧が制限されたWebサイトもWayback Machineで確認が行えません。Wayback Machineのデータは誰でも確認ができますが、Webサイトによっては閲覧に必要なID・パスワードなどを設定しているものもあります。それらはID・パスワードの入力を行って、セキュリティをクリアしなければ閲覧することはできません。
削除依頼されているWebサイト
Wayback Machineが削除依頼を受けているWebサイトは確認ができません。Webサイトによってはさまざまな状況や理由から過去のデータ保存を行ってほしくない人もいらっしゃいます。そのような場合は、Wayback Machineを運営しているインターネットアーカイブにメールを送って削除を依頼することで、Webページの過去のデータを削除することが可能です。削除依頼を受けているWebサイトは、いくら検索をしても閲覧することはできません。
インターネットアーカイブはSEO対策に活用できる
Wayback Machineなどのサービスは、過去のWebサイトの情報や削除されたものの閲覧などを行うことが可能であるという特性から、SEO対策に活用できます。SEOとは検索エンジン最適化の略称で、「Search Engine Optimization」の頭文字をとっています。Googleなどの検索エンジンに評価してもらいやすい構成のWebサイトや、キーワードを含めたWebサイトなどを作成することで、自社のWebサイトを検索結果上位に表示させ、検索によって閲覧するユーザーを増やしていくための施策のことを言います。
主に以下のような点で活用できるでしょう。
● 検索順位の変動時に上位のWebサイトの調査ができる
● トレンドなどをチェックできる
● 過去のWebサイトやページの情報が残せる
● 中古ドメインの質の確認ができる
● URL構造の変化を確認することができる
検索順位の変動時に上位のWebサイトの調査ができる
Googleは定期的にアルゴリズムのアップデートを実施しており、これらのアルゴリズムを分析して結果を出すのは非常に高度なスキルが必要とされます。実際にこれを読んでいる企業のWeb担当者やSEO担当者の方で、「頭を悩ませている」という方も多いのではないでしょうか?
そんな際にWayback Machineなどを活用することで、アップデートにて検索順位の変動時に上位のWebサイトの調査を行うと非常に効果的です。上位に上がったメディアやコンテンツにどのような傾向があるのか、どのような要素があることでGoogleから良い評価を得たのかなどを分析して、それらを自社のメディアに取り入れると非常に効果的だといえるでしょう。
例えば、競合他社のメディアが「A」という要素を追加したことによって検索順位が大幅に上がったとします。そのような場合でも、競合他社の現在のメディアと、Wayback Machineにある競合他社の過去のメディアを見比べることで、「A」という要素を追加したことでGoogleからの評価が向上して上位表示されたという調査を行うことが可能です。このような調査を繰り返して、自社のメディアなどに良い要素を含んでいくことができるでしょう。
トレンドなどをチェックできる
Wayback Machineなどを活用して複数の調査を行うと、Webサイトにおけるトレンドもチェックできるでしょう。
トレンドは急速に変動し、Googleのアルゴリズムのアップデートなどによってすぐ変動していっています。急速な変化のスピードにも対応するためには、結果を残しているであろう上位のWebサイト複数の調査が必要です。上位に上がっているものはGoogleのアルゴリズムのアップデートなどにも施策を行ったり、対策を早急に行ったりしている可能性が高くなっています。Wayback Machineなどを上手く使うことで、複数の調査を行い、アルゴリズムのアップデートに対応した自社の施策やトレンドへの対応を行うことができるでしょう。
過去のWebサイトやページの情報が残せる
Webサイトを運営していると、今後の調査の為に残したいページがあったり、構成を変更してあまり効果が出なかった際に元の構成に戻すために今の構成を記録しておきたかったりなど、運営者ならではの悩みがあります。そのようなタイミングでサービスを活用し、Webサイトのページの保存を行っておくことで、いつでも過去の構成やページを閲覧することが可能となります。
構成を変更して上位に上がったなどの結果が出れば、「どこを変えたことでSEO対策に繋がったのか」「どのような要素で評価が上がったのか」などを、過去の構成を見ながら分析することができるでしょう。分析の結果、要因が把握できれば、その要素をさらに追加したり、他のメディアにも応用したりすることが可能です。逆に構成を変更して検索順位が下がった場合でも、過去の情報を保存しているものが存在するので、その情報を確認しながら元に戻すことができます。
中古ドメインの質の確認ができる
Wayback Machineを活用することで、中古ドメインの質の確認が行えます。
スムーズにSEO対策を行い、なるべく早く結果を出すための1つとして中古ドメインを利用した方法があります。すでに利用履歴のあるドメインを再利用し、運用をすることで以前の評価を引き継いで運用できるという手法です。良いドメインであればドメインパワーが強く、スムーズにSEO対策の効果を上げられる可能性があります。
しかし、その購入した中古ドメインが、過去にGoogleからペナルティを受けていたり、被リンク数が極端に少なかったりすると、効果を上げにくい可能性があります。ジャンルによっては、ペナルティを受けたり、評判が悪かったりする可能性もあるためです。せっかく費用を出して中古ドメインを購入しても、そのような状況を知らずに購入してしまったがために成果があげられないのは避けたいところです。
Wayback Machineを上手く使うことでで、購入を検討している中古ドメインはどのようなコンテンツを掲載しているのか、どのような運用を行っていたのかをチェックすることができ、その中古ドメインがどの程度の質のものかを事前に確認することが可能です。
URL構造の変化を確認することができる
Wayback MachineはWebサイトの構造などだけでなく、過去のURLデータも一緒に保存されているため、URL構造の変化を確認することもできます。変更箇所や変更した時期の確認が可能です。そのため、中古ドメインを使用する際は、Wayback Machineでどの中古ドメインを確認し、ドメインパワーを確認するようにしておきましょう。
関連記事:Alternate(オルタネイト)タグとは! 意味やSEOを意識した上での注意点を解説!
Wayback Machine以外の過去のWebサイトをチェックできるツール
一般的にWayback Machineが最もポピュラーなものではありますが、Wayback Machine以外にも過去のWebサイトを確認できるツールは存在します。他にもさまざまな無料ツールがありますので、自身にとって使いやすいものを見つけてください。ここからは、Wayback Machine以外の過去のWebサイトをチェックできるツールを紹介します。
Stanford Web Archive Portal
アメリカの超名門私立大学であるスタンフォード大学が運営するサービスです。アメリカの大学が運用するサービスで、数はWayback Machineと比較すると少ないですが、日本語のサイトもいくつか収集されているため、日本人にとって利用しやすいものになっています。検索方法やサイトデザインがWayback Machineと非常に似ているので、Wayback Machineの使用経験がある方にとっては快適に使用できるでしょう。Wayback Machineとは異なる情報も収集されているので、2つを使い分けると効果的です。
引用:Stanford Web Archive Portal
Library of Congress
Library of Congressは、アメリカ議会図書館が運営するサービスです。1つのWebサイトに対して、週1回、月1回、四半期に1回といったように、さまざまな頻度で収集を行なっています。また、図書館資料の電子版も一緒に検索することが可能となっているため、図書館資料を利用する人にとっては便利でしょう。
UK Parliament Web Archive
UK Parliament Web Archiveは、イギリスの大英図書館が運営するサービスです。Webサイトの情報はもちろん、サイト内のPDFや画像、映像も収集されています。収集されたデータは、英国図書館や英国図書館分館などの計4館に保存されているため、万が一いずれかの図書館で保存しているデータが消失したとしても、他のデータから復元ができるようになっています。そのため、情報やデータの保管に関する安全性は高いといえるでしょう。
Web魚拓
Web魚拓は、日本の企業である株式会社アフィリティーが運営するサービスです。
Wayback Machineのようにクローリングを行って収集する仕組みではなく、ユーザー自らが保存したいWebサイトを指定してURLを入力することで保存する仕組みとなっています。日本の企業によって作成されているので、保存の進め方も分かりやすくなっています。
ネットを使っていて意外と多いのが「ブックマークしておいて後で見ようと思っていたが、気づいたら閉鎖されていた」というケースです。他にも、ドメインが切れていたり、他のサイトになってしまっていたりなどのケースもあります。Web魚拓を活用すると、サイト内容が変更されたり削除されたりしても、ウェブ魚拓をとった時点の状態をいつでも確認できます。
引用:Web魚拓
WARP
WARPは、日本の国立国会図書館が行っているインターネット資料収集保存事業のサイトです。
掲載されている情報は、日本国内のものに限定されており、対象は国の機関や法人・機構、国立大学、政党などが中心となっています。民間のメディアは、運営者の許諾に基づいて収集と保存がされています。
保存されているWebサイトは、URL・タイトル・公開社名・書誌IDなどから検索でき、小規模なターゲット単位で収集を行なっているため、各ターゲットごとに収集の頻度を決めて運営されているのが特徴といえます。
引用:WARP
関連記事:SEOで最も重要!ドメインパワーのチェック方法と強化対策について
インターネットアーカイブ利用の上での注意点
ここまで解説してきたように、インターネットアーカイブのサービスは非常に重要です。Webの発達が著しい現代では、これらのサービスを活用することでより高い恩恵を受けられるようになるでしょう。ただし、1点注意しておきたいのが、インターネットアーカイブに保存された情報やデータは本来「研究目的での利用」を想定されている点です。
ビジネスに活用する上で利用されることを前提とはしていないため、自社のWebサイト運営への活用やSEO対策などへの活用へは注意が必要です。収集し保存されている情報やデータは、保存しても問題ないか許可が取れているものであったり、著作権が切れたものであったりするため、無償で利用が可能ですが、どのような理由で利用するかは利用者本人の責任に委ねられていることは理解しておきましょう。
まとめ
本記事では、インターネットアーカイブの概要や、過去のWebサイトを確認する方法、削除する方法などについて解説しました。
インターネットアーカイブは、Webページのアーカイブ閲覧サービスを運営している非営利団体のことで、過去のWebサイトの情報や削除されたWebサイトの閲覧などを行うことができる「Wayback Machine(ウェイバックマシン)」などのツールを提供しています。Wayback Machineは現時点で保存されているデータ量は8,280億ページを超えるほどで、この膨大なデータ量を活用することで、SEO対策などにも活用できます。主に以下のような点で活用できるでしょう。
● 検索順位の変動時に上位のWebサイトの調査ができる
● トレンドなどをチェックできる
● 過去のWebサイトやページの情報が残せる
● 中古ドメインの質の確認ができる
● URL構造の変化を確認することができる
ただし、1点注意しておきたいのが、情報やデータは本来「研究目的での利用」を想定されています。どのような理由で利用するかは利用者本人の責任に委ねられていることは理解しておきましょう。
Wayback Machine以外にもさまざまなアーカイブサービスは存在しており、ほとんどのサービスが無料で利用可能です。ぜひアーカイブサービスを利用して、自社のWebサイト運営などに活用してみましょう。