インターネット上に一度公開された情報はずっと残るものと思われがちだが、どうやらそうでもないらしい。Pew Research Centerによる新たな調査では、2013年以前に作成されたWebページの約40%が「デジタルディケイ(Digital Decay)」のため、現在ではアクセス出来ない状況にあることが判明した。
WebページのみならずSNSでもデジタルディケイは見られる
今回の調査結果はオンラインコンテンツに一般的に抱かれている印象とは相反するものだろう。一度公開されたものは永遠に残るわけでもなく、時間の経過と共に徐々に減衰していってしまうようだ。
デジタルディケイとは、時間の経過と共に、デジタル情報が徐々に劣化、腐敗、または陳腐化する現象のことだ。その原因としては、技術の陳腐化、ハードウェアの故障、ソフトウェアの非互換性、データの破損、サーバーが脅威にさらされた、そしてそもそもコンテンツが削除された等がある。
Pew Research Centerによる調査では、2013年から2023年の間に存在していたWebページのうち4分の1が現在アクセスできないことが判明した。原因としては、関連するページが削除されたからのようだ。
この調査では、「アクセス不能」とはホストサーバーにページが存在しない状態を意味しており、通常は404エラーメッセージや他のエラーコードにつながるものである。
データ収集のために、研究者たちはCommon Crawlアーカイブから約100万ページ(年間約9万ページ)のランダムサンプルを使用した。Common Crawlは、さまざまな時期のWebのスナップショットを定期的に取るインターネットリポジトリである。彼らは2013年から2023年までの間にこれらの情報を収集し、それらのページがまだ存在しているかどうかを確認した。
その結果、2013年から2023年に作成されたページの約25%が2023年10月時点でアクセスできなくなっていた。この25%の内訳は、「個別にはアクセス不能だが、ルートレベルのドメインはアクセス可能」であったページが16%が、「ルートドメイン全体が存在しないためアクセス不能」だったページが9%だった。
「コレクションの中で古いスナップショットほどアクセス不能なリンクの割合が高かった」と報告書では述べられている。
2023年末までに、2013年のスナップショットで収集されたページの38%が消失していた。しかし、2021年のスナップショットのコンテンツでも約5分の1のページが失われていた。
また、異なる種類のWebページについて興味深い比較結果も得られた。例えば、英語版Wikipediaページの50,000件の参照リンクを調査したところ、サンプルページの82%にはWikipedia以外のページへの参照リンクが少なくとも1つ存在していたが、11%の「すべての参照リンク」はアクセス不能だったという。
サンプルページの約2%では、すべてのリンクがアクセス不能または壊れており、約53%には少なくとも1つの壊れたリンクが含まれていた。
政府のWebサイトにも興味深い点が見られた。チームは500,000の政府Webページをサンプルとして調査し、4分の3のページに少なくとも1つのサイト内リンクが存在することが分かった。中央値のページには50のリンクが含まれていたが、多くのページにはそれ以上のリンクがあった。これらのページの大多数は安全なHTTPページ(URLが「https://」で始まる」にリンクしており、16%は他のページにリダイレクトされていた。
しかし、調査した政府ページの約21%には少なくとも1つのリンク切れが含まれていた。調査したすべてのレベルの政府で、少なくとも14%のページにリンク切れが見られ、市政府のページはリンク切れの割合が最も高かったという。
ニュースサイトも同様の問題が見られた。オーディエンス メトリクス会社 comScoreによって、「ニュース・情報」に分類された2,063のWebサイトから 500,000 ページをサンプル調査したが、ニュースサイトの94%に少なくともサイト内リンクが存在していた。中央値のページにはサイト内リンクが含まれており、上位10%のページには約56のサイト内リンクがあったという。
分析によると、政府のWebサイトと同様に、これらのリンクの大半は安全なHTTPページへのものであった。だが、ニュースサイトのリンクの約32%は元のURLから異なるURLにリダイレクトされ、約5%のニュースサイトのリンクが現在アクセス不能であり、全ページの約23%には少なくとも1つのリンク切れが含まれていた。
最後に、Twitter(現在のX)についても調査が行われた。2013年3月から2023年までに投稿された500万のツイートのうち、18%が利用できなくなっていた。
「大多数のケースでは、ツイートを投稿したアカウントが非公開にされたり、停止されたり、完全に削除されたりしたためです。残りのツイートについては、投稿したアカウントはまだサイトに表示されていましたが、個々のツイートは削除されていました」。と、調査結果は述べている。
また、特定の言語で書かれたツイートが特に消失しやすいことも判明した。例えば、トルコ語のツイートの半数と、アラビア語のツイートの一部が現在では利用できなくなっていた。
総じて、サイトから削除されたツイートの大部分は投稿されてからすぐに消えてしまう傾向があるようだ。
Source
- Pew Research Center: When Online Content Disappears
- Axios: Digital decay
コメント