Ниже представлен перевод заметки "Evolution of the Web from 2000 to 2007", в которой приведены данные о росте размеров файлов в Интернете и изменении его структуры. Мои комментарии далее курсивом.
Веб очень сильно изменился за последние 7 лет. За это время Интернет прошел долгий путь и превратился из одностороннего средства распространения информации в динамическую платформу для интерактивных сервисов, таких как фото- и видео-порталы. В сравнительном исследовании характера передаваемой в сети информации с 2000 по 2007, проведенной сотрудниками Университета Twente, было установлено, что значительно изменилась сама природа веб-сайтов (Sadre и Haverkort, 2008).
Если в 2000 году практически весь трафик обусловлен классическими HTML-форматами, текстовыми и графическими, то в уже 2007 почти весь объем передаваемых данных заключался в видео-файлах и бинарных обновлениях и загрузках программного обеспечения. Благодаря этому сдвигу к большому объему видео-информации и программного обеспечения, средний размер ответа увеличился с 12294 байтов до 68275 байтов, примерно в 5,5 раз (см. рис.1). Эффективность (клиентского) кэширования в Интернете упала, поскольку число ответов с динамически создаваемыми данными увеличилось с 21,2% до 37,1%. Эта статистика демонстрирует, как суть веб-сайтов изменилась от предоставления статической информации до обеспечения динамического взаимодействия с пользователем.
Рис 1. Рост среднего размера объекта
На таблице 1 изображено, как изменялось время ответа с между 2000 и 20007 годами. Средний размер объектов вырос на 455% с 12294 до 68275,2 байтов, или примерно В 5,5 раз. Медиана (среднее по количеству, а не арифметическое) с 2410 до 2780 байтов. В обоих распределением очень большой хвост, при этом 2007 год, естественно, растягивается еще сильнее. Этот эффект можно наблюдать как в изменении порядка величины дельта-параметра нормального распределения (Squared Coefficient of Variation, SCV) размера ответа с 320,9 до 3425 байтов. К тому же увеличился и размер максимального размера документа. В 2004 году это было 193 Мб, при этом самый большой файл в 2007 году уже был около 2 Гб, что как раз и демонстрирует очень сильно увеличившийся «длинный хвост» распределения.
2000 год | 2007 год | |
---|---|---|
мин. | 17 | 85 |
макс. | 0,228 х 109 | 2,147 x 109 |
средний | 12294.0 | 68275,2 |
медиана | 2410 | 2780 |
SCV | 320,9 | 3425,1 |
На таблице 2 показано распределение размеров объектов по годам. В 2007 году 5 самых популярных типов файлов занимали 88,2% всех запросов, при этом в 2000 году это были все 98,1% запросов. Также ясно видно, что форматы JPEG и PNG становятся все популярнее и популярнее, чем GIF. В 2000 году только 0,2% всех запросов приходилось на JPEG, и уже треть (33.3%) запросов в 2007. На таблице видна тенденция к интерактивным веб-приложениям, потому что доля запросов к JavaScript-файлам возросла с 1,1% в 2000 году до 6,9% всех запросов в 2007. Использование CSS также увеличилось: в 2000 году всего 2,7% HTML-документов использовали стили, а в 2007 году уже 15,6%.
2000 год | 2007 год | ||
---|---|---|---|
тип | # | тип | # |
image/gif | 53,2% | image/jpeg | 33,3% |
image/jpeg | 24,9% | image/gif | 28,5% |
text/html | 18,4% | text/html | 16,0% |
application/x-javascript | 1,1% | application/x-javascript | 6,9% |
text/plain | 0,5% | image/png | 3,5% |
В третьей таблице хорошо прослеживается, что почти весь трафик в 2000 году был сконцентрировал в традиционных HTML-форматах файлов (текстовых и графических), тогда как в 2007 почти весь трафик составляли уже видео-потоки и обновления и загрузки программного обеспечения. Также по таблице видно, что очень сильно изменился средний размер объектов: даже размер HTML- и JPEG-файлов возрос на 30%.
2000 год | 2007 год | ||||
---|---|---|---|---|---|
тип | объем | размер | тип | объем | размер |
image/jpeg | 21.5% | 10 | application/octet-s | 34.6% | 1766 |
image/gif | 15,5% | 4 | image/jpeg | 6,6% | 13 |
text/html | 14,6% | 9 | application/x-otrkey | 6,6% | 240610 |
application/msword | 9.0% | 4147 | text/plain | 6,1% | 231 |
application/octet-stream | 8,4% | 672 | video/x-msvideo | 6,0% | 109533 |
application/zip | 8,1% | 1322 | video/x-flv | 5,9% | 10954 |
video/mpeg | 6,8% | 861 | video/flv | 5,4% | 6730 |
application/vnd.ms-excel | 2,5% | 3637 | video/x-ms-wmv | 3,2% | 42636 |
text/plain | 2,2% | 49 | text/html | 3,1% | 13 |
audio/mpeg | 2,1% | 3360 | application/zip | 2,5% | 9632 |
Число запросов к страницам в пересчете на пользователя более чем удвоилось: с 7074 запросов в 2000 году до 14670 запросов в 2007. При этом средний размер страницы (учитывая то, что запросы к страницам отделялись от запросов к прокси-серверам по задержке ответа) удвоился с 2000 по 2007 годы.
Эффективность кэширования очень сильно уменьшилась: в 2000 году она составяла 54,3% всех запросов, а 2007 — уже 23%. Это произошло из-за динамической природы самого Интернета. В 2000 году только 21,2% всех запросов к страницам приходились на динамические документы (формы, CGI-скрипты, и т.д.), но уже 37,1% в 2007 году.