ГлавнаяОперационные системыLinuxКак создать веб-архив с помощью Archivebox

Как создать веб-архив с помощью Archivebox

Archivebox – это простая в использовании программа архивирования, позволяющая создать точный снимок любого веб-сайта. Это может быть полезно для архивистов и пользователей, которые хотят сохранить информацию в Интернете. Мало того, Archivebox невероятно прост и удобен в использовании. Например, вы можете запустить программу и как инструмент командной строки, и как веб-приложение, к которому вы можете получить доступ где угодно.

Зачем архивировать веб-сайты?

На протяжении многих лет Всемирная паутина позволяла людям по всему миру легко обмениваться информацией и обмениваться ею друг с другом. Однако одна из проблем Интернета заключается в том, что веб-сайты не сохраняются со временем.

Contents

Зачем архивировать веб-сайты?

2-old-geocities-website.jpg" alt="Установите Archivebox Linux 02 Старый сайт Geocities">

Большинство веб-сайтов остаются активными всего от двух до пяти лет. После этого они либо полностью отключаются, либо вообще заменяются другим сайтом. Например, практически нет веб-сайтов 1990-х годов, которые до сих пор доступны в сети.

Установите Archivebox Linux 03. Пример старого веб-сайта.

В качестве альтернативы вы также можете использовать Машина WayBack для архивирования веб-сайтов — установка не требуется.

Требования к Archivebox

Прежде чем установить Archivebox, вам необходимо убедиться, что у вас есть следующие ресурсы:

  • Машина, к которой вы можете получить доступ за пределами домашней сети. Это может быть либо домашняя машина, на которой вы можете перенаправление портов , либо арендованная удаленный VPS .
  • Ваша машина должна иметь достаточное количество места для хранения . В большинстве случаев на диске емкостью 1 ТБ должно храниться от 100 000 до 1 000 000 отдельных веб-страниц.
  • Для правильной работы Archivebox файловая система вашего компьютера должна быть EXT4 или ZFS.

Примечание. В этом руководстве основное внимание уделяется установке и настройке Archivebox на локальном компьютере с Ubuntu 22.04 LTS.

Установка Archivebox

Сначала установите зависимости программы. Откройте терминал и введите следующую команду:

sudo apt

Требования к Archivebox

dejs python3-pip nginx npm npm install --no-audit --no-fund 'git+https://github.com/gildas-lormeau/SingleFile.git' npm install --no-audit --no-fund 'git+https://github.com/ArchiveBox/readability-extractor.git' npm install --no-audit --no-fund '@postlight/mercury-parser'
Установить Archivebox Linux 06. Установить зависимости

Установить Archivebox через Python PIP:

pip3 install archivebox
PATH=$PATH:/home/$USER/.local/bin
Установка Archivebox Linux 07 Установка двоичного файла Archivebox

Затем создайте папку, в которой Archivebox сохранит все свои данные. В моем случае я создаю свой каталог в каталоге «/home/archivebox»:

mkdir /home/$USER/abox-data && cd /home/$USER/abox-data

Наконец, вы можете завершить работу над экземпляром Archivebox, выполнив следующую команду, чтобы загрузить и настроить все патчи Python, которые программа должна запускать на вашем компьютере.

archivebox init --s

Установка Archivebox

>Установка Archivebox Linux 08 Создание нового репозитория Archivebox

Вам будет предложено ввести данные первого пользователя.

Установка Archivebox Linux 09 Создание нового пользователя Archivebox

Проверьте, правильно ли вы установили Archivebox, выполнив:

archivebox --version

Подготовка веб-интерфейса

Хотя Archivebox прекрасно подходит для использования в качестве утилиты командной строки, доступ к программе также возможен через веб-интерфейс. Это полезно, если вы хотите поделиться Archivebox с другими пользователями или получить доступ к программе за пределами вашего сервера.

Чтобы разместить веб-интерфейс, вам необходимо создать Обратный прокси Nginx для перенаправления любого входящего веб-трафика на демон Archivebox.

Создайте новый файл конфигурации Nginx:

sudo nano /etc/nginx/sites-available/archivebox

Скопируйте и вставьте следующий код, заменив server_nameна свое собственное доменное имя:

server {
       listen 80;
       listen [::]:80;
 
       root /home/archivebox/abox-data;
 
       server_name yetanotherarchivebox.xyz www.yetanotherarchivebox.xyz;
 
       location / {
                  proxy_pass http://127.0.0.1:8000;
       }
}

Включите конфигурацию Archivebox:

sudo ln -s /etc/nginx/sites-available/archivebox /etc/nginx/sites-enabled/

Перезапустите Nginx и запустите демон Archivebox:

sudo systemctl restart nginx
archivebox server 0.0.0.0:8000
Установите Archivebox Linux 11. Запустите веб-интерфейс.

Архивирование вашего первого веб-сайта

Откройте веб-браузер и получите доступ к экземпляру Archivebox через свое доменное имя. В моем случае я собираюсь использовать «yetanotherarchivebox.xyz».

Установите Archivebox Linux 12. Веб-интерфейс работает.

Нажмите кнопку «ВОЙТИ» в

Подготовка веб-интерфейса

/p>
Установите Archivebox Linux 13. Выделите кнопку входа в систему.

Введите свои учетные данные для входа в утилиту.

Экран диалогового окна входа в систему установки Archivebox Linux 14

Отправьте в архив свой первый веб-сайт, нажав кнопку «Добавить» на верхней боковой панели страницы.

Установите Archivebox Linux 15. Выделите кнопку «Добавить»

Откроется большое диалоговое окно, в котором вы сможете добавить список веб-ссылок, которые хотите заархивировать. В моем случае я добавляю «https://maketecheasier.com».

Установите Archivebox Linux 16. Добавьте URL-адрес в архив.

Далее вы можете выбрать различные варианты архивирования вашего сайта. Например, вы можете предоставить набор тегов для своих ссылок, чтобы правильно их сортировать.

Установите теги примеров Archivebox Linux 17

Кроме того, вы можете указать Archivebox сохранять содержимое любой непосредственной ссылки на странице, которую вы хотите заархивировать. Это полезно в тех случаях, когда вы хотите сохранить контекст веб-сайта.

Установите Archivebox Linux 18. Выберите глубину архива.

Нажмите кнопку «Добавить URL-адреса и архивировать», чтобы начать процесс архивирования. В большинстве случаев это может занять от одной до двух минут.

Установка Archivebox Linux 19 Страница архивирования

Архивирование веб-сайта с помощью командной строки

Чтобы заархивировать веб-страницу из командной строки, выполните следующие команды:

cd /home/$USER/abox-data
archi

Архивирование вашего первого веб-сайта

ttps://maketecheasier.com
Установите Archivebox Linux 20 Cli Архивирование

Кроме того, вы также можете использовать субкоманду addдля архивации списка веб-ссылок. Например, выполнение следующей команды сообщит Archivebox сохранить каждую ссылку в моем файле «bookmarks.txt»:

archivebox add < /home/$USER/bookmarks.txt
Установите Archivebox Linux 21. Архивирование списка URL-адресов<

Наконец, также можно создать автономный архив одной веб-страницы. Для этого выполните следующую команду:

archivebox oneshot https://maketecheasier.com
Установка Archivebox Linux 22 Oneshot Sample

Настройка архивного окна

Вы также можете настроить способ получения Archivebox сохраняемых страниц. Например, можно сохранить только снимок экрана каждой веб-страницы, которую вы архивируете.

Это полезно для пользователей, которые хотят сэкономить место на диске при хранении веб-сайтов. Чтобы отключить другие форматы, необходимо выполнить следующие команды:

archivebox config --set SAVE_WGET=False
archivebox config --set SAVE_WARC=False
archivebox config --set SAVE_PDF=False
archivebox config --set SAVE_SINGLEFILE=False
archivebox config --set SAVE_READABILITY=False
archivebox config --set SAVE_MERCURY=False
Установить Archivebox Linux 23. Настроить Archivebox.

Добавление нового пользователя в Archivebox

Чтобы добавить нового пользователя, вернитесь в веб-интерфейс и нажмите кнопку «АДМИН» на верхней панели страницы.

Установить Archivebox Linux 24. Выделение кнопки администратора.

В панели администратора перейдите в категорию «Аутентификация и авторизация» и выберите «Пользователи».

Установите Archivebox Linux 25. Выберите ссылку для пользователей.

Это список всех активных пользователей в системе. Нажмите кнопку «Добавить пользователя +» в правом верхнем углу страницы.

Установка Archivebox Linux 26 Выделение кнопки «Добавить пользователя»

Как и добавление пользователей в группу Linux , процесс создания пользователя в Archivebox может быть сложным. Несмотря на это, для правильной работы новому пользователю требуется всего три вещи: имя пользователя, пароль и набор пользовательских разрешений.

Чтобы создать нового пользователя, сначала укажите пароль.

Архивирование веб-сайта с помощью командной строки27. Введите новый пароль пользователя.">

После этого выберите права доступа для этого конкретного пользователя. В большинстве случаев обычному пользователю достаточно переключить следующие параметры:

core | archive result | Can add archive result
core | archive result | Can change archive result
core | archive result | Can view archive result
core | snapshot | Can add snapshot
core | snapshot | Can change snapshot
core | snapshot | Can view snapshot
core | tag | Can add Tag
core | tag | Can change Tag
core | tag | Can view Tag
sessions | session | Can add session
sessions | session | Can change session
sessions | session | Can view session
Установите Archivebox Linux 28. Выберите права нового пользователя.

Укажите имя пользователя для новой учетной записи пользователя. В моем случае я использую имя «Алиса».

Установите Archivebox Linux 29. Выберите новое имя пользователя.

И наконец, нажмите кнопку «СОХРАНИТЬ» в правом нижнем углу страницы, чтобы применить изменения.

Установить Archivebox Linux 30. Сохранить нового пользователя.

Часто задаваемые вопросы

Настройка архивного окна

d ">

Как устранить ошибку «Не удалось установить пакеты Python»?

Это происходит из-за ошибки в Archivebox, которая не позволяет ему найти нужные двоичные файлы. Несмотря на это, эта ошибка затрагивает лишь незначительную часть программы и не повредит целостности вашего архива.

Один из способов решения этой проблемы — следить за тем, чтобы ваша установка всегда была актуальной. Сделайте это, запустив pip3 install --upgrade archivebox.

Как исправить ошибку «HTTPSConnectionPool» при каждом сохранении веб-сайта?

Эта ошибка возникает, когда на веб-сайте нет действующей версии HTTPS. Исправьте эту проблему, заставив Archivebox архивировать через HTTP. Например, запуск archivebox add http://insecurewebsite.comзаставит программу использовать HTTP.

Что мне делать, если моя новая учетная запись пользователя не может заархивировать веб-сайт?

Эта проблема, скорее всего, связана с отсутствием настроек разрешений в вашей новой учетной записи пользователя. Один из способов быстро решить эту проблему — убедиться, что ваша новая учетная запись пользователя имеет разрешение

Добавление нового пользователя в Archivebox

Изображение предоставлено: Unsplash . Все изменения и скриншоты Рамсеса Реда.

Часто задаваемые вопросы

Как устранить ошибку «Не удалось установить пакеты Python»?

Как исправить ошибку «HTTPSConnectionPool» при каждом сохранении веб-сайта?

Что мне делать, если моя новая учетная запись пользователя не может заархивировать веб-сайт?

ПОХОЖИЕ СТАТЬИ

Популярные записи