Archivebox – это простая в использовании программа архивирования, позволяющая создать точный снимок любого веб-сайта. Это может быть полезно для архивистов и пользователей, которые хотят сохранить информацию в Интернете. Мало того, Archivebox невероятно прост и удобен в использовании. Например, вы можете запустить программу и как инструмент командной строки, и как веб-приложение, к которому вы можете получить доступ где угодно.
Зачем архивировать веб-сайты?
На протяжении многих лет Всемирная паутина позволяла людям по всему миру легко обмениваться информацией и обмениваться ею друг с другом. Однако одна из проблем Интернета заключается в том, что веб-сайты не сохраняются со временем.
Contents
Зачем архивировать веб-сайты?
2-old-geocities-website.jpg" alt="Установите Archivebox Linux 02 Старый сайт Geocities">Большинство веб-сайтов остаются активными всего от двух до пяти лет. После этого они либо полностью отключаются, либо вообще заменяются другим сайтом. Например, практически нет веб-сайтов 1990-х годов, которые до сих пор доступны в сети.
В качестве альтернативы вы также можете использовать Машина WayBack для архивирования веб-сайтов — установка не требуется.
Требования к Archivebox
Прежде чем установить Archivebox, вам необходимо убедиться, что у вас есть следующие ресурсы:
- Машина, к которой вы можете получить доступ за пределами домашней сети. Это может быть либо домашняя машина, на которой вы можете перенаправление портов , либо арендованная удаленный VPS .
- Ваша машина должна иметь достаточное количество места для хранения . В большинстве случаев на диске емкостью 1 ТБ должно храниться от 100 000 до 1 000 000 отдельных веб-страниц.
- Для правильной работы Archivebox файловая система вашего компьютера должна быть EXT4 или ZFS.
Примечание. В этом руководстве основное внимание уделяется установке и настройке Archivebox на локальном компьютере с Ubuntu 22.04 LTS.
Установка Archivebox
Сначала установите зависимости программы. Откройте терминал и введите следующую команду:
sudo aptТребования к Archivebox
dejs python3-pip nginx npm npm install --no-audit --no-fund 'git+https://github.com/gildas-lormeau/SingleFile.git' npm install --no-audit --no-fund 'git+https://github.com/ArchiveBox/readability-extractor.git' npm install --no-audit --no-fund '@postlight/mercury-parser'
Установить Archivebox через Python PIP:
pip3 install archivebox PATH=$PATH:/home/$USER/.local/bin
Затем создайте папку, в которой Archivebox сохранит все свои данные. В моем случае я создаю свой каталог в каталоге «/home/archivebox»:
mkdir /home/$USER/abox-data && cd /home/$USER/abox-data
Наконец, вы можете завершить работу над экземпляром Archivebox, выполнив следующую команду, чтобы загрузить и настроить все патчи Python, которые программа должна запускать на вашем компьютере.
archivebox init --sУстановка Archivebox
>
Вам будет предложено ввести данные первого пользователя.
Проверьте, правильно ли вы установили Archivebox, выполнив:
archivebox --version
Подготовка веб-интерфейса
Хотя Archivebox прекрасно подходит для использования в качестве утилиты командной строки, доступ к программе также возможен через веб-интерфейс. Это полезно, если вы хотите поделиться Archivebox с другими пользователями или получить доступ к программе за пределами вашего сервера.
Чтобы разместить веб-интерфейс, вам необходимо создать Обратный прокси Nginx для перенаправления любого входящего веб-трафика на демон Archivebox.
Создайте новый файл конфигурации Nginx:
sudo nano /etc/nginx/sites-available/archivebox
Скопируйте и вставьте следующий код, заменив server_name
на свое собственное доменное имя:
server { listen 80; listen [::]:80; root /home/archivebox/abox-data; server_name yetanotherarchivebox.xyz www.yetanotherarchivebox.xyz; location / { proxy_pass http://127.0.0.1:8000; } }
Включите конфигурацию Archivebox:
sudo ln -s /etc/nginx/sites-available/archivebox /etc/nginx/sites-enabled/
Перезапустите Nginx и запустите демон Archivebox:
sudo systemctl restart nginx archivebox server 0.0.0.0:8000
Архивирование вашего первого веб-сайта
Откройте веб-браузер и получите доступ к экземпляру Archivebox через свое доменное имя. В моем случае я собираюсь использовать «yetanotherarchivebox.xyz».
Нажмите кнопку «ВОЙТИ» в
Подготовка веб-интерфейса
/p>Введите свои учетные данные для входа в утилиту.
Отправьте в архив свой первый веб-сайт, нажав кнопку «Добавить» на верхней боковой панели страницы.
Откроется большое диалоговое окно, в котором вы сможете добавить список веб-ссылок, которые хотите заархивировать. В моем случае я добавляю «https://maketecheasier.com».
Далее вы можете выбрать различные варианты архивирования вашего сайта. Например, вы можете предоставить набор тегов для своих ссылок, чтобы правильно их сортировать.
Кроме того, вы можете указать Archivebox сохранять содержимое любой непосредственной ссылки на странице, которую вы хотите заархивировать. Это полезно в тех случаях, когда вы хотите сохранить контекст веб-сайта.
Нажмите кнопку «Добавить URL-адреса и архивировать», чтобы начать процесс архивирования. В большинстве случаев это может занять от одной до двух минут.
Архивирование веб-сайта с помощью командной строки
Чтобы заархивировать веб-страницу из командной строки, выполните следующие команды:
cd /home/$USER/abox-data archiАрхивирование вашего первого веб-сайта
ttps://maketecheasier.com
Кроме того, вы также можете использовать субкоманду add
для архивации списка веб-ссылок. Например, выполнение следующей команды сообщит Archivebox сохранить каждую ссылку в моем файле «bookmarks.txt»:
archivebox add < /home/$USER/bookmarks.txt
Наконец, также можно создать автономный архив одной веб-страницы. Для этого выполните следующую команду:
archivebox oneshot https://maketecheasier.com
Настройка архивного окна
Вы также можете настроить способ получения Archivebox сохраняемых страниц. Например, можно сохранить только снимок экрана каждой веб-страницы, которую вы архивируете.
Это полезно для пользователей, которые хотят сэкономить место на диске при хранении веб-сайтов. Чтобы отключить другие форматы, необходимо выполнить следующие команды:
archivebox config --set SAVE_WGET=False archivebox config --set SAVE_WARC=False archivebox config --set SAVE_PDF=False archivebox config --set SAVE_SINGLEFILE=False archivebox config --set SAVE_READABILITY=False archivebox config --set SAVE_MERCURY=False
Добавление нового пользователя в Archivebox
Чтобы добавить нового пользователя, вернитесь в веб-интерфейс и нажмите кнопку «АДМИН» на верхней панели страницы.
В панели администратора перейдите в категорию «Аутентификация и авторизация» и выберите «Пользователи».
Это список всех активных пользователей в системе. Нажмите кнопку «Добавить пользователя +» в правом верхнем углу страницы.
Как и добавление пользователей в группу Linux , процесс создания пользователя в Archivebox может быть сложным. Несмотря на это, для правильной работы новому пользователю требуется всего три вещи: имя пользователя, пароль и набор пользовательских разрешений.
Чтобы создать нового пользователя, сначала укажите пароль.
После этого выберите права доступа для этого конкретного пользователя. В большинстве случаев обычному пользователю достаточно переключить следующие параметры:
core | archive result | Can add archive result core | archive result | Can change archive result core | archive result | Can view archive result core | snapshot | Can add snapshot core | snapshot | Can change snapshot core | snapshot | Can view snapshot core | tag | Can add Tag core | tag | Can change Tag core | tag | Can view Tag sessions | session | Can add session sessions | session | Can change session sessions | session | Can view session
Укажите имя пользователя для новой учетной записи пользователя. В моем случае я использую имя «Алиса».
И наконец, нажмите кнопку «СОХРАНИТЬ» в правом нижнем углу страницы, чтобы применить изменения.
Часто задаваемые вопросы
Настройка архивного окна
d ">Как устранить ошибку «Не удалось установить пакеты Python»?
Это происходит из-за ошибки в Archivebox, которая не позволяет ему найти нужные двоичные файлы. Несмотря на это, эта ошибка затрагивает лишь незначительную часть программы и не повредит целостности вашего архива.
Один из способов решения этой проблемы — следить за тем, чтобы ваша установка всегда была актуальной. Сделайте это, запустив pip3 install --upgrade archivebox
.
Как исправить ошибку «HTTPSConnectionPool» при каждом сохранении веб-сайта?
Эта ошибка возникает, когда на веб-сайте нет действующей версии HTTPS. Исправьте эту проблему, заставив Archivebox архивировать через HTTP. Например, запуск archivebox add http://insecurewebsite.com
заставит программу использовать HTTP.
Что мне делать, если моя новая учетная запись пользователя не может заархивировать веб-сайт?
Эта проблема, скорее всего, связана с отсутствием настроек разрешений в вашей новой учетной записи пользователя. Один из способов быстро решить эту проблему — убедиться, что ваша новая учетная запись пользователя имеет разрешение
Добавление нового пользователя в Archivebox
Изображение предоставлено: Unsplash . Все изменения и скриншоты Рамсеса Реда.