ГлавнаяЛайфстайлИнтернетКак использовать инструмент очистки данных для извлечения данных с веб-страниц

Как использовать инструмент очистки данных для извлечения данных с веб-страниц

Шаг 5. Создайте ряды

яете данные с веб-страниц и вручную помещаете их в электронные таблицы, вы либо не знаете, что такое сбор данных (или веб-сбор), либо знаете, что это такое, но вам это не особо интересно. идея научиться программировать, чтобы сэкономить несколько часов на кликах.

В любом случае существует множество инструментов для очистки данных без кода, которые могут вам помочь, и расширение Data Miner для Chrome — один из наиболее интуитивно понятных вариантов. Если вам повезет, задача, которую вы пытаетесь выполнить, уже будет включена в книгу рецептов инструмента, и вам даже не придется выполнять действия «укажи и щелкни», необходимые для создания своей собственной.

Как работает Data Miner?

Data Miner помогает извлекать данные с веб-страниц в красиво отформатированные файлы Excel/CSV, просматривая текст загруженных страниц. Это означает, что вам нужно как минимум достаточно хорошо владеть HTML, чтобы распознавать несколько шаблонов, но не слишком обширных. Продвинутые навыки HTML и/или JavaScript, безусловно, помогут в некоторых задачах, но в большинстве случаев они не обязательны. Вам также необходимо обладать хотя бы базовыми навыками работы с электронными таблицами, чтобы быть уверенным, что в

Как работает Data Miner?

ганизованными.

Читайте также: Как загрузить целые веб-сайты для использования в автономном режиме

1. Настройте Data Miner

Расширение Data Miner

Использование Chrome или другого браузера Chromium, установить расширение . Значок кирки расширения появится на вашей панели инструментов, и, щелкнув по нему, вы перейдете на страницу, где сможете настроить учетную запись. Бесплатная версия дает вам 500 царапин в месяц, чего, вероятно, вам будет достаточно, если только вы не делаете это каждый день.

2. Загрузите данные

Загрузка майнера данных

Сначала перейдите на страницу, из которой вы хотите извлечь данные. Если у вас несколько страниц данных или часть их скрыта за кнопками, ничего страшного — есть способы справиться с этим. На данный момент вам нужна репрезентативная выборка, чтобы программа знала, что искать.

3. Проверьте рецепт

Рецепты для майнинга данных

Затем откройте Data Miner и проверьте вк

1. Настройте Data Miner

существующих рецептов. Если вы находитесь на популярном сайте, возможно, кто-то другой уже создал процесс получения искомых вами данных, что сэкономит вам немало времени. Например, на таких сайтах, как Google, Amazon и Twitter, есть множество рецептов, которые помогут вам мгновенно загрузить ссылки, цены, текст и другие данные. Вы можете протестировать рецепты, нажав кнопку «Выполнить», чтобы просмотреть предварительный просмотр таблицы, сгенерированной Data Miner. Вы также можете настроить существующие рецепты в соответствии со своими потребностями, нажав кнопку «Изменить».

4. Тип страницы

Тип страницы Data Miner

Хорошо, значит, никакие готовые рецепты вам не подойдут. Это нормально, вы можете сделать сами. Просто нажмите кнопку «Новый рецепт», чтобы начать.

Ваш первый вариант — «Страница списка» или «С

2. Загрузите данные

берите «Страница списка», если вы пытаетесь получить несколько строк данных с одной страницы. Например, вы можете загрузить ссылку и заголовок страницы каждого результата поиска или получить дату и содержание сообщений в ленте. Вероятно, это самый распространенный тип, и мы будем использовать его здесь в качестве демонстрации. (Действия для страницы сведений по существу такие же.)

Выберите «Страница сведений», если у вас есть много различной информации об одном объекте на одной странице , например, на странице продукта, где вам нужно получить его цену, описание, ссылку, и рейтинг и поместите все это в одну строку.

Шаг 5. Соз

3. Проверьте рецепт

ding="async" src="https://saintist.ru/wp-content/uploads/2024/05/data-miner-row-select-4.png" alt="Выбор строки Data Miner 4">

Нажмите кнопку «Найти» и перемещайте мышь, пока желтое поле выбора не охватит все данные, которые вам понадобятся для одной записи в окончательной электронной таблице. Например, если вы загружаете результаты поиска, вам нужно будет выделить достаточно большую область, чтобы включить заголовок, URL-адрес и описание, каждое из которых вы можете поместить в отдельные столбцы на следующем шаге. Чтобы сделать выбор, нажмите клавишу Shift. Не волнуйтесь, если вы случайно нажмете; Data Miner сохраняет весь прогресс вашего рецепта, даже если вы уходите со страницы.

Затем вам нужно будет установить хотя бы один из флажков в разделе «Классы элемента» или «Тип элемента HTML». В идеале вы должны увидеть копию выделения, охватывающую каждый элемент на странице, который находится в той же категории, что и выбранный вами.

Выбор строки Data Miner 5

Если вы обнаружите, что селектор не охватывает всего, что вам нужно, попробуйте выбрать только один из элементов и нажать «Выбрать родительский элемент». Это сделает коробку больше и, возможно, в нее войдет все, что вам нужно

4. Тип страницы

м придется немного покопаться в HTML и определить классы и типы необходимых вам элементов. Если вы сомневаетесь, нажимайте «Выбрать родительский элемент», пока поле не станет настолько большим, насколько это возможно, не охватывая более одной записи списка, поскольку это даст вам больше гибкости при выборе столбцов.

Data Miner предоставляет вам опцию «Просмотреть HTML-код элемента» внизу, а также позволяет вводить собственные селекторы. Если вы хотите сказать «захватите все ссылки на странице с классом «продукт», вы можете просто ввести a.product. Здесь действительно пригодятся базовые знания HTML/CSS.

Выбор строки Data Miner 6

Вернувшись в главное меню строк, вы должны увидеть «Количество строк» ​​с количеством записей, которые ваш рецепт создаст в электронной таблице. Если он не улавливает все, вам нужно еще раз проверить выбор строки.

6. Разделите данные на столбцы

Data Miner Col Выберите 1

После того как вы выбрали все данные для своих строк, пришло время привести их в порядок, разделив их на разные категории столбцов. Каждый выбор, который вы делаете здесь, должен быть подразделом поля, выбранного вами для строк.

Data Miner Col Select 2

Чтобы создать столбец, просто введите для него имя и с помощью кнопки «Найти» выберите то, что вы хотите извлечь, точно так же, как вы это делали для строк. Наиболее распространенными данными, вероятно, будут текст, URL-адрес или URL-адрес изображения. Получить URL-адреса путем наведения курсора на текстовые ссылки может быть немного сложнее; возможно, вам придется нажимать «выбрать родительский элемент», пока не достигнете уровня, на котором тип элемента равен <a>, который является HTML-тегом для ссылок.

Data Miner Col Выберите 1

Чтобы убедиться, что в вашем столбце содержатся нужные данные, просто нажмите значок глаза справа от названия каждого столбца, рядом с числом, которое показывает, сколько столбцов было выбрано. Это покажет вам предварительный просмотр каждой записи строки для этого столбца. Если что-то не так, вернитесь и настройте теги и типы, которые вы выбрали для идентификации строк. Не бойтесь открыть средство просмотра HTML и проверить наличие шаблонов, связанных с данными, которые вы пытаетесь получить.

7. Сообщите Data Miner, как перейти на следующую страницу

Data Miner Навигация 1

Если вам нужно извлечь несколько страниц данных, вы, вероятно, не захотите просматривать каждую из них и запускать рецепт снова и снова. Чтобы обойти это, просто сообщите Data Miner, где найти кнопку навигации, которую нужно нажать, чтобы перейти на следующую страницу. Будьте осторожны и не просите его щелкнуть что-то вроде «Страница 2», иначе он просто перейдет на страницу 2. Опять же, убедитесь, что вы выбираете элемент <a>и используйте кнопку «Проверить навигацию», чтобы убедиться, что она работает.

Data Miner Nav 2

8. Сообщите Data Miner, где нажать или прокрутить, чтобы загрузить данные

Щелчок элемента «Действия Data Miner»

Некоторые страницы не загружают данные, пока вы не нажмете что-нибудь или не прокрутите страницу вниз. К счастью, Data Miner тоже может это делать! Используйте инструмент «Найти» вверху (у вас уже должно быть это хорошо получается), чтобы выбрать элемент, которым нужно манипулировать, затем поместите селектор в соответствующее поле и проверьте его, чтобы убедиться, что он работает.

Определить, какой именно селектор активирует элемент или бесконечную полосу прокрутки, может быть непросто, но базовые знания HTML, а также метод проб и ошибок помогут вам в этом довольно далеко. Большинство вещей, которыми вам здесь придется манипулировать, основаны на JavaScript, но Data Miner достаточно знать селектор CSS, связанный с действием, чтобы его активировать, поэтому в большинстве случаев вам не придется возиться с каким-либо кодом.

Следующий шаг также позволяет вам добавить собственный JS, который будет делать практически все, что вы хотите, но это довольно сложно и выходит за рамки того, что нам нужно для базового парсинга.

9. Сохраните и запустите рецепт

Data Miner Сохранить

Поздравляем! Теперь пришло время посмотреть, сошлось ли все воедино. Запустите рецепт на странице, на которой вы находитесь, и проверьте предварительный просмотр, чтобы убедиться, что ваши строки и столбцы делают то, что должны. Если нет, вы можете вернуться и отредактировать рецепт.

Анализ данных, запуск 1

Если все работает так, как должно, вы можете использовать кнопку «Следующая страница», чтобы сообщить парсеру, сколько страниц он должен сканировать и с какой скоростью./ (Слишком быстрое движение может привести к тому, что систем

6. Разделите данные на столбцы

oding="async" src="https://saintist.ru/wp-content/uploads/2024/05/data-miner-run-pagination.png" alt="Запуск Data Miner">

Как только у вас будут все необходимые данные, вы сможете выбрать формат файла, который хотите использовать для их загрузки.

Data Miner Excel Csv

У меня проблемы; есть ли более простой способ?

Если программа Data Miner вам не подходит, есть множество других инструментов для очистки данных: ParseHub, Scraper, Octoparse, Import.io, VisualScraper и т. д. Некоторые из них могут иметь более интуитивно понятный интерфейс и больше автоматизации, но вам все равно нужно хотя бы немного знать HTML и то, как организован Интернет. Что делает Data Miner особенно приятным для новичков, так это его краудсорсинговая библиотека рецептов, которая потенциально может помочь вам избежать даже самых незначительных столкновений с кодом. Это, в сочетании с довольно щедрым бесплатным ежемесячным пакетом очистки, делает его очень достойным инструментом для большинства нужд.

7. Сообщите Data Miner, как перейти на следующую страницу

8. Сообщите Data Miner, где нажать или прокрутить, чтобы загрузить данные

9. Сохраните и запустите рецепт

У меня проблемы; есть ли более простой способ?

ПОХОЖИЕ СТАТЬИ

Популярные записи