Вход

Разработка парсера торговой площадки с выведением результатов в файл

Рекомендуемая категория для самостоятельной подготовки:
Дипломная работа*
Код 564010
Дата создания 2017
Страниц 55
Мы сможем обработать ваш заказ (!) 24 июня в 14:00 [мск]
Файлы будут доступны для скачивания только после обработки заказа.
730руб.
КУПИТЬ

Содержание

ВВЕДЕНИЕ 3
1 Обзор и анализ способов и средств парсинга интернет-ресурсов 5
1.1 Задача парсинга и ее направления и особенности 5
1.2 Анализ и выбор средств реализации парсера 10
1.3 Регулярные выражения и DOM-структура 16
2 Проектирование и реализация парсера торговой площадки 26
2.1 Техническое задание и определение системных требований 26
2.2 Структурный анализ 27
2.3 Функциональный анализ 29
2.4 Проектирование на языке программирования 29
2.5 Эксплуатация 31
2.6 Извлечение данных о товаре 32
2.7 Экспорт данных в файл Microsoft Excel 37
2.8 Обработка сайтов с java-script 40
2.9 Тестирование и отладка программы 43
3 Экономическая часть 47
3.1 Расход трудоемкости разработки программного продукта 47
3.2 Расход на оплату труда разработчика программы 49
3.3 Общие затраты на создание программного продукта 50
ЗАКЛЮЧЕНИЕ 51
Список использованных источников 53

Введение

Задача разбора и автоматического сбора данных иначе называется парсингом. Парсер – программа, реализующая парсинг заданных ресурсов с целью получения нужyых данных. Главной особенностью парсера является работа с синтаксисом. Назначение его может быть различным: получение заданной информации с тематических сайтов в автоматическом режиме, обработка данных с целью быстрого получения заданных выражений. Парсер способен распознать нужную информацию в остальном информационном массиве и обработать ее в соответствии с поставленной задачей.
Извлечения данных из интернет-источников специфично тем, что сайты и веб-страницы, несмотря на схожесть, довольно многообразны. Также отсутствует единый стандарт построения сайтов, и большинство имеющихся стандартов носит рекомендательный характер. Поэтому на структуру кода веб-страницы влияют такие факторы, как фантазия веб-дизайнера и умение веб-мастеров. Так же, как информация на ресурсе, так и его внешний вид постоянно изменяется. Поэтому построенные парсеры приходится периодически обновлять, так как изменение исходных ресурсов, с которых собирается информация, может сделать программу работающей некорректно или не работающей. Исходя из этого автоматический сбор и обработка данных являются постоянных и необходимым техническим процессом.

Фрагмент работы для ознакомления

Представленная работа посвящена парсингу данных о товарах торговой площадки Banggood, с выведением данных в файл Microsoft Excel. Разработана программа на языке php с использованием библиотек для html-разбора. Практическая ценность в сборе данных по товарам очевидна: собирая данные по стоимости и характеристикам различных товаров в сети, предприниматель может выбрать лучшие условия закупки, продажи, назначить собственному товару адекватную цену, быстро заполнить свои базы данных по товарам, конвертировать полученные данные на собственный сайт по продажам товара.
Работа защищалась в ДГТУ в 2017 году, оценка "отлично".
Содержит полный рабочий исходный код программы-парсера на php

Список литературы

Список использованных источников
1. Парсинг [Электронный ресурс]: Википедия, 2017. URL: wik-ihttp://ru.wikipedia.org/
2. Парсер. Редактирование постов [Электронный ресурс]: Wiki.dirty, 2017. URL: http://wiki.dirty.ru
3. Парсер внешних ссылок [Электронный ресурс]: Datacol, 2016, URL: http://www.datacol.ru
4. Найденов Н., Автоматический сбор информации из открытых Интер-нет-источников [Электронный ресурс]: Учреждение Российской ака-демии наук Вычислительный центр им. А.А.Дородницына РАН, 2014. URL: https://www.hse.ru
5. Way J., 30 лучших CSS техник для начинающих (пер.Бернацкого А.) [Электронный ресурс]: Студия Webformyself, 2017. URL: http://www.webformyself.com
6. Паклин Н.Б., Орешков В.И., Бизнес-аналитика: от данных к знаниям // Спб.: Питер, 2009 - 624 с.
7. Гражданский кодекс РФ (ГК РФ) от 21.10.1994 N 51-ФЗ (ст. 15, 16)
8. Получение информации с другого сайта. Законность [Электронный ресурс]: Форумы RSDN, 2012. URL: http://www.rsdn.ru/forum
9. Парсинг html на php. Парсинг от А до Я [Электронный ресурс]: Пар-синг и Я. Блоги, 2015, URL: http://parsing-and-i.blogspot.com
10. Силин Ю. Парсинг – что такое? [Электронный ресурс]: ИнетМаркет, 2012, URL: http://inetmkt.ru
11. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2008. -560 с.
12. Функции DOM [Электронный ресурс]: Форум PHP.SU, 2017, URL: http://www.php.su/
13. Языки программирования. Краткий обзор. [Электронный ресурс]: Программирование для всех, 2015, URL: http://programma-free.ru/
14. HtmlAgilityPack [Электронный ресурс]: Codeplex.com, 2014, URL: http://www. codeplex.com
15. Grab – python-библиотека для парсинга сайтов [Электронный ресурс]: Хабрахабр, 2015. URL: https://habrahabr.ru/
16. Чтение XML в Java с помощью DOM [Электронный ресурс]: Java Swing и другая Java, 2016, URL: http://javaswing.wordpress.com/
17. Парсинг html на Java [Электронный ресурс]: Java, 2014, URL: http://thejava.info/
18. Обзор основных языков программирования [Электронный ресурс]: 13 минут. Самый ценный совет, 2017, URL: http://www.13min.ru
19. PHP [Электронный ресурс]: РНР, 2017, URL: http://www.php.net/
20. Языки программирования. Perl [Электронный ресурс]: Информатик, 2017, URL: http://informat444.narod.ru/
21. Регулярные выражения в php в примерах и теории [Электронный ре-сурс]: РНР,2017, URL: http://www.php.net/
22. Русаков М., Что такое DOM? [Электронный ресурс]: Официальный сайт М.Русакова, 2017, URL: http://myrusakov.ru/
23. Савельева Н., Введение в XML [Электронный ресурс]: Интернет-университет INTUIT, 2016, URL: http://www.intuit.
24. Учимся парсить сайты с библиотекой PHP Simple HTML DOM Parser [Электронный ресурс]: Блог XDan, 2014, URL: http://xdan.ru
25. Русаков М., Основы РНР. Работа с файлами в PHP. [Электронный ресурс]:Официальный сайт М.Русакова, 2015, URL: http ://myrusakov.ru /
26. Как парсить контент, которого нет в коде страницы [Электронный ресурс]: Система помощи ContentDownloader, 2016, URL: http://sbfactory.ru
27. Простой способ выгрузки таблиц в Excel из php [Электронный ре-сурс]: Ответы на простые вопросы и не очень, 2017. URL: http://backnet.ru
28. Методические указания по выполнению экономической части ди-пломной работы. – Волгодонск, 2014.
29. СанПиН 2.2.2/2.4.1340-03 «Гигиенические требования к персональ-ным электронно-вычислительным машинам и организации работы», утвержденного Постановлением Главного санитарного врача Россий-ской Федерации от 03.06.2003 г. №118 (в редакции от 03.09.2010 г.).
Очень похожие работы
Пожалуйста, внимательно изучайте содержание и фрагменты работы. Деньги за приобретённые готовые работы по причине несоответствия данной работы вашим требованиям или её уникальности не возвращаются.
* Категория работы носит оценочный характер в соответствии с качественными и количественными параметрами предоставляемого материала. Данный материал ни целиком, ни любая из его частей не является готовым научным трудом, выпускной квалификационной работой, научным докладом или иной работой, предусмотренной государственной системой научной аттестации или необходимой для прохождения промежуточной или итоговой аттестации. Данный материал представляет собой субъективный результат обработки, структурирования и форматирования собранной его автором информации и предназначен, прежде всего, для использования в качестве источника для самостоятельной подготовки работы указанной тематики.
bmt: 0.00365
© Рефератбанк, 2002 - 2024