Завершено База сайтов Яндекс каталога (март 2015)

Toretto

Администратор
13 Янв 2014
28.496
19.658
cogamoney.net
[POSTS] [/POSTS]

Продается, свежая база сайтов Яндекс каталога (Март, 2015)

Что вы получите:

База предоставляется в виде одного .xls файла разбитого на листы/категории.

Основная категория - количество уникальных URL адресов:

Hi-Tech - 10822 (-22)
Работа - 1016 (-16)
Учёба - 10955 (+48)
Дом - 34288 (+1486)
Общество - 5760 (+12)
Развлечения - 4993 (-498)
Отдых - 9935 (+357)
Культура - 16769 (-120)
Спорт - 6734 (-101)
СМИ - 4231 (-74)
Бизнес - 48738 (-259)
Справки - 3935 (-130)
Авто - 5738 (+35)
Порталы - 793 (-11)
Универсальное - 1000

Дополнительная выборка:

Новые сайты - 1000
Мобильный ЯК - 1321 (-91)

Новые и снятые с публикации URL адреса:

Новые - 6154
Снятые с публикации - 6613

Всего (URL адресов):основной ЯК- 165707 (+707),мобильный ЯК- 1321 (-91).

В скобках указаны изменения, по сравнению спредыдущим обновлением базы.

Описание полей в таблице:

1. Название категории в Яндекс каталоге, вида: категория/подкатегория/субкатегория/... полный уровень вложенности
2. Количество сайтов присутствующих в данной категории на момент парсинга
3. URL адрес категории в ЯК
4. URL адрес сайта
5. ТИц сайта (по яндекс бару)
6. Google PageRank сайта
7. Присвоенный регион (по яндекс бару)
8. Присвоенная тематика (по яндекс бару)
9. Название сайта в каталоге
10. Описание сайта в каталоге
11. Ссылка на скриншот сайта в каталоге
12. Ссылка на Whois данные сайта (для поддоменов и различных экзотических доменных зон ссылка может быть некорректна)

Особенности:

- С целью уменьшения количества дублей в процессе парсинга были исключены ссылки на категории, содержащие в себе /synt2/ и /geo/
- База почищена на дубли (по полному совпадению URL адреса). Дубли вычищаются в пределах основной категории (например, Hi-Tech) начиная от самых маленьких и заканчивая самыми крупными категориями/подкатегориями. Размер категории определяется по количеству сайтов присутствующих в данной категории на момент парсинга.
- Дополнительно предоставляется нечищеный на дубли вариант базы в .txt формате. Помимо наличия дублей в таком варианте отсутствуют следующие параметры: ТИц, PageRank, Присвоенный регион и тематика, Ссылка на whois.
- Добавлены списки новых и снятых с публикации сайтов в .txt формате (только URL адреса). Списки составлялись путем проверки каждого URL адреса из предыдущей выборки на предмет наличия его в новой выборке и наоборот. Эта информация не может быть на 100% верна, так как сайты могут временно сниматься с публикации и возвращаться обратно.

Обновление базы:

Обновление раз в три месяца или чаще. Обновление платное – всем ранее купившим базу скидка 50% от стоимости базы на момент обновления.
Продажник
[POSTS]( )[/POSTS]
Берем тут
 
Последнее редактирование: