Что можно узнать о компании, просто изучив её сайт? Cпойлер: иногда слишком много
Содержание
ToggleOSINT-инструменты для анализа корпоративных сайтов.
Фото: открытые Internet-источники
Информационная разведка в открытых источниках (OSINT) давно перестала быть уделом любопытных энтузиастов — сегодня это неотъемлемая часть любого аудита безопасности, конкурентного анализа или подготовки к баг‑баунти‑тестированию. В этой статье мы не будем уходить в пентест‑джунгли, а разберём пять практических направлений сбора сведений о корпоративном веб‑ресурсе и — что особенно важно — покажем на живых примерах, какие инструменты помогают автоматизировать каждую задачу. Сразу оговоримся: сканируйте только те сайты, на которые у вас есть законное право. Все приёмы приводятся исключительно в образовательных целях.
Подготовка среды и небольшая памятка по легальности
Прежде чем запускать скрипты, определите цель и договоритесь о правилах с владельцем ресурса. Без явного разрешения компании даже безобидный поиск поддоменов может трактоваться как попытка несанкционированного доступа.
- Создайте отдельную виртуальную машину или контейнер — так вы обезопасите рабочую ОС.
- Установите набор CLI‑утилит (GoLang, Python, Git) — большинство инструментов из обзора требуют именно их.
- Храните результаты в зашифрованном виде, если они содержат конфиденциальные данные.
Поиск поддоменов: открываем внутреннюю картину мира
Поддомены дают представление о реальной инфраструктуре компании: где расположен тестовый стенд, какой движок используется для API, есть ли забытый Jenkins в углу. Чем больше вы найдёте, тем выше шанс обнаружить уязвимые сервисы.
Куда смотреть:
- Netlas: запрос вида
host:*.example.com
возвращает все упомянутые в поисковой базе поддомены. - Pentest‑Tools Subdomain Finder: быстрый облачный сканер, полезен, когда времени мало.
- nmmapper Subdomain Finder: работает медленнее, но умеет искать редкие записи.
- Subfinder: золотой стандарт среди скриптов. Пример запуска:
subfinder -d example.com -o subdomains.txt
- Sublist3r: Python‑альтернатива; любит AWS‑секретку в переменных.
Лайфхак: объедините результаты разных источников, удалите дубли (sort -u
) — финальный список удивит объёмом.
Связанные веб‑сайты: находим незаметные «филиалы»
Компания может владеть десятками доменов, которые на первый взгляд никак не связаны с брендом. Факт, что они обслуживаются теми же почтовыми или именными серверами, легко выдаёт единую инфраструктуру.
Методы поиска:
- Whois‑поиск по названию организации в Netlas. Запрос: «
"Example LLC" registrant
». - Mail‑серверы: в Netlas задайте
mx:*.example.com
— покажутся домены, использующие общий MX. - NS‑серверы: аналогично ищите
nsns*.example.com
. - Сервис‑ID: Google Analytics, Яндекс‑Метрика, Mixpanel — подставляем ID в поиск по теле HTTP‑ответов:
http.body:"UA-23870775"
- Favicon Hash: загружаем иконку компании и ищем совпадения в Netlas.
Все найденные домены имеет смысл сразу прогнать теми же Subfinder и Nuclei — цепочка открытий часто работает по принципу матрёшки.
«Сочная информация»: вытаскиваем контакты, кошельки и прочие секреты
Даже если страница не предполагает скачивание, в HTML‑коде могут прятаться email‑адреса, телефоны, ключи API и прочие «подарки» атакующему. Забрать их можно, не скачивая каждую страницу вручную.
- Nuclei — фреймворк сканеров на Go. Подключаем набор шаблонов Juicy Info и запускаем:
nuclei -list subdomains.txt -t juicyinfo/ -o juicy_hits.txt
- Расширяем поиск своими регулярками: добавьте кастомный YAML‑шаблон, чтобы выцеплять, скажем, токены Firebase или приватные IP‑адреса.
На выходе получаем отчёт, где в каждой строке: URL, тип находки и её «сочный» фрагмент. Дальше уже дело техники — подтвердить и закрыть утечку.
Собираем карту URL‑адресов сайта
Полный список внутренних URL — это дорожная карта тестирования: блинд‑сканеры, устаревшие API‑эндпоинты, приватные панели. Ведь URL, скрытый из навигации, ещё не значит недоступный для сервера.
Инструменты для генерации списка:
- Katana — парсит HTML и JavaScript, умеет рекурсивно углубляться.
katana -u https://example.com -depth 3 -o urls.txt
- Waybackurls — собирает URL‑ы из Wayback Machine за все времена.
- Waymore — тот же архив, но с дополнительными источниками (Common Crawl, AlienVault OTX).
- GoBuster — перебирает словарь директорий и файлов; пригодится, если сайт беден на ссылки.
Склейте результаты, удалите GET‑параметры (cut -d'?' -f1
) и вновь уберите дубли. Карта готова к следующему этапу.
Скачивание и локальный анализ документов
Когда известны все пути, время собрать документы целиком — от старых релизов до PDF‑инструкций, которые авторы забыли спрятать.
- Curl: банально, но надёжно. Можно завести однострочник:
cat urls.txt | grep -E '\.(pdf|docx?|xlsx?)$' | while read u; do curl -s -O "$u"; done
- Wayback Machine Downloader — вытаскивает файлы, давно исчезнувшие с продакшена, но сохранённые архивом.
Быстрый поиск по скачанному
Файлов стало много? Используйте grep/rg/ag‑подобные утилиты:
grep -Rni --color "Confidential" ./downloads
Так обнаружите случайно залитый NDA или лог‑файл с паролями.
Извлечение метаданных: заглядываем «под обложку»
В каждом DOCX, JPEG или PDF хранятся строки о программах, авторах, координатах съёмки — не вытащить их — значит упустить лишний фрагмент пазла.
- MetaDetective — массовый анализатор, дружит с SQLite, чтобы сортировать результаты.
- ExifTool — классика для фото и видео. Команда:
exiftool -r -json downloads/ > metadata.json
Полученные JSON‑ы легко фильтровать — например, найти все документы, созданные на личном ноутбуке разработчикаUSER-PC
.
Работа с PDF: текст, картинки и даже отсканированные копии
PDF‑документы — кладезь заметок, штампов и цифровых подписей. Проблема в том, что часто они представлены изображениями без текста. Здесь пригодятся:
- Ocrmypdf — накладывает слой распознанного текста:
ocrmypdf input.pdf output_ocr.pdf
- Pdfgrep — «grep» для PDF; ищет после OCR‑обработки.
- Pdftotext — быстро выносит plain‑text без оформления.
- Pdfimages — извлекает вложенные картинки; полезно, когда логотип в пределах одной страницы раскрывает название подрядчика.
Чек‑лист анализа PDF
- Снять текст —
pdftotext
. - Прогнать поиск ключевых слов —
pdfgrep "Пароль"
. - Вытянуть изображения —
pdfimages -j file.pdf ./img
. - Прогнать метаданные —
exiftool file.pdf
.
Сводная таблица инструментов
Чтобы не потеряться, держите шпаргалку под рукой:
Задача | Инструменты |
---|---|
Поддомены | Netlas, Pentest‑Tools, nmmapper, Subfinder, Sublist3r |
Связанные сайты | Netlas (WHOIS, MX, NS, GA‑ID, Favicon) |
Карта URL | Katana, Waybackurls, Waymore, GoBuster |
«Сочная» инфа | Nuclei + Juicy‑Info templates |
Скачивание файлов | Curl, Wayback Machine Downloader |
Поиск по файлам | grep / ripgrep |
Метаданные | MetaDetective, ExifTool |
PDF‑анализ | Ocrmypdf, Pdfgrep, Pdftotext, Pdfimages |
Заключение
Сбор информации — это всегда комбинация технических приёмов и здорового любопытства. Составьте план, автоматизируйте рутину, но проверяйте вывод руками: никакой скрипт не знает контекста бизнеса лучше вас. И, конечно, помните о мандатах и политике безопасности — разведка без разрешения превращается в нарушение. Надеюсь, эта статья поможет безопасникам, исследователям и просто пытливым читателям выстроить собственную цепочку OSINT‑инструментов и заглянуть чуть глубже под обложку любого веб‑сайта. Успехов в поиске полезной информации и — ни багов вам, ни утечек!
Источник:
- securitylab.ru
Поделиться ссылкой:
- Нажмите, чтобы поделиться в Одноклассники (Открывается в новом окне) Одноклассники
- Нажмите, чтобы поделиться в ВКонтакте (Открывается в новом окне) ВКонтакте
- Нажмите, чтобы поделиться в Telegram (Открывается в новом окне) Telegram
- Нажмите, чтобы поделиться в X (Открывается в новом окне) X
- Нажмите, чтобы поделиться в Now (Открывается в новом окне) Now
- Нажмите, чтобы поделиться в Дзен (Открывается в новом окне) Дзен
- Нажмите, чтобы поделиться в TenChat (Открывается в новом окне) TenChat
- Нажмите, чтобы поделиться в Pabliko (Открывается в новом окне) Pabliko
- Нажмите, чтобы поделиться в Rutub (Открывается в новом окне) Rutub