Рецепты и примеры работы с открытыми данными
Ответы на вопросы как и с помощью каких инструментов извлекать, обрабатывать и публиковать открытые данные. А также показывать их наглядно всем желающим.
Извлечение
Движки
- ScraperWiki - Вики проект и сервис с большой подборкой рекомендаций и примеров скриптов по извлечению данных
- Scrapy - фреймворк для помощи в извлечении данных из веб-сайтов. Python, BSD-Like license
- Mechanize - движок для Python по автоматизации действий браузера. Python, BSD-Line license
- scrapi - фремворк по web scraping. Ruby, MIT License
Примеры кода и обучающие материалы
Преобразование документов
- Antiword - программа для командной строки по преобразованию документов Microsoft Word в текст и HTML (Бесплатная, GPL)
- Abbyy Finereader - коммерческая OCR программа по распознаванию текстов из изображений и PDF документов
Очистка, обработка и анализ
Бесплатные
- OpenRefine - специальный продукт для очистки и обработки данных от создателей проекта FreeBase. Java, New BSD license
- RapidMiner - один из наиболее популярных движков по анализу численных данных.
Платные
- Microsoft Excel - и по сей день один из наиболее распространённых и удобных инструментов по чистке и анализу данных.
- Basegroup Labs Deductor - коммерческое OLAP приложение для настольной работы с данными
Визуализация
Онлайн
- Many Eyes - онлайновый сервис от IBM по визуализации простых данных в виде различных графиков.
- Swivel - онлайн-сервис с бесплатным и платным доступом по публикации и визуализации данных в виде графиков.
- Factual - онлайн сервис по публикации данных и по их визуализации.
Comments (0)
You don't have permission to comment on this page.