Универсальный парсер контента

Вторник, 22 Июля 2008 г. 20:00 + в цитатник

Контент нужен всем вебмастерам, но по настоящему уникальный контент создавать тяжело и накладно, поэтому постоянно идёт работа над различными уникализаторами контента чужого. Допустим у нас есть прилично работающий синонимайзер, но откуда брать контент, которые ему поставляется на вход? Придётся либо снова искать какие-то малоизвестные источники, где контент хорошо структурирован, либо попытаться написать универсальный парсер, который бы мог обрабатывать любые страницы, извлекая из них тексты. После многих экспериментов, я сделал себе такой парсер, который если и не может извлечь статью из абсолютно любой страницы, то по крайней мере может это сделать с большинством страниц, то есть если скормить ему выдачу гугла по нужному кею, то скажем из 10 результатов на выходе получится 3-5 статей. Принцип работы такого парсера состоит в сравнении содержимого div’ов, из которых выбирается div с самым длинным содержимым, не содержащим других вложенных div’ов. Дополнительно надо очищать текст от форм, списков и ссылок, иначе очень часто самым длинным дивом будет какой-нибудь календарь, список ссылок или меню. Для большего охвата, можно пытаться в дополнение к дивам, обрабатывать по тому же принципу ячейки таблиц и другие хтмл элементы, куда может быть засунута статья.
Отдельная задача - поиск правильного заголовка статьи. Заголовок может содержаться либо в теге title, либо в каком-либо из тегов H1-H2. В целом, определить правильный заголовок статьи может быть сложнее чем собственно вытащить её текст. Тут можно сделать так: скачать кроме страницы со статьёй, ещё какую-нибудь страницу с того же сайте и посмотреть чем различаются эти страницы, и попытаться принять решение на основе разницы между страницами.

<a href="https://www.liveinternet.ru/users/rabota_gorit/post80962376/">РЈРЅРёРІРµСЂСЃР°Р»СЊРЅС‹Р№ РїР°СЂСЃРµСЂ РєРѕРЅС‚РµРЅС‚Р°</a><br/>РљРѕРЅС‚РµРЅС‚ РЅСѓР¶РµРЅ РІСЃРµРј РІРµР±РјР°СЃС‚РµСЂР°Рј, РЅРѕ РїРѕ РЅР°СЃС‚РѕСЏС‰РµРјСѓ СѓРЅРёРєР°Р»СЊРЅС‹Р№ РєРѕРЅС‚РµРЅС‚ СЃРѕР·РґР°РІР°С‚СЊ С‚СЏР¶РµР»Рѕ Рё РЅР°РєР»Р°РґРЅРѕ, РїРѕСЌС‚РѕРјСѓ РїРѕСЃС‚РѕСЏРЅРЅРѕ РёРґС‘С‚ СЂР°Р±РѕС‚Р° РЅР°Рґ СЂР°Р·Р»РёС‡РЅС‹РјРё СѓРЅРёРєР°Р»РёР·Р°С‚РѕСЂР°РјРё РєРѕРЅС‚РµРЅС‚Р° С‡СѓР¶РѕРіРѕ.  Р”РѕРїСѓСЃС‚РёРј Сѓ РЅР°СЃ РµСЃС‚СЊ РїСЂРёР»РёС‡РЅРѕ СЂР°Р±РѕС‚Р°СЋС‰РёР№ СЃРёРЅРѕРЅРёРјР°Р№Р·РµСЂ, РЅРѕ РѕС‚РєСѓРґР° Р±СЂР°С‚СЊ РєРѕРЅС‚РµРЅС‚, РєРѕС‚РѕСЂС‹Рµ РµРјСѓ РїРѕСЃС‚Р°РІР»СЏРµС‚СЃСЏ РЅР° РІС…РѕРґ? РџСЂРёРґС‘С‚СЃСЏ Р»РёР±Рѕ СЃРЅРѕРІР° РёСЃРєР°С‚СЊ РєР°РєРёРµ-С‚Рѕ РјР°Р»РѕРёР·РІРµСЃС‚РЅС‹Рµ РёСЃС‚РѕС‡РЅРёРєРё, РіРґРµ РєРѕРЅС‚РµРЅС‚ С…РѕСЂРѕС€Рѕ СЃС‚СЂСѓРєС‚СѓСЂРёСЂРѕРІР°РЅ, Р»РёР±Рѕ РїРѕРїС‹С‚Р°С‚СЊСЃСЏ РЅР°РїРёСЃР°С‚СЊ СѓРЅРёРІРµСЂСЃР°Р»СЊРЅС‹Р№ РїР°СЂСЃРµСЂ, РєРѕС‚РѕСЂС‹Р№ Р±С‹ РјРѕРі РѕР±СЂР°Р±Р°С‚С‹РІР°С‚СЊ Р»СЋР±С‹Рµ СЃС‚СЂР°РЅРёС†С‹, РёР·РІР»РµРєР°СЏ РёР· РЅРёС… С‚РµРєСЃС‚С‹. РџРѕСЃР»Рµ РјРЅРѕРіРёС… СЌРєСЃРїРµСЂРёРјРµРЅС‚РѕРІ, СЏ СЃРґРµР»Р°Р» СЃРµР±Рµ С‚Р°РєРѕР№ РїР°СЂСЃРµСЂ, РєРѕС‚РѕСЂС‹Р№ РµСЃР»Рё Рё РЅРµ РјРѕР¶РµС‚ РёР·РІР»РµС‡СЊ СЃС‚Р°С‚СЊСЋ РёР· Р°Р±... <a href="https://www.liveinternet.ru/users/rabota_gorit/post80962376/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Метки

-Музыка

-Кнопки рейтинга «Яндекс.блоги»

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Сообщества

-Статистика

Универсальный парсер контента