четверг, 15 декабря 2011 г.

Ремонт HTML кода

Задача: синхронизировать контент блога с сайтом, создать сплог.
Удалённо подключаюсь к серверу блога, получаю контент. Проблемы начались, когда я данный контент начал выводить. HTML код был битый. Нашёл два варианта решения используя библиотеки lxml, Beautiful Soup.

lxml
from lxml.html import fromstring, tostring
print tostring(fromstring(html))

BeautifulSoup
from modules.BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(html)
print soup.prettify()
С первым вариантом у меня бли проблемы с кирилицей под Google App Engine, второй заработал.

Комментариев нет:

Отправить комментарий