Русское сообщество fluxbb

Быстрый лёгкий надёжный форумный движок

Вы не вошли.

Объявление

Вы можете внести свой вклад в содержание сайта. Жертвователи попадут в почетную группу "Спонсоры". Поддержать сайт.

#1 2011-06-20 22:12:10

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Альтернативный парсер BBCODE. Регулярка.

Ищу замену стандартному парсеру бибикодов FluxBB. Мне не нравится, что его трудно расширять новыми кодами.
Смотрел парсеры в некоторых других движках -- тоже не в восторге. Помоему излишне громоздко всё.

Мой "идеальный сферический парсер в вакууме" должен работать так:

  • находить любые теги, оформленные синтаксически правильно, в т.ч. само-закрывающиеся теги типа [ hr /]

  • все теги имеют имена из латинских символов плюс одно исключение -- тег [ * ]

  • учитывать специальные случаи: теги [ code ] и [ nobb ], внутри них не надо искать другие теги

Очень мне захотелось составить такую регулярку, чтобы она вычленяла произвольные теги. Сложнее всего оказалось учесть [ code ]. Вот что получилось:

$universal = '{
\[(?P<tag> (?P<nonested> code|nobb) | \w+ | \*) (?P<attr> [^\]]*?)
(
  (?P<omit> \s* / \]) 
  |
  (
    \] (?P<inner> (?(nonested)(.*?) | ([^\[]*? | (?R))*))
    \[ / (?P=tag) \s* \]
  )
)
}xsm';

preg_match_all($universal, $text, $matches, PREG_OFFSET_CAPTURE);
$elements = array();
foreach ($matches[0] as $key => $match) {
    $elements[] = array(
        'tag'    => $matches['tag'][$key][0],
        'attr'    => isset($matches['attr'][$key][0]) ? $matches['attr'][$key][0] : '',
        'omit'    => ($matches['omit'][$key][1] > -1),
        'inner'    => isset($matches['inner'][$key][0]) ? $matches['inner'][$key][0] : ''
    );
        
}

echo '<pre>';
var_export($elements);
echo '</pre>';

На выходе в массиве $elements будут теги верхнего уровня. Чтобы разобрать вложенные надо обработать той же регуляркой текст из $elements[]['inner']. То есть предполагается некий рекурсивный обработчик.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#2 2011-06-20 22:36:01

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Поясню для тех, кто не очень понимает регуляки.

Здесь используется расширенный синтаксис PCRE с рекурсией (?R) и именованными областями.

Для наглядности я разрядил выражение пробелами и переводами строк, это возможно когда включаешь режим расширенного форматирования - модификатор "x" в конце регулярки.

Квадратные скобки имеют специальное значение в регулярках, поэтому приходится их экранировать типа \[ и \]

"." означает любой символ
"\s" означает любой "пустой" символ -- пробел, табуляция, перевод строки
".*" означает последовательность любых символов, возможно пустая последовательность. жадный поиск
".*?" означает  последовательность любых символов. НЕжадный поиск
"\w+" означает непустую последовательность букв латинского алфавита.

Именованная область помечается как (?P<name> blablabla). После этого в самой регулярке можно подставить её значение через <?P=name). Как ловится пара открывающий тег + закрывающий тег. Упрощенно:

\[(?P<tag>)\w+\] (.*) \[/(?P=tag)\]

Получется что в именованную область tag попадут буквы между квадратными скобками, потом эти буквы подставятся в подстроке [/tag]

Условная конструкция if-then-else реализуется с помощью такого синтаксиса:

(?(name) then | else)

Если область "name" непустая, то пытаемся искать текст "then", а если пустая, то текст "else".


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#3 2011-06-21 07:40:09

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Определять новые теги в этой системе очень просто. Надо только добавить метод-обработчик в класс Parser
Для примера воплотил несколько тегов

Скачать с Rapidshare: bbcodetest-20110621.zip
обновлено 21.06 в 17:14 MSK

Мне не хватает процедуры подготовки исходного текста (preparse). Типа автоматического закрытия [ * ] или правильно оформить ссылку. Если будет время, набросаю -- тоже через регулярки.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#4 2011-06-21 08:59:41

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

У меня ощущение по последним публикациям, что @artoodetoo собрался новый движок написать!? wink

Offline

#5 2011-06-21 13:20:40

Freeman
Участник
Из Санкт-Петербург
Зарегистрирован: 2010-07-31
Сообщений: 128
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@artoodetoo, не хочешь попробовать наш движок? Я всё-таки добился своего, у нас теперь есть форум с полноценной вики-разметкой, внутренней адресацией и прочими плюшками хорошей модели.

Из меня веб-программер хреновый, код писал Proger_XP. Я даже в код не заглядывал. Тем не менее, всё работает. Возможно, это не совсем во FluxBB-шном духе -- "скорость в ущерб остальному", но это рекурсивный, то есть надёжный парсер. Мы его даже на метровом исходнике гоняли -- работает, сцуко, не падает. smile

По идее, движок не зависит от разметки, и теоретически, его можно научить разбирать BB-код. Вот только зачем BB-код, когда есть вики, не пойму.  smile

Мы сейчас на форуме безо всяких панелей, разметку руками вводим, и особых неудобств не испытываем. Для рядовых пользователей панель нужна будет, согласен. Придется брать от WackoWiki или делать похожую.

Offline

#6 2011-06-21 15:12:23

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@Visman, не новый, а "параллельный" )))
совсем новый движок слишком затратно делать.

@Freeman, молодцы. я не считаю что есть какое-то "правильное" решение, к которому должны прийти все. если проект сильно завязан на вики, тогда логично и форум держать в той же разметке. иначе -- bbcode.
она имеет меньше возможностей, зато она похожа на всех форумах. то есть лично мне интереснее иметь удобный парсер bbcode, чтобы заводить новые проекты.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#7 2011-06-21 15:54:20

Freeman
Участник
Из Санкт-Петербург
Зарегистрирован: 2010-07-31
Сообщений: 128
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

artoodetoo пишет:

иначе -- bbcode.
она имеет меньше возможностей, зато она похожа на всех форумах.

Это временное явление. smile Чем больше людей будет продвигать расовую русскую разметку, тем меньше останется буржуйского BB-кода. Синтаксис WackoWiki в Рунете знаком многим.

Offline

#8 2011-06-21 16:20:41

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@Freeman, вики разметке уже огого сколько лет, как-то она не торопится захватывать мир.

кстати я обновил архив с примером парсера. допустимо использовать ссылки на классы CSS, флоаты и выравнивание текста. считаю вебмастеру это серьезная помощь. остро нужен preparse для исправления мелких косяков ввода.

ТЕСТ !


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#9 2011-06-22 13:30:42

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

В тесте добавил синтаксис для code, поправил отступы, добавил stripTag — нужно для индексации, а можно применить в поисковой выдаче.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#10 2011-06-22 14:12:26

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@artoodetoo, по скорости сравнивал вывод постов на оригинальном и новом парсерах?

Offline

#11 2011-06-22 16:55:51

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

нет. но думаю мой будет быстрее wink

edited: на самом деле скорость не главный фактор для меня.
мне кажется, что скорость должна вырасти, но если этого не произойдет я не расстроюсь.
гораздо важнее расширяемость.
я сейчас тружусь над парой реальных проектов типа "форум+странички" и возможности разметки для вебмастера меня волнуют больше, чем милисекунды. попробуйте в существующем парсере добавить в тег [ code ] "язык" для синтаксической разметки ([ code=js ], [ code=css ] )  — это задачка не для слабонервных.

сменить парсер на wiki markup или что-то еще тоже нехорошо, все-таки это форум, я сам могу принять другой стандарт, а заставлять перестраиваться рядовых участников не могу.

в разрабатываемом парсере обработка тегов bbcode сделана абсолютно прозрачно: через отдельные методы.
кроме того, новый парсер может обрабатывать несколько атрибутов тега ([ span class="highlighted" size="24px" ]).
кому не нужны новые возможности, тот просто не будет ими пользоваться, оставаясь на привычном минимальном наборе, а мастера смогут верстать побогаче.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#12 2011-07-12 10:30:39

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@Freeman, я задал вопрос на оффсайте про хорошую интеграцию форума и вики. Наверное тебе есть что сказать народу.

Я таки хочу оставить форуму разметку bbcode но иметь нормальные ссылки туда и сюда. И главное поиск должен быть единым.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#13 2011-07-12 14:10:05

Freeman
Участник
Из Санкт-Петербург
Зарегистрирован: 2010-07-31
Сообщений: 128
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

А в том и загвоздка, что вики как таковой у нас нет. Нам она не нужна. Практика показала, что вести большие документарные проекты проще всего на локальных файлах, пользуясь всеми преимуществами быстрого поиска, согласованных правок и удобством любимого Блокнота (пользую PSPad). Дока рассматривается как набор исходников -- грузится в SVN и рендерится по хуку на сервере.

Поэтому и стояла задача вытащить вики-разметку из вики как таковой. Нам удалось удачно вписать разметку в абстрактную модель, называемую средой (среда Wacko), которая имеет реализации в виде форума, блога и документации. Над единым поиском никто не задумывался: на форуме он и так есть, а дока и блог -- штуки авторские, и ведутся на файлах -- поиск Far-ом.

Мы уже выходили на команду WackoWiki, -- фактически это один Мартин (глава проекта). Он сказал, что пока не готов заниматься интеграцией стороннего движка. Если же мы сами когда-нибудь дойдём до вики, будет проще написать её с нуля, по нормальной постановке, чем ловить баги в чужом коде 2004-го года. Пока это не приоритетная задача.

А разговоры с другими разработчиками об интеграции разметки куда-либо (Drupal и т. п.) пока остаются разговорами.

Offline

#14 2011-07-12 18:38:25

Freeman
Участник
Из Санкт-Петербург
Зарегистрирован: 2010-07-31
Сообщений: 128
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

...или я чего-то не понял. Про синтаксис ссылок отписался на официальном форуме.

Offline

#15 2016-06-06 06:43:30

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@artoodetoo, какой результат по твоему парсеру? А то я тут играюсь со ckeditor + fluxbb, так парсер fluxbb вложенные теги, например div, отказывается обрабатывать.

Offline

#16 2016-06-07 07:50:18

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Ох ничего себе ты древнюю тему поднял big_smile

Тогда я не довел это до товарного вида, голого энтузизама не хватило. Сейчас мне кажется, что ббкод вообще не очень актуален. Как и сами классические форумы.

Мне кажется народ больше тяготеет к двум направлениям:
- вопрос-ответ по типу stackoverflow и
- мультиблоги с коментариями и репостами. так все социалки устроены.

В обоих случаях специальная разметка как таковая не видна, а неявно работают вариации маркдаун.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#17 2016-06-07 07:53:08

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

В любом случае, движок должен иметь парсер как плагин. Пусть вебмастер решает что брать: ббкод или маркдаун или ограниченный хтмл.


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#18 2016-06-11 19:52:57

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

<?php

$universal = '{
\[(?P<tag> (?P<nonested> code|nobb) | \w+ | \*) (?P<attr> [^\]]*?)
(?:
  (?P<omit> \s* / \])
  |
  (?:
    \] (?P<inner> (?(nonested)(.*?) | ([^\[]*? | (?R))*))
    \[ / (?P=tag) \s* \]
  )
)
}xsm';

$text = <<<EOF
[h2={"class":"western","style":"page-break-before: always"}]6.4.Поверки[/h2]
[div={"class":"western","style":"text-align: justify; line-height: 150%"}]На данной вкладке представлен список всех поверок, которые проводились в смене (рисунок 6.6). Для просмотра поверок в смене необходимо выбрать смену нажатием левой кнопкой мыши.[/div]

[size=12pt]Рисунок [background=#00FF00][size=10pt]6.6[/size][/background] – [font="comic sans ms,cursive"]Список поверок[/font][/size]
[hr /]
[img][/img]
EOF;

preg_match_all($universal, $text, $matches, PREG_OFFSET_CAPTURE);
$elements = array();
foreach ($matches[0] as $key => $match) {
    $elements[] = array(
        'tag'    => $matches['tag'][$key][0],
        'attr'    => isset($matches['attr'][$key][0]) ? $matches['attr'][$key][0] : '',
        'omit'    => ($matches['omit'][$key][1] > -1),
        'inner'    => isset($matches['inner'][$key][0]) ? $matches['inner'][$key][0] : ''
    );

}

echo '<pre>';
//var_export($matches);
var_export($elements);
echo '</pre>';

Тег img тут не может регулярка уже обработать, упирается в ограничение на число шагов.

И тут ошибка с таймаутом smile https://regex101.com/r/mX1zU0/1 Но если число символов внутри тега уменьшить, то можно увидеть результат и выполненное число шагов.

Offline

#19 2016-06-13 01:09:30

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Мда, рекурсия в регулярке это риск. Элегантно, но хрупко.

Сейчас я бы попробовал такой алгоритм:
1. вырезать фрагменты с [ code ], [ nobb ] и подобными, внутри которых никакие коды не работают. результат обработки хранить отдельно.
2. поиск простой регуляркой на наличие любых ббкодов. просто по шаблону "нечто в квадратных скобках"
3а. выдачу п.2 обрабатывать в цикле: коллбеки для каждого вида ббкодов. конкретный коллбек может учитывать и изменять стек вложенности кодов. а также сигналить ошибки.
3б. текст, которых не в квадратных скобках, обработать на наличие смайлов и сниппетов типа очевидных URL.
4. вставить в текст результат п.1


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#20 2016-06-16 15:35:34

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Вот такой монстроузный набросочек наваял

<?php
error_reporting(E_ALL);
ini_set('display_errors', 1);

class parser
{
	private $counter_code = 0;
	private $bb_array = array();
	private $regex_types = array(
		'color' => '%^(?:\#(?:[\dA-Fa-f]{3}){1,2}|(?:aqua|black|blue|fuchsia|gray|green|lime|maroon|navy|olive|orange|purple|red|silver|teal|yellow|white))$%',
		'number' => '%^\d+$%',
		'img' => '%^(?:(?:ht|f)tps?://[^\s<"]+|data:image/[a-z]+;base64,(?:[a-zA-Z\d/\+\=]+))$%'
	);

	public $bbcodes = array(
		'code' => array(
				'open' => '</p><div class="codebox"><pre><code>',
				'close' => '</code></pre></div><p>',
		),
		'b' => array(
				'open' => '<strong>',
				'close' => '</strong>',
		),
		'i' => array(
				'open' => '<em>',
				'close' => '</em>',
		),
		'em' => array(
				'open' => '<em>',
				'close' => '</em>',
		),
		'u' => array(
				'open' => '<span class="bbu">',
				'close' => '</span>',
		),
		's' => array(
				'open' => '<span class="bbs">',
				'close' => '</span>',
		),
		'del' => array(
				'open' => '<del>',
				'close' => '</del>',
		),
		'ins' => array(
				'open' => '<ins>',
				'close' => '</ins>',
		),
		'h' => array(
				'open' => '</p><h5>',
				'close' => '</h5><p>',
		),
		'hr' => array(
				'open' => '</p><hr /><p>',
				'close' => '',
		),
		'color' => array(
				'open' => array(
					'attr' => array(
						'view' => '<span style="color: %attr%;">',
						'type' => 'color',
					),
				),
				'close' => '</span>',
		),
		'colour' => array(
				'open' => array(
					'attr' => array(
						'view' => '<span style="color: %attr%;">',
						'type' => 'color',
					),
				),
				'close' => '</span>',
		),
		'background' => array(
				'open' => array(
					'attr' => array(
						'view' => '<span style="background-color: %attr%;">',
						'type' => 'color',
					),
				),
				'close' => '</span>',
		),
		'size' => array(
				'open' => array(
					'ver1' => array(
						'view' => '<span style="font-size: %attr%px;">',
						'type' => 'number',
					),
					'ver2' => array(
						'view' => '<span style="font-size: %attr%;">',
						'format' => '%^\d+(?:em|ex|pt|px|\%)$%',
					),
				),
				'close' => '</span>',
		),
		'right' => array(
				'open' => '</p><p style="text-align: right;">',
				'close' => '</p><p>',
		),
		'center' => array(
				'open' => '</p><p style="text-align: center;">',
				'close' => '</p><p>',
		),
		'justify' => array(
				'open' => '</p><p style="text-align: justify;">',
				'close' => '</p><p>',
		),
		'mono' => array(
				'open' => '<code>',
				'close' => '</code>',
		),
		'font' => array(
				'open' => array(
					'attr' => array(
						'view' => '<span style="font-family: %attr%;">',
						'format' => '%^[a-z\d, -]+$%i',
					),
				),
				'close' => '</span>',
		),
		'img' => array(
				'open' => array(
					'attr' => array(
						'view' => '<span class="postimg"><img src="%body%" alt="%attr%" /></span>',
						'format' => '%^[^\n\t]+$%',
						'type_body' => 'img',
					),
					'no_attr' => array(
						'view' => '<span class="postimg"><img src="%body%" alt="%body%" /></span>',
						'type_body' => 'img',
					),
				),
				'close' => '',
		),
		'url' => array(
				'open' => array(
					'attr' => array(
						'view' => '<a href="%attr%" rel="nofollow">',
						'format' => '%^.+$%',
					),
					'no_attr' => array(
						'view' => '<a href="%body%" rel="nofollow">%body%',
						'format_body' => '%^.+$%',
					),
				),
				'close' => '</a>',
		),
	);

	// включим счетчик при открытии тега CODE
	private function _do_open_code()
	{
		$this->counter_code = 1;
	}

	// выключим счетчик при закрытии тега CODE
 	private function _do_close_code()
	{
		$this->counter_code = 0;
	}

	// тег HR не имеет закрывающей части
	private function _do_open_hr()
	{
		array_pop($this->bb_array);
	}

	// !!!!!!!!!!! переделать
	private function json_to_attr($tag, $attrjson)
	{
		$arr = json_decode(htmlspecialchars_decode($attrjson, ENT_QUOTES), true);

		if (! is_array($arr)) {
			return null;
		}

		$res = '';

		foreach ($arr as $key => $value) {
			$res .= ' ' . $key . '="' . $value . '"';
		}

		return $res;
	}

	public function parse($text, $is_signature = false)
	{
		$text = htmlspecialchars($text, ENT_QUOTES, 'UTF-8');
		$this->counter_code = 0;
		$this->bb_array = array();

		$parts = preg_split('%(\[(?:/[a-z][a-z\d]*|[a-z][a-z\d]*(?:|=(?:".*?"|\'.*?\'|&quot;.*?&quot;|&\#039;.*?&\#039;|{.*?}|[^\]]*?)))\])%ui', $text, null, PREG_SPLIT_DELIM_CAPTURE);

		echo "<pre>\n";
		var_export($parts);
		echo "</pre>\n";

		$text = '';

		reset($parts);
		while (list(, $part) = each($parts)) {
			// если это не тег, то сохраняем текст и переходим на следующий шаг
			if (! preg_match('%^\[(?:(?P<end>/)|)(?P<tag>[a-z][a-z\d]*)(?(end)|(?:|=(?:{(?P<attrjson>.*?)}|(?P<quote>&quot;|&\#039;|"|\'|)(?P<attr>.*?)(?P=quote))))\]$%ui', $part, $bb)) {
				$text .= $part;
				continue;
			}

			// если такого тега нет в разрешенных, то ...
			if(! isset($this->bbcodes[$bb['tag']])) {
				$text .= $part;
				continue;
			}

			// обрабатываем тег 'code'
			if($this->counter_code) {
				if ($bb['tag'] == 'code') {
					if(empty($bb['end'])) {
						$this->counter_code++;
					} else {
						$this->counter_code--;
					}
				}

				if($this->counter_code) {
					$text .= $part;
					continue;
				}
			}

			// *************
			// открытие тега
			if (empty($bb['end'])) {
				$repl = $this->bbcodes[$bb['tag']]['open'];

				// простая замена. не предусматривает атрибутов. проверок нет
				if (! is_array($repl)) {
					$part = $repl;
				} else { // проверка атрибутов для замены
					// тут будут найденные правила для замены
					$rules = null;

					// атрибуты в json и есть правило для них
					if (! empty($bb['attrjson']) && isset($repl['attrjson'])) {
						$bb['attr'] = $this->json_to_attr( $bb['tag'], $bb['attrjson'] );

						if (! is_null($bb['attr'])) {
							$rules = array( $repl['attrjson'] );
						}
					} else if (isset($bb['attr']) && $bb['attr'] !== '') { // есть атрибут у текущего бб-кода, забираем все правила, кроме двух
						unset( $repl['no_attr'], $repl['attrjson'] );
						$rules = $repl;
					} else if (isset($repl['no_attr'])) { // атрибута нет, но есть правило для этого случая
						$bb['attr'] = '';
						$rules = array( $repl['no_attr'] );
					}

					// ни одного правила не найдено
					if (is_null($rules)) {
						$text .= $part;
						continue;
					}

					$rule = null;

					// перебор правил и их проверка
					foreach ($rules as $cur) {
						// правило не содержит условий, например в 'no_attr'
						if (! is_array($cur)) {
							$rule = array( 'view' => $cur );
						} else {
							// если есть тип для атрибута, то регулярку подставляем из него
							if (isset($cur['type'])) {
								$cur['format'] = $this->regex_types[$cur['type']];
							}

							if (isset($cur['type_body'])) {
								$cur['format_body'] = $this->regex_types[$cur['type_body']];
							}

							// получаем тело бб-кода, если оно требуется для текущего правила
							if (isset($cur['format_body'])) {
								$bb['body'] = current( $parts );
							} else {
								unset( $bb['body'] );
							}

							if (isset($cur['format_body']) && isset($cur['format'])) {
								if (preg_match($cur['format_body'], $bb['body']) && preg_match($cur['format'], $bb['attr'])) {
									$rule = $cur;
									break;
								}
							} else if (isset($cur['format_body'])) {
								if (preg_match($cur['format_body'], $bb['body'])) {
									$rule = $cur;
									break;
								}
							} else {
								if (preg_match($cur['format'], $bb['attr'])) {
									$rule = $cur;
									break;
								}
							}
						}
					}

					// ни одно правило не подошло по условию/формату
					if (is_null($rule)) {
						$text .= $part;
						continue;
					}

					// применяем замену
					$part = str_replace('%attr%', $bb['attr'], $rule['view']);
					if (isset($bb['body'])) {
						$part = str_replace('%body%', $bb['body'], $part);
					}
				}

				$this->bb_array[] = $bb['tag'];

				$method = '_do_open_' . $bb['tag'];

			// *************
			// закрытие тега
			} else {
				if (empty($this->bb_array) || end($this->bb_array) != $bb['tag']) {
					$text .= $part;
					continue;
				}

				$part = $this->bbcodes[$bb['tag']]['close'];

				array_pop($this->bb_array);

				$method = '_do_close_' . $bb['tag'];
			}

			// вызываем дополнительный обработчик открытия/закрытия тега
			if (method_exists($this, $method)) {
				$this->{$method}();
			}

			$text .= $part;

			if (isset($bb['body'])) {
				next($parts);
			}
		}

		// закрываем не закрытые теги
		foreach ($this->bb_array as $tag) {
			$text .= $this->bbcodes[$tag]['close'];
		}

		return $text;
	}
}

$text = '[center="atr"]
[i]
[b][font=Arial]Тест текста[/font][/b][
[color=#ff0000][size=10em]Красный!!![/size][/color]
[/i][/center]
Думаю сделать список загруженных файлов в таком виде
[url=http://(_jpegshare_net_)/4d/7a/4d7a61b75f78abb3f1a46bf692fd65c8.png.html][img]http://(_jpegshare_net_)/thumbs/4d/7a/4d7a61b75f78abb3f1a46bf692fd65c8.jpg[/img][/url]
Нормально? Или не по фен-шую?
Т.е. кнопка удаления - вверху справа (За раз можно удалить только одну картинку, повешу сюда ajax дополнительно).
Внизу справа - вставка ссылки на файл/картинку.
Внизу слева - вставка превью, если есть в наличие.[img]
[h2={"class":"western","style":"page-break-before: always"}]6.4.Поверки[/h2][div={"class":"western","style":"text-align: justify; line-height: 150%"}]На данной вкладке представлен список всех поверок, которые проводились в смене (рисунок 6.6). Для просмотра поверок в смене необходимо выбрать смену нажатием левой кнопкой мыши.[/div]
[img][/img]
[size=12pt]Рисунок [background=#00FF00]6.6[/background] – [font="comic sans ms,cursive"]Список поверок[/font][/size]';

$parser = new parser();
echo '<p>'.$parser->parse($text).'</p>';

Правда в нем вывод даже не всех стандартных кодов реализован сейчас.

Offline

#21 2016-06-17 09:39:45

artoodetoo
Admin by chance
Зарегистрирован: 2008-09-09
Сообщений: 887
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

А что это за колдовство с json, зачем?


There are two hard things in computer science: cache invalidation, naming things, and off-by-one errors.

Offline

#22 2016-06-17 10:48:33

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

@artoodetoo, это у меня в ckeditor плагин генерации bb-кодов так написан, чтобы сложные стили и массив атрибутов для html элемента переводить в json. Вот пример таблицы:

[table={"style":"width: 800px;","border":"1","cellpadding":"0","cellspacing":"0"}]
[tbody]
[tr][td={"style":"width: 50px;"}]1[/td][td={"style":"width: 100px;"}]2[/td][td]3[/td][td]4[/td][td]5[/td][/tr]
[tr][td={"colspan":"2","rowspan":"1"}]двойная ширина[/td][td={"colspan":"1","rowspan":"4"}] [/td][td] [/td][td] [/td][/tr]
[tr][td] [/td][td] [/td][td] [/td][td] [/td][/tr]
[tr][td] [/td][td] [/td][td] [/td][td] [/td][/tr]
[tr][td] [/td][td] [/td][td] [/td][td] [/td][/tr]
[/tbody]
[/table]

Вид:
4f7eb6d6c61fabd3260da6be7406a542.png

Offline

#23 2016-07-04 16:09:15

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Вот чего наваял в процессе игры с парсерами:

%\[
(?P<tag> [a-z\*][a-z\d]{0,10})
(?>
  =
  (?>
    { (?P<attrjson> [^\x00-\x1f]+?) }
  |
    (?P<quote> &quot;|&\#039;|"|\' )?
    (?P<attr>
      (?(quote)
        [^\x00-\x1f]+?
      |
        [^\x00-\x1f\]]++
      )
    )
    (?(quote)(?P=quote))
  )
)?
\]
(?P<body>
  (?>
    [^\[]++
    (?:
      (?! \[
        (?:
          / (?P=tag)
        |
          (?P=tag)
          (?>
            =
            (?>
              { [^\x00-\x1f]+? }
            |
              &quot; [^\x00-\x1f]+? &quot;
            |
              &\#039; [^\x00-\x1f]+? &\#039;
            |
              " [^\x00-\x1f]+? "
            |
              \' [^\x00-\x1f]+? \'
            |
              [^\x00-\x1f\]]++
            )
          )?
        )
        \]
      ) \[
      [^\[]*+
    )*+
  | (?:
      (?! \[
        (?:
          / (?P=tag)
        |
          (?P=tag)
          (?>
            =
            (?>
              { [^\x00-\x1f]+? }
            |
              &quot; [^\x00-\x1f]+? &quot;
            |
              &\#039; [^\x00-\x1f]+? &\#039;
            |
              " [^\x00-\x1f]+? "
            |
              \' [^\x00-\x1f]+? \'
            |
              [^\x00-\x1f\]]++
            )
          )?
        )
        \]
      ) \[
      [^\[]*+
    )++
  | (?R)
  )*+
)
\[/ (?P=tag) \]%ix

А вот тестовая проверочка https://regex101.com/r/uR3nJ2/1

Offline

#24 2016-07-05 17:40:22

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Модификатор u (Юникод) примерно в два раза тормозит парсер sad
Все регулярки по возможности следует составлять так, чтобы не нужно было использовать данный модификатор.

Offline

#25 2016-07-07 17:20:00

Visman
Administrator
Из Сибирь
Зарегистрирован: 2009-06-08
Сообщений: 2,236
Сайт

Re: Альтернативный парсер BBCODE. Регулярка.

Еще вот задаюсь вопросом:
Если атрибут у бб-кода взят в одинарные или двойные кавычки, то разрешать ли такие же кавычки внутри содержимого атрибута?

Offline

Подвал доски

Под управлением FluxBB. Хостинг Hostens