Stolica.ru
    Реклама Rambler's Top100 Service     Все Кулички
 
Заневский Летописец
 
    Виртуальный орган невиртуальной жизни
      Девятый год издания 02.10.2007         N 1518   

Новый стилемер

    Поиграв некоторое время с новой недавно разрекламированной мною программкой
"Repetitio est", призванной резко улучшить качество создаваемых текстов, я вдруг понял, что у меня в руках оказался прекрасный инструмент для изучения русской литературы сугубо цифровыми методами.
    Появилась замечательная возможность, как сказал классик, "поверить алгеброй гармонию", не только используя суперсовременную машинерию, но и практически не читая изучаемых текстов.
    Последнее очень важно для исследования таких, например, шедевров, как "Сумеречные миры Одиума", "Второе утро судного дня", "Последняя гонка боевых псов" и многих, многих других.
    Но это - в перспективе.

    Для начала надо проверить работоспособность идеи на чем-нибудь попроще.
    Например, на русской классической литературе.
    Начав, разумеется с Пушкина, который вот уже много лет носит народный титул "Наше все".

    Тут я подумал, что если есть "Наше все", то должно быть и "Наше ничего".
    Это несколько приостановило исследования, поскольку я несколько дней напряженно думал, кого бы обозначить этим малопочетным титулом: претендентов оказалось слишком много.
    В результате размышления на эту тему пришлось приостановить в надежде на то, что в дальнейшем объективные исследования текстов несколько сузят этот невообразимо широкий круг людей, считающих себя писателями и литераторами.
    Поэтому для начала я выбрал для сводного анализа следующие книги.
Пушкин. "Капитанская дочка". "Дубровский". "Повести Белкина". (500 килобайт текста.)
Тургенев. "Дворянское гнездо". (604 килобайта текста.)
Толстой Лев. "Анна Каренина". (1710 килобайт текста.)
Достоевский. "Идиот". (672 килобайта текста.)
Шолохов. "Понятая целина". (1360 килобайт текста.)
Фадеев. "Молодая гвардия". (1330 килобайт текста.)
Бондарев. "Берег". (868 килобайт текста.)
Улицкая. "Медея и ее дети", "Искренне ваш Шурик" (604 килобайт текста.)

    Выбор обуславливался не моим отношением к данным авторам, а был достаточно случайным (притом, чем ближе к нашему времени, тем случайнее).
    На число авторов основные ограничения наложила моя личная лень, кроме того, хотелось бы, чтобы исследуемые авторы были известны практически всем.
    Думаю, что этого достичь не удалось, но тут уж я не виноват: список самый хрестоматийный.
    Из определения "хрестоматийности", пожалуй, выпадают два последних автора, но у меня нет времени ждать, когда кто-нибудь из наших современников наконец попадет в столь желанные сборники.
    Будем считать представленный мною список авансом как товарищу Бондареву, так и госпоже Улицкой.

    Что же касается "Repetitio est", то переделка заключалась только в том, чтобы не читать повторяемые слова, а подсчитывать их.

    Идея же исследования практически те же самая, что и в описании "Repetitio est": подсчитывается количество повторов слов (с точностью до двух букв) в заданной зоне и вычисляется их процент к общему числу слов в изучаемом отрывке.

    Наименее продуктивным в списке оказался Пушкин, поэтому было принято волевое решение использовать для исследования у всех остальных авторов по пятьсот первых килобайт текста.
    Разумеется, количество слов в этом объеме у каждого автора свое, но подсчет процентов это неравенство нивелирует.

    Поскольку в процессе исследований показалось удобным (и практически без дополнительных затрат) подсчитывать не только сумму встреченных повторов похожих слов, но и число повторов слов с определенным расхождением, то так и было сделано.

    То есть, отдельно подсчитывались повторы:

а) полностью совпадающих слов,
б) слов, отличающихся друг от друга одной буквой,
в) и слов, отличающихся друг от друга двумя буквами,
г) а также сумма всех трех категорий.

    Зона поиска повторов была выбрана произвольно и составляла 15 слов.

    Результаты меня сильно удивили.
    Поначалу.
    После некоторых размышлений я пришел к выводу, что определенная логика в моих арифметических подсчетах все-таки присутствует, но ровно 25 процентов удивления у меня, тем не менее, осталось.

    Взгляните на график.


    Первый столбик в каждой четверке столбиков соответствует проценту числа точных повторов слов (см. выше пункт а), второй - см. пункт б, и так далее.
    И что же мы видим?
    А видим мы, что Тургенев точно так же следил за своим стилем, как и Пушкин (впрочем, возможно, что они оба за ним не следили, а имели его, как врожденное качество), к ним примыкает Шолохов и Улицкая, а показатели Бондарева даже еще и лучше.
    Притом практически по всем четырем позициям.
    Зато Достоевский, Толстой и Фадеев не обращали внимания на такие мелочи, как стилевое разнообразие и употребляли понравившиеся слова так часто, как им того хотелось.

    Удивительно, правда?
    То-то я в свое время с большим трудом одолел и Толстого, и Достоевского: их тексты казались мне корявыми и недоработанными.
    Да и то сказать, некогда им было над текстами поработать: один из них постоянно торопился, отрабатывая уже полученные и прожитые деньги, а Великий Моралист так стремился довести до всех свою Великую Мораль, что об остальном и подумать некогда было.
    Впрочем, они оба - Великие Моралисты.

    (Кстати, Фадеева я всегда считал писателем весьма средним, и очень рад, что неподкупная арифметика мое интуитивное мнение подтвердила.)

    А вот то, что Бондарев и Улицкая по выдуманному мной "коэффициенту стиля" приближаются к заведомым классикам, а Бондарев даже и превосходит, факт поистине удивительный.

    Правда, их более чем столетняя отдаленность от основоположников позволяет высказать предположение, что это не их личная заслуга, а языковый тренд: жизнь ускоряется, общение убыстряется, нынче некогда рассусоливать, обстоятельно расписывая подробные абзацы описаний природы и душевных терзаний героев.
    Раз-два, сказано-сделано, встали-пошли, вскочили-побежали...
    Прибежали, а там никого и нет: все уже обратно вернулись.
    Да...

    Вернемся и мы.
    К нашим э-э-э... графикам.
    Было бы интересно пройтись новообретенным "стилемером" по расширенному ряду русских литераторов, и особенно по группам более однородным по времени.
    Возможно, это позволит уточнить зависимость количества повторов (или отсутствие такой зависимости) от личности авторов.
    Также любопытно было бы исследовать наличие (или отсутствие) динамики изменений этого коэффициента у одного автора от дебюта до финала.
    Правда, не для всех писателей это возможно: не все же так плодовиты, как Лев Толстой.

    И напоследок.
    Вы, наверное, и сами заметили, что буквально у всех подопытных второй столбик много ниже первого и третьего.
    Это означает, что количество повторов слов, отличающихся друг от друга одной буквой,

("Подал батюшке письмо дрожащею рукою. Батюшка прочел его."
"Будет дождик, будут и грибки."
"На службу не напрашивайся, от службы не отговаривайся.")
значительно меньше числа повторов слов, отличающихся двумя буквами
("Итак, батюшка читал Придворный Календарь."
"Барин! - закричал ямщик, - Беда! Буран!"
"Зададим гостям пирушку. Зарядим картечью пушку.")

    И что самое любопытное - оно меньше, чем число повторов слов, полностью совпадающих

("Виноват! Вижу сам, что виноват."
"Дерево - не дерево, а кажется, что шевелится."
"Хорошо, хорошо, все будет сделано.")

    Но над этой загадкой пусть думают филологи.
    Если, конечно, их заинтересует предлагаемая методика для исследований текстов.


    А также Букволюбие и буквомания


Обложка      Предыдущий номер       Следующий номер
   А Смирнов    ©1999-2017
Designed by Julia Skulskaya© 2000