Тут надо заметить, что проведенная насколько месяцев назад реформа туркменской письменности, замена кириллицы на латиницу турецкого образца, в мгновение ока превратила и без того не шибко
грамотных туркмен в повально безграмотных. Ну, да ладно, очередь не торопясь двигалась, и дошла до меня. Солдатик взял в руки мой загранпаспорт:
- Тркменский виза хде?- строго спросил он, тупо глядя в паспорт.
- Вот она, после литовской.
- Почему виза синий?
- Не знаю, такую в вашем посольстве, в Москве поставили.
- А кроме Ашгабатский велаят тебе можно хде ездить? В Тркменбаши можно?
- Можно, можно - ответил за меня Вадим и сунул солдату в нос свои прокурорские корочки.
В это время около самолета начался какой-то шум, мужик в аэрофлотовской форме оглянулся, смачно выматерился и сказал:
- Тьфу, мать твою, опять не запускается! Ну, сколько же можно, ему же почти тридцать лет, ну не живут столько самолеты! Сердар, стой и никого пока не пускай, а я пойду, узнаю как дела. И ушел. Солдат по имени Сердар важно повесил автомат на грудь и закрыл калитку. На поле тем временем появился какой-то важный туркмен в новенькой форме и, переваливаясь с ноги на ногу, заковылял к самолету. Это был сам начальник аэропорта, сильно напоминавший артиста Семчева, того, что пиво «Толстяк» рекламирует. Подошел к самолету, посмотрел, вытер толстое лицо платочком и отдал какую-то команду. Минут через двадцать к самолету подъехал жигуль четверка, из которой вышел мулла.
Мулла осмотрел самолет и заголосил. Рядом надрывно завыл Вадим:
- У-у-у-роды! Нормальные люди, когда ломается самолет, зовут механика, а эти муллу!
Кажется Яндекс всерьез начал опасаться за свое лидерство в Рунете
Где-то в середине августа, когда в яндексе пошли массовые репрессии нашего брата (дорвейщиков), меня посетила мысль, что для яндекса это не столько борьба за “чистую выдачу” (это понятие вообще отдельная тема для целой диссертации), сколько мера, направленная на восстановление пошатнувшегося авторитета в глазах наших “белых” коллег - сеошников, которые пол-форума searchengines.ru залили своими слезами на тему, как же им и их клиентам мешают дорвеи в выдаче. Конечно, обычно такие “слезы” распускают начинающие, неопытные сеошники, но факт остается фактом, недовольство росло, “народ” начал роптать.
Но как показывают дальнейшие события, мысль была не точная, сейчас мне все больше кажется, что яндекс стал реально опасаться за свое безоговорочное лидерство в поисковой нише рунета. И в частности, за свои позиции на рынке контекстной рекламы. Далее расскажу почему у меня возникают такие мысли.
Почти миллион рублей удалось незаконно снять в столичных банкоматах двум студентам престижных вузов. Юные преступники попались во время очередного мошенничества. На днях Замоскворецкий суд приговорил молодых людей к наказанию.
18-летняя Сэби Мадригал рассказывает, что целый месяц работала, чтобы собрать деньги на новую приставку. Она целые сутки простояла в очереди около одного из нью-йоркских магазинов, однако так и не смогла купить ее.
"Я столько работала, чтобы скопить деньги на эту проклятую систему, теперь я обойду все магазины в городе. Мне плевать, я ее все равно куплю", - говорит она.
В США врачи выбрасывали проблемных пациентов в трущобы
Полиция Лос-Анджелеса давно подозревала, что медицинские центры и судебные исполнители систематически вывозят неудобных больных и лиц без определенного места жительства в городские трущобы, оставляя их там на произвол судьбы.
Цитата:
Сообщение от Eugen
Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова.
Есть 3 правила:
1. A set of words should cover the maximal possible amount of documents
2. The "quality" of a word in the sense described below should be the highest
3. The number of words in the set should be minimal
Но, к сожалению, конкретики это не прибавляет.
(в сторону: С.В. Ильинский - сын В.И.Левенштейна).
С позволения Сергея изложу кратко здесь.
Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.
Для каждого слова (однократно) строится распределение документов по такой внутридокументной "частоте".
Алгоритм составления лучшей выборки выглядит так.
Проводим несколько итераций, каждая из которых состоит из двух фаз (1) и (2).
В (1) максимизируется покрытие при фиксированной (ограниченной снизу) точности в (2) максимизируется точность при фиксированном покрытии.
Определим "точность" слова следующим образом: "точность" тем выше, чем меньше встречаемость слова "в дельте-окрестности данного значения частоты" (то есть чем меньше документов с TF равным TFthreshold+-delta). Частоту с наилучшей "точностью" мы называем пороговой и запоминаем для дальнейшего использования в алгоритме (см статью).
После каждой итерации отбрасываем самые "плохие" слова. После последней итерации оставляем достаточно слов для хорошего покрытия.
Этот метод, позволяет, начав с выборки в сотни тысяч слов (см, например, статьи ребят из AOL-а, которые на этом и остановились), оставить набор в 3-5 тысяч, расчет сигнатур по которому с применением полнотекстового индекса осуществляется на миллиардном индексе несколько минут (на нескольких машинах, естественно).
К большому сожалению это все еще нигде не изложено (нет времени), поэтому если будете использовать идею в статьях, просьба обязательно давать ссылку на Яндекс и С.В.Ильинского.