MySQL: select ... limit много, count = долго

_DEN_ · 8 янв 2012

Благодаря вот этому посту обнаружил такую вещь. limit не работает с индексами, и offset, похоже, просто перебирает значения. Если в таблице много записей, то получаются тормоза.

location - таблица на ~миллион записей. После рестарта мускуля (тобишь - сброса его кешей), вот такие запросы отрабатываются ~20 секунд:

Код (Text):

select * from location limit 850000, 50

select * from location order by id limit 850000, 50

Собственно, wtf? Размеры строк в таблице фиксированного размера. Физические позиции строк растут вместе со значением кластерного индекса. Следовательно, select без order by теоретически должен давать константное позиционирование, а с order by [индектированное поле] - log2 (n) поцизионирование. А тут, видимо, оно линейное. Как дальше жить?

Magnum · 8 янв 2012

Переписать мускл?

Dmitry_Milk · 8 янв 2012

Физические позиции строк растут вместе со значением кластерного индекса.
Нажмите, чтобы раскрыть...

Вы в этом уверены? Записи в файле должны лежать чаще всего в порядке их инсертов (если не было удалений). А натуральный порядок выдачи SELECT * по возрастанию первичного ключа, если я не ошибаюсь. То есть, даже если из-за автоинкремента порядок записей в файле и возрастание ключа вроде бы должны совпадать, тем не менее, вы даете индексу совершенно чуждую ему задачу:

"найди мне такую запись, перед которой в порядке возрастания первичного ключа имеется 850000 записей"

Вы заставляете механизм индексирования заниматься полным обходом внутренних структур индекса для подсчета количества записей, тогда как его родная задача - быстро найти запись по значению.

_DEN_ · 8 янв 2012

Dmitry_Milk

Вы в этом уверены?
Нажмите, чтобы раскрыть...

http://ru.wikipedia.org/wiki/Индекс_(базы_данных):

Существует два типа индексов: кластерные и некластерные. При наличии кластерного индекса строки таблицы упорядочены по значению ключа этого индекса.
Нажмите, чтобы раскрыть...

http://dev.mysql.com/doc/refman/5.0/en/innodb-index-types.html:

If you define a PRIMARY KEY on your table, InnoDB uses it as the clustered index.
Нажмите, чтобы раскрыть...

Dmitry_Milk · 8 янв 2012

При наличии кластерного индекса строки таблицы упорядочены по значению ключа этого индекса.
Нажмите, чтобы раскрыть...

Да да. Вот что вы понимаете под этими словами? тут ведь не сказано, что в таком порядке располагаются записи в файле. Тут сказано, что SELECT * FROM TABLE обязательно выдаст записи в таком порядке.

Как дальше жить?
Нажмите, чтобы раскрыть...

Постраничный вывод требуется? Или какая-то другая задача? надо отойти подальше и посмотреть по-другому.

_DEN_ · 8 янв 2012

Dmitry_Milk

тут ведь не сказано, что в таком порядке располагаются записи в файле.
Нажмите, чтобы раскрыть...

http://www.ovaistariq.net/521/understanding-innodb-clustered-indexes/

A clustered index determines the physical order of data in a table.
Нажмите, чтобы раскрыть...

А что еще может подразумеваться под "physical order", если не физическое расположение в файле?

_DEN_ · 8 янв 2012

Dmitry_Milk

Постраничный вывод требуется?
Нажмите, чтобы раскрыть...

Он самый. select ... from ... limit page_number * items_per_page, items_per_page # page_number = over9000

_DEN_ · 8 янв 2012

Dmitry_Milk

Ну и еще раз посмотрим сюда: http://dev.mysql.com/doc/refman/5.6/en/innodb-table-and-index.html

If the table has no PRIMARY KEY or suitable UNIQUE index, InnoDB internally generates a hidden clustered index on a synthetic column containing row ID values. The rows are ordered by the ID that InnoDB assigns to the rows in such a table. The row ID is a 6-byte field that increases monotonically as new rows are inserted. Thus, the rows ordered by the row ID are physically in insertion order.
Нажмите, чтобы раскрыть...

Опять же, "physically in insertion order". Как это понимать, кроме как последовательность в файле?

_DEN_ · 8 янв 2012

http://dev.mysql.com/doc/refman/5.0/en/select-speed.html

Внизу, секция "User Comments". Пичялька (

Dmitry_Milk · 8 янв 2012

physical order
Нажмите, чтобы раскрыть...

Хм, с этим поспорить сложнее. Тем не менее, поддержание физического упорядочивания записей в файле - нонсенс. Представьте себя на месте разработчиков СУБД. Представьте, что при наличии первичного ключа требуется вставить в таблицу такую запись, что ключ требует ее положения в самом начале. Что, переписывать весь файл? В какой файловой системе вам известна операция "вставить последовательность байтов в файл с раздвиганием"?

По поводу страниц, варианты:

а). уговорить заказчика на то, что ради производительности можно пожертвовать требованием строгого количества записей на странице, что количество записей на странице может изменяться после удаления. Тогда завести дополнительное поле page и сделать по нему дополнительный неуникальный индекс. Естественно, заполнять поле сразу при вставке записи, в любом случае select max(page) from item;select count(*) from item where page=N отработают быстро, если есть индекс.
Кстати, хороший плюс от этого варианта для SEO - содержимое большинства страниц будет оставаться неизменным. Доастаточно весомый аргумент, если заказчика волнует важность SEO.
Еще один недостаток, помимо нестрого количества - размер страницы придется выбрать заранее.

б). Отказаться от автоинкремента ID (но оставив первичным ключом) и поддерживать сплошную нумерацию, чтоб ID строго совпадал с порядковым номером. То есть, если вставка в конец - то
insert into item(ID,поля...) select max(id)+1,значения-константы... from item
Если удаление - то
delete from item where id=N
update item set id=id-1 where id>N
Недостаток - долго работает удаление
Ну и с вставкой в середину еще надо придумать что-то, если таковая требуется. Просто так не получится, из-за уникальности id.

_DEN_ · 8 янв 2012

Dmitry_Milk

Представьте себя на месте разработчиков СУБД. Представьте, что при наличии первичного ключа требуется вставить в таблицу такую запись, что ключ требует ее положения в самом начале. Что, переписывать весь файл? В какой файловой системе вам известна операция "вставить последовательность байтов в файл с раздвиганием"?
Нажмите, чтобы раскрыть...

1. В энторнетах читал, что такая проблема есть - инсерт в центр ведет к перезаписи фрагманта таблицы. И в этом, имхо, все правильно (см п.3)
2. У мускуля есть опция raw disk, работа с диском напрямую, минуя ФС (правда хз, поможет ли это в данном случае).
3. Заглядывать в значение PK - идеологически неверно Он должен быть черным ящиком с единственно операцией проверки на равенство, т.е. = / != / in / not in. В энторнетах, опять же, советуют, что если вам захотелось заглядывать в значение PK, то лучше ввести второе вспомогательное поле с UNIQUE индексом, и заглядывать уже в него. Поэтому PK должен быть int autoincrement, и должен рассматриваться как черный ящик - можно только спросить "ты - не ты". PK нужен для идентификации объекта, и обеспечении целостности отношений. Завязывать логику на его внутреннее устройство неправильно, и очень черевато.

а). уговорить заказчика на то...
Нажмите, чтобы раскрыть...

Не выйдет, т.к. я на уговоры не поддаюсь

б). Отказаться от автоинкремента ID (но оставив первичным ключом) и поддерживать сплошную нумерацию, чтоб ID строго совпадал с порядковым номером. То есть, если вставка в конец - то
Нажмите, чтобы раскрыть...

Тогда уж см. п.3 - дополнительное поле. А то этот способ соснет при наличии FK на эти PK. [UPD]: конечно, можно сделать каскадное обновление на update, но это никому не нужный онанизм.

Dmitry_Milk · 8 янв 2012

Вот ведь человек, сам себе гемор создает. Нет чтоб пойти на компромисс со своими желаниями (вполне ли обоснованными?), облегчив себе участь

Насчет дополнительного поля -действительно завести тогда дополнительное поле, order_num, повесить на него уникальный индекс и работать по страницам с ним. FK из других мест на order_num создавать не надо. Если доступны триггера - то вроде все должно гладко получаться.

_DEN_ · 8 янв 2012

Dmitry_Milk

Так...) Пообщался с разработчиком MySQL Задача в лоб нерешаема. Пагинация мульярдов данных в любом случае даст o(n), вместо o(1). Нужно какое-то хитрое решение. Написали в google groups, ждем кто что насоветует

scf · 8 янв 2012

Вот тебе вариант:
Если тебе нужен быстрый пейджинг только для сортировки по ПК, то ты можешь опираться на ПК при выборке. Т.е. страницу задает смещение и ПК последнего элемента предыдущей страницы. Тогда получить следующую страницу можно эффективным запросом select * from list where id > $last_id limit 20.

Что делать с рандомным доступом к страницам? Можно либо на них забить как на редкое явление, либо сделать кеш с парами page_num -> last_id. Разумееется, при обновлении этого списка кеш придется сбрасывать, но операций чтения, как правило, намного больше, чем операций записи.
Можно сделать "продвинутую технику" - при добавлении нового элемента в список не сбрасывать кеш, а сохранять поправки (например, теперь надо выбирать не 20, а 21 элемент и первый из них игнорировать).

Еще один вариант - строить индексы для пагинации самостоятельно в памяти - обрабатывать добавления-удаления-изменения списка и хранить в памяти такую структуру, по которой можно извлечь набор ПК элементов для нужной страницы и сортировки. Готовые решения уже наверняка есть, если и не для ПХП, то для явы - однозначно.

Dmitry_Milk · 8 янв 2012

Пагинация мульярдов данных
Нажмите, чтобы раскрыть...

А откуда ноги растут? Может в консерватории что изменить?

_DEN_ · 9 янв 2012

Dmitry_Milk

А откуда ноги растут? Может в консерватории что изменить?
Нажмите, чтобы раскрыть...

Эм... Мне кажется что я знаю не все значения слова "консерватория"

Dmitry_Milk · 9 янв 2012

http://www.jvanetsky.ru/data/text/t8/konservatoria/

Стало крылатой фразой со смыслом - "возможно, есть какая-то более общая/глубокая вещь, являющаяся источником проблем по разным направлениям, и надо попробовать поискать и попытаться изменить общую причину".

Я имел в виду - зачем именно возникла необходимость в "пагинации мульярдов данных"? ПРичем в такой пагинации, когда конкретные записи не будут закреплены за конкретными страницами, а будут плавать со страницы на страницу при удалениях вставках. Такая пагинация на огромном количестве данных не годится ни для быстрого поиска, ни для последовательного просмотра какого-либо участка этого огромного массива данных. Скорее всего именно поэтому для такой задачи (на огромном количестве данных) до сих пор и не придумано нормальной реализации, потому что задача надуманная. Скажем, в MSSQL тоже только TOP() с количеством, но не со смещением.

Может быть нужна не пагинация, а что-то другое? Или не такая пагинация?

semen · 11 янв 2012

Может это поможет http://habrahabr.ru/company/badoo/blog/135966/
Но секунда на 10млн меня бы не устроила, я в свое время решал отказом от mysql.

Войти или зарегистрироваться

MySQL: select ... limit много, count = долго

_DEN_ DEN

Magnum New Member

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

_DEN_ DEN

_DEN_ DEN

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

scf Member

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

semen New Member

Войти или зарегистрироваться

MySQL: select ... limit много, count = долго

_DEN_ DEN

Magnum New Member

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

_DEN_ DEN

_DEN_ DEN

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

_DEN_ DEN

scf Member

Dmitry_Milk Member

_DEN_ DEN

Dmitry_Milk Member

semen New Member

Быстрый поиск