Добрый день, коллеги. Есть задача - разделить массив чисел на три группы с близкими стат параметрами.
Вопрос первый - по какому критерию лучше это сделать?
я взял формулу межгрупповой дисперсии, но не уверен что это лучший вариант. для решения применил Поиск решения, но у меня много строк с подобными данными и я не могу для каждой строки запускать Поиск Решения --> отсюда
Второй вопрос - как эту процедуру расписать на формулы или промежуточные вычисления, чтобы избавиться от Поиска решения.
Заранее благодарен за идеи и решения.
Добрый день, коллеги. Есть задача - разделить массив чисел на три группы с близкими стат параметрами.
Вопрос первый - по какому критерию лучше это сделать?
я взял формулу межгрупповой дисперсии, но не уверен что это лучший вариант. для решения применил Поиск решения, но у меня много строк с подобными данными и я не могу для каждой строки запускать Поиск Решения --> отсюда
Второй вопрос - как эту процедуру расписать на формулы или промежуточные вычисления, чтобы избавиться от Поиска решения.
Начальное предположение состоит в том, что в имеющемся массиве содержатся данные, которые можно сгруппировать около неких трех уровней/прямых относительно которых, разброс данных внутри получившихся групп минимальным.
_Boroda_,
Начальное предположение состоит в том, что в имеющемся массиве содержатся данные, которые можно сгруппировать около неких трех уровней/прямых относительно которых, разброс данных внутри получившихся групп минимальным.qДмитрий
Излишнее цитирование удалено При помощи Поиска решения и указанного в файле критерия удается найти количество элементов: а -количество элементов в первой группе с 1-го по а; b - количество элементов во второй группе - от наибольшего в сторону уменьшения; и оставшиеся СЧЁТ(A3:M3)-a-b элементов, внутренней группы.
Излишнее цитирование удалено При помощи Поиска решения и указанного в файле критерия удается найти количество элементов: а -количество элементов в первой группе с 1-го по а; b - количество элементов во второй группе - от наибольшего в сторону уменьшения; и оставшиеся СЧЁТ(A3:M3)-a-b элементов, внутренней группы.qДмитрий
очень удивлен вашим замечанием в нарушении правил форума.
мне казалось, что я достаточно точно им следовал - указав тему, разъяснив стоящие вопросы и методы, которые уже я применил в приложенном файле.
можно подробнее о моих нарушениях?
что касается вашего ответа по существу математической задачи: то конечно спасибо за разъяснения в синтаксисе формолы СМЕЩ, но к решению задачи Оптимизации - т.е. нахождения максимума функции, ваш ответ пока не приблизил.
был бы крайне благодарен за более профессиональные замечания и предложения уважаемых коллег, а не за пустые отписки. Или на этом форуме что-то изменилось?
заранее спасибо.
_Boroda_, добрый день, уважаемый коллега,
очень удивлен вашим замечанием в нарушении правил форума.
мне казалось, что я достаточно точно им следовал - указав тему, разъяснив стоящие вопросы и методы, которые уже я применил в приложенном файле.
можно подробнее о моих нарушениях?
что касается вашего ответа по существу математической задачи: то конечно спасибо за разъяснения в синтаксисе формолы СМЕЩ, но к решению задачи Оптимизации - т.е. нахождения максимума функции, ваш ответ пока не приблизил.
был бы крайне благодарен за более профессиональные замечания и предложения уважаемых коллег, а не за пустые отписки. Или на этом форуме что-то изменилось?
qДмитрий, там есть пункт про излишнее цитирование. По математике - в первом посте не понятно ничего, в четвёртом, чисто по описанию - вас тупо интересует вариационный ряд, который можно получить сортировкой или используя НАИМЕНЬШИЙ() например. Но больше именно по математике не написано ничего, дайте нормальные изначальные условия и проясните понятие "близкие стат параметры" - будет решение. По сути ответил в репу
qДмитрий, там есть пункт про излишнее цитирование. По математике - в первом посте не понятно ничего, в четвёртом, чисто по описанию - вас тупо интересует вариационный ряд, который можно получить сортировкой или используя НАИМЕНЬШИЙ() например. Но больше именно по математике не написано ничего, дайте нормальные изначальные условия и проясните понятие "близкие стат параметры" - будет решение. По сути ответил в репуbuchlotnik
по задаче нужно не вариационный ряд, а анализ ряда. попробую еще раз сначала объяснить задачу.
имеется ряд чисел. предполагается что он состоит из чисел, принадлежащих трем процессам с разным уровнем , допустим, сигнала. уровни - не известны, количество точек в каждой группе - не известно. предположительно количество групп -3 (как минимум 2).
каким методом это делать правильнее я не знаю. получается, что нужно сгруппировать точки относительно этих уровней наилучшим образом. здесь я предположил, что наилучшим - т.е. сумма квадратов отклонений = мин. (это кажется дисперсия). дальше я фантазировал так - если у нас есть общая группа и три выборки из нее, то можно найти общую дисперсию. при этом она состоит из внутригрупповой и группированной. если я хочу чтобы внутри групп значения концентрировались плотнее, то нужно добиться min дисперсии внутри каждой группы. как это сделать я не знаю. поэтому стал работать по межгрупповой дисперсии - стал искать ее максимум через инструмент Поиск Решения - изменяя количество точек (параметры a,b) - пример в файле.
решение таким способом находится. но есть несколько "но": -это решение хорошо для одного ряда, а у меня их сотни. потому мне нужно решение с использованием формул, которые я могу скопировать по ячейкам.
- второе "но" - я не уверен в правильности выбранного алгоритма разделения ряда на группы. я не профессиональный статистик и не знаю насколько обоснован мой способ решения. может быть есть боле простые и очевидные решения.
приношу извинения за многословность и надеюсь на предложения по решению данной прикладной задачки.
buchlotnik, добрый день, коллега.
по задаче нужно не вариационный ряд, а анализ ряда. попробую еще раз сначала объяснить задачу.
имеется ряд чисел. предполагается что он состоит из чисел, принадлежащих трем процессам с разным уровнем , допустим, сигнала. уровни - не известны, количество точек в каждой группе - не известно. предположительно количество групп -3 (как минимум 2).
каким методом это делать правильнее я не знаю. получается, что нужно сгруппировать точки относительно этих уровней наилучшим образом. здесь я предположил, что наилучшим - т.е. сумма квадратов отклонений = мин. (это кажется дисперсия). дальше я фантазировал так - если у нас есть общая группа и три выборки из нее, то можно найти общую дисперсию. при этом она состоит из внутригрупповой и группированной. если я хочу чтобы внутри групп значения концентрировались плотнее, то нужно добиться min дисперсии внутри каждой группы. как это сделать я не знаю. поэтому стал работать по межгрупповой дисперсии - стал искать ее максимум через инструмент Поиск Решения - изменяя количество точек (параметры a,b) - пример в файле.
решение таким способом находится. но есть несколько "но": -это решение хорошо для одного ряда, а у меня их сотни. потому мне нужно решение с использованием формул, которые я могу скопировать по ячейкам.
- второе "но" - я не уверен в правильности выбранного алгоритма разделения ряда на группы. я не профессиональный статистик и не знаю насколько обоснован мой способ решения. может быть есть боле простые и очевидные решения.
приношу извинения за многословность и надеюсь на предложения по решению данной прикладной задачки.qДмитрий
Доброе время суток. Фактически, вы занимаетесь задачей кластеризации, формулами не решаема, на мой взгляд. У вас линейный случай. 1. Разбиваете расстояние от мин до макс значений на три интервала. 2. Центры 3 кластеров относите к серединам. 3. Относите значение к тому центру кластера, с которым оно имеет минимальное расстояние (при равенстве любое первое). 4. По средней величине значений кластера уточняете положение центра кластера. 5. Если центры кластеров сместились от предыдущего положения не более чем эпсилон, то кластеризация завершена, если нет, то повторяете с 3. Успехов.
P. S. Добавил полурукопашный вариант расчёта формулами и подходом для поиска начальных значений центров кластеров.
Доброе время суток. Фактически, вы занимаетесь задачей кластеризации, формулами не решаема, на мой взгляд. У вас линейный случай. 1. Разбиваете расстояние от мин до макс значений на три интервала. 2. Центры 3 кластеров относите к серединам. 3. Относите значение к тому центру кластера, с которым оно имеет минимальное расстояние (при равенстве любое первое). 4. По средней величине значений кластера уточняете положение центра кластера. 5. Если центры кластеров сместились от предыдущего положения не более чем эпсилон, то кластеризация завершена, если нет, то повторяете с 3. Успехов.
P. S. Добавил полурукопашный вариант расчёта формулами и подходом для поиска начальных значений центров кластеров.anvg
Здравствуйте! На мой взгляд, экстенсивный путь - эмпирическое вычленение кластеров - может легко ввести в заблуждение. Навскидку видно, что могут присутствовать как линейное, так и экспоненциальное, степенное или другое распределение данных. На этих, коротких отрезках не понятно. Поэтому, было бы лучше понимать о каких процессах идет речь и попробовать расчленить интегральные данные на составляющие и уже по ним искать зависимости. Так или иначе, одной формулой тут не обойтись :)) Расскажете какие процессы исследуете?
Здравствуйте! На мой взгляд, экстенсивный путь - эмпирическое вычленение кластеров - может легко ввести в заблуждение. Навскидку видно, что могут присутствовать как линейное, так и экспоненциальное, степенное или другое распределение данных. На этих, коротких отрезках не понятно. Поэтому, было бы лучше понимать о каких процессах идет речь и попробовать расчленить интегральные данные на составляющие и уже по ним искать зависимости. Так или иначе, одной формулой тут не обойтись :)) Расскажете какие процессы исследуете?pabchek
"Учиться, учиться и еще раз учиться!" WM: R399923528092
Просто требуется осмысленное понимание того, что делается и как это делается. Увы, достаточно большое количество людей идут путём камлания , даже не подозревая об этом. Откуда и тянутся вопросы, начинающиеся - "Неправильно считает..", "Excel ошибается".., "Ошибка в формуле.." и т. д.
Просто требуется осмысленное понимание того, что делается и как это делается. Увы, достаточно большое количество людей идут путём камлания , даже не подозревая об этом. Откуда и тянутся вопросы, начинающиеся - "Неправильно считает..", "Excel ошибается".., "Ошибка в формуле.." и т. д.anvg
Сообщение отредактировал anvg - Понедельник, 04.09.2017, 11:25
anvg, Спасибо большое за развернутый ответ и предложенную идею. Попробую осмыслить, вероятно это может быть более очевидное решение. С Вашего позволения вернусь к Вам с вопросами позже (если не разберусь).
anvg, Спасибо большое за развернутый ответ и предложенную идею. Попробую осмыслить, вероятно это может быть более очевидное решение. С Вашего позволения вернусь к Вам с вопросами позже (если не разберусь).qДмитрий
pabchek, числа носят случайный характер. для простоты решения в исходном файле я их отсортировал по возрастанию, изначально - неупорядоченные значения.
pabchek, числа носят случайный характер. для простоты решения в исходном файле я их отсортировал по возрастанию, изначально - неупорядоченные значения.qДмитрий
Пока заниматься некогда, но методика может быть такая: 1. Составить уравнения прямых для каждой пары точек. 2. Для каждой прямой рассчитать расстояние до неё от каждой точки. 3. Выделять пары с наибольшим количеством точек, расстояние от которых меньше заданного значения 4. Если есть три таких группы, взять их за основу и присоединять к ним оставшиеся точки по минимальному расстоянию. Всё автоматизировать вряд ли получится, но основу под группировку создать можно.
Пока заниматься некогда, но методика может быть такая: 1. Составить уравнения прямых для каждой пары точек. 2. Для каждой прямой рассчитать расстояние до неё от каждой точки. 3. Выделять пары с наибольшим количеством точек, расстояние от которых меньше заданного значения 4. Если есть три таких группы, взять их за основу и присоединять к ним оставшиеся точки по минимальному расстоянию. Всё автоматизировать вряд ли получится, но основу под группировку создать можно.Светлый
Максимум о чём можно сказать, это середина отрезка для первой итерации. А потом локализация групп по минимальной дисперсии. Однако, смею предположить, что зависимости всё же есть. В таком случае и нужно понимание изучаемых процессов. Для примера, в файле, показаны два варианта группировки. 1) по абсолютным значениям - 3 линейные зависимости (левый график); 2) функциональные зависимости - степенная и экспоненциальные. А на самом деле, жизнь показывает, что интегральные данные включают в себя несколько, часто разнонапрвленных, процессов.
Максимум о чём можно сказать, это середина отрезка для первой итерации. А потом локализация групп по минимальной дисперсии. Однако, смею предположить, что зависимости всё же есть. В таком случае и нужно понимание изучаемых процессов. Для примера, в файле, показаны два варианта группировки. 1) по абсолютным значениям - 3 линейные зависимости (левый график); 2) функциональные зависимости - степенная и экспоненциальные. А на самом деле, жизнь показывает, что интегральные данные включают в себя несколько, часто разнонапрвленных, процессов.pabchek