Классификация машин: Классификация автомобильных средств

Содержание

Классификация легковых автомобилей | Brooklands

Aston Martin       Rapide, Vantage, DB, Lagona, Vanquish, Vulcan  
Audi A1, A2, A3, A4, A5, TT A6, A7, RS6, RS7, Allroad, Q3, Q5 A8, A8 Long, R8, Q7, Q8    
BMW 1, 2, 3, 4, M2, Z4, Z3 5, 6, X1, X2, X3, X4, M5F90 Z8, X5, X6, 7, 7 long, 8  X7  
Bentley     Continental GT Arnage, Flying Spur, Bentayga Mulsanne
Cadillac   CTS, ATS, BLS SRX, STS Escalade Escalade ESV
Chevrolet Aveo, Lacetti, Spark Captiva, Evica, Rezzo, Niva, Cruze TrailBlazer, Corvette Tahoe, Suburban  
Chrysler Neon Sebring, Stratus, PT Cruiser 300C, Grand Voyager, Pacifica    
Citroen C2, C3, C4 C6, Picasso, Berlingo, C5, DS-5 C-crosser    
Ferrari     488 California, 458 FF, F12, 812, GTC4
Ford Fusion, Focus, Fiesta, Ka Mondeo, Kuga, Maverick, Escape, S-Max Galaxy, Explorer, Mustang   Raptor, F-150
Genesis G70 G80 GV80, G90, G90L    
Honda Jazz, Civic HR-V, Accord, Prelude CR-V, Legend, Element, Crosstour Ridgeline  
HUMMER       h4 h3
HYUNDAI Getz, I30, Atos, Solaris Sonata, IX35, Matrix Santa Fe, IX55, Terracan, Tucson, Genesis Equus, h2 Starex
INFINITI Q30 Q50 QX70 QX60, QX80, QX56  
JAGUAR   XF, F-type, F-pace XJ    
JEEP   Liberty Compass, Grand Cherokee, Cherokee, Wrangler    
KIA Ceed, Cerato, Rio, Picanto K5, Sportage, Venga, Soul Quoris, Sorento Mohave  
Lamborghini    
Gallardo, Huracan
Aventador, Murcielago, Urus  
LAND ROVER   Freelander, Evoque Discovery, Range Rover Sport Defender, Range Rover, Range Rover long  
Lexus IS, CT NX, ES, GS LS, GX, RX LX  
Maserati     Ghibli, Levante    
MAZDA 2, 3, MX-5 5, 6, CX-5 MPV, CX-7 CX-9, BT-50  
MERCEDES-BENZ A, B, C, SLC, CLA E, GLA, GLC, SL, CLS AMG GT, GLE, GLE coupe, R, S, S coupe AMG GT 4 door, Maybach, GLS G class, V class
MINI Cabrio, Coupe, Hatch Countryman, Clubman      
MITSUBISHI Colt, Lancer Pajero Pinin, Space Star, ASX L-200, Outlander, Pajero, Pajero Sport    
NISSAN Almera, Note, Tiida, Micra Juke, Qashqai, 350Z, Navara, Teana Murano, X-Trail, GT-R Pathfinder, Patrol  
OPEL Astra, Corsa Zafira, Insignia, Omega, Vectra, Meriva      
PEUGEOT 107, 207, 308 407, 508, Partner      
PORSCHE   Cayman, Boxster, Macan 911, Cayenne, Panamera    
RENAULT Clio, Logan, Symbol Kangoo, Duster, Fluence, Scenic, Megane, Laguna Koleos    
ROLLS-ROYCE       Ghost, Wraith Cullinan, Phantom
SKODA Fabia, Rapid, Ibiza Octavia, Karoq, Kodiaq, Superb, Roomster, Yeti      
SUBARU   Forester, Legacy, Outback, Impreza XV Tribeca    
Toyota Auris, GT 86, Yaris Avensis, Prius, Versa, Camry, Corolla, Crown Venza, Highlander FJ Cruiser, LC200, Prado Tundra, Sequoya, Alphard
Volvo C30, S40 S60, V40, V50, V70, XC40, XC60 XC70, XC90, S90, S80, V90    
Volkswagen Polo, Scriocco, Beetle Touran, Sharan, Passat, Golf plus, Jetta, Tiguan Touareg Phaeton, Terramont Caravelle, Multivan, Transporter

Классификация автомобилей

Как сообщают многие автомобильные тематические источники, классификация автомобилей впервые была изобретена в Европе. Причем, начали классифицировать машины не автопроизводители, а автомобильные журналы. Позже автозаводы переняли практику присваивать каждой модели авто конкретный класс.

При присвоении того или иного класса ориентируются на массу машины, объем двигателя, размеры, тип привода и на многое другое. В этом заключается одна из проблем классификации. Например, в европейской системе классификации авто классов достаточно много. Иногда автомобиль сложно отнести определенно к одному классы, в связи с тем, что он имеет признаки двух и более классов.

Впрочем, часто класс авто – это показатель коммерческий. Работники сферы маркетинга могут присвоить машине более престижную букву из таблицы классификации, чтобы показать престижность конкретной модели.

Так как многие страны или регионы мира используют свою собственную классификацию, бывает, что происходит путаница в определении класса определенной модели. Это происходит, если разные классификации смешивают, «сваливают в кучу», что называется.

Тем не менее, любой автолюбитель должен хотя бы приблизительно знать основные классификации автомобилей, а уж в европейской обязан разбираться «на отлично».

С неё-то стоит начать обзор классов и классификаций.

Европейская система классификации автомобилей

В данной системе классификации авто обозначением класса служат буквы латинского алфавита. Отчасти и поэтому данную систему классификации машин легко запомнить. Забегая вперед, можно сказать, что, например, в СССР принцип обозначения модели автомобиля, исходя из класса, был сложнее. Но о нем далее.

Класс А

Это самые маленькие машинки, предназначенные для поездок по городу. Обычно, длина таких машин не превышает 3,6 метра, а ширина – 1,6 метра. Комплектуются автомобили класса А малолитражным двигателем, объем которого может варьироваться от 0,6 до 1,2 литра. Чаще всего машины данного класса являются трехдверными хэчбеками.

Учитывая технические характеристики и стоимость подобных автомобилей, можно сделать вывод, что они идеально подходят для езды в мегаполисах: топлива едят мало, места на парковке – немного. Естественно, что машины класса А не очень хорошо подходят для перевозки грузов и поездки большой семьей на пикник.

В России под класс А подходит «Ока» с двухцилиндровым двигателем. Из мировых малолитражных моделей большую популярность и большое распространение получил корейский «Матиз» от «Дэу». Эта машина отличается от своих классовых конкурентов выгодной ценой и неплохим по объему салоном. Но, перемещаясь на «Матизе», помните, что за город на нем лучше не выезжать! Конструкция авто такова, что боковой ветер может с легкостью опрокинуть машину в кювет. Да и в гололед на подобном авто ездить опасно.

.Чуть более дорогими представителями класса являются «Шевроле Спарк» и «Киа Пиканто».

Нужно добавить, что Европа очень любит малолитражки по одной простой причине: бензин  в Европейском союзе очень дорогой. Жители таких стран, как Греция и Болгария, в особенности не могут позволить себе V8 с непомерным расходом.

Класс B

Тем, кому гордость не позволяет «примерить на себя» фразу: «Полчаса позора – и ты на даче», рекомендуется не останавливаться на классе А, а обратить внимание на класс B.

Автомобили класса B имеют более стильную внешность, а также:

  • длину до 4,2 метра;
  • двигатель объемом до 1,6 литра;
  • преимущественно кузов типа хэчбек или купе.

Тойота Ярис, Фольксваген Поло, Форд Фьюжн, Киа Рио — всё это B-класс. По российским меркам, очень даже популярные машины. Нельзя сказать, что большинство в нашей стране может позволить купить себе какую-либо из перечисленных моделей в автосалоне, то есть, новую.

Между тем, класс B продолжают считать женским. Возможно, в мировых масштабах, это действительно так.

Порадовать может то, что многие авто этого класса способны развивать приличную скорость и готовы к дальним поездкам. Например, к поездке к морю.

Класс С

На чем ездит большинство европейцев? Именно на С-классе. Доля потребителей, выбравших автомобили данного класса, составляет 30-40 процентов. При этом, С-класс – самый «пестрый» и «разношерстный».

Именно с ним происходит история, которая описана в начале статьи: некоторые автомобили С-класса часто причисляют к более престижному D.

Вообще же, типичным представителем данного класса является «Фольксваген Гольф». Компактная, но шустрая машина, способная вместить 5 человек и развить при этом неплохую скорость.

Характеристики класса:

  • двигатель объемом до 2 литров;
  • длина авто до 4,5 метра;
  • кузов типа «хэчбек», реже «седан» и «универсал».

К классу С можно отнести ряд очень популярных в России автомобилей: «Форд Фокус», «Тойота Королла», «Хонда Цивик», «Киа Серато».

Стоит подчеркнуть, что С-класс – это не средний класс, а класс «ниже среднего».

Класс D

По отечественным меркам, D-класс – это уже «элита». Впрочем, как и С, он тоже слегка «разношерстный». Например, как сравнить «Шкоду Октавия» с двигателем 1,6 литра и «Хонду Аккорд» с двухлитровым, а то и более, движком.

Кроме указанных, популярными представителями класса являются «Форд Мондео» и «Фольскваген Пассат».

Иногда, некоторые автолюбители склонны причислять автомобили класса D в более престижный класс E. Например, существует мнение, что «Пассат» должен считаться автомобилем E-класса. Исходя из названия бренда («Фольксвагент»), причислить «Пассат» к Е-классу трудно, так как класс Е и «Народная машина» плохо сочетаются.

Автомобили класса D, как можно понять, ориентируясь на его типичных представителей, достаточно комфортные. Они имеют длину до 4,9 метра, что иногда затрудняет процесс парковки. Машины класса комплектуются различными двигателями: от «середнячка» в 1,6 литра до мощных 2 и даже 2,5 литра.

Класс Е

Данный класс автомобилей принято называть «бизнес-класс». Любят солидные фирмы закупать себе такие автомобили в качестве служебного транспорта. Е-класс характеризуется стильной отделкой салона: кожа или дерево; мощным двигателем, взаимодействующим с автоматической коробкой переключения передач; большими размерами: от 4,6 до 5,5 метра в длину. Характерный тип кузова: седан.

Типичные представители класса: «Нисан Тиана», «Тойота Камри».

Стоит подчеркнуть, что, согласно европейским представлениям, это еще средний класс автомобилей. Впрочем, даже в Европе на покупки машин Е-класса приходится всего 5 процентов от общего числа приобретений.

Класс F

Солидные автомобили для солидного бизнеса. К данному классу относятся «Ауди А8» «БМВ 7-ка». В связи с тем, что автомобилями данного класса пользуются состоятельные люди, у машин класса F имеются характерные особенности:

1) тип кузова только седан. Человек, могущий позволить себе «А8» не перевозит крупногабаритных вещей в салоне авто, он заказывает грузовой транспорт. Следовательно, универсал F-класса – нонсенс. При этом, обеспеченные люди хотят, чтобы в салоне было просторно. Таким образом, отпадает и кузов хэчбек.

2) Длина автомобилей класса от 5 метров. Тоже объяснимо: машина должна выделяться в потоке.

Существует мнение, что класс F стоит делить на подклассы F1 и F2. К первому подклассу относятся вышеуказанные модели класса: серийные, но комфортные и дорогие. А ко второму подклассу можно отнести автомобили, которые выпускаются в единичном экземпляре или в ограниченном количестве, при этом, многие из них – результат ручной работы. К подклассу F2 относят модели таких марок, как «Феррари», «Бентли», «Ламборджини».

На этом основная европейская классификация автомобилей заканчивается. Но есть в латинском алфавите еще немного букв. Их тоже решили использовать для дополнительной классификации машин.

Класс G

Купе – двухдверная укороченная версия какой-либо модели. Кто покупает купе? Люди, которые, во-первых, имеют возможность не ограничиваться классами A или B. А, во-вторых, не планируют перевозить на своей машине много пассажиров или грузов. Кичливые одиночки-эгоисты.

Как и в предыдущем классе, здесь тоже можно выделить подклассы G1 и G2. Принцип разделения такой же. К первому подклассу можно отнести серийные купе. Например, купе от «Киа Серато». А ко второму подклассу – премиум-авто. Например, купе «Астон Мартин».

Класс H

Автомобили данного класса предназначены для автомобилистов, которые готовы очень часто мыть голову. Да, кабриолет – это красиво, романтично, вдохновенно. Но владельцы кабриолетов открыто делятся и минусами управления подобными машинами: мошки во рту, пыль в волосах, дождь и холодный ветер.

С другой стороны, это такие мелочи. Зато десятки восхищенных взглядов в сторону автомобиля, водителя и пассажира (пассажиров) обеспечены.

Данный класс, также, принято разделять на подклассы.

Класс I

Универсалы повышенной проходимости. Интересный класс. Что-то среднее между легковыми автомобилями и внедорожниками. По управляемости – «легковушка», а вот по способности езды по бездорожью – внедорожник, но с оговорками.

Наверное, хорошим примером таких машин будут те модели, которые сейчас пытается выпускать «ВАЗ»: «Калина Кросс», «Ларгус Кросс». И добавление «Кросс», как выясняется, тут вовсе не «кроссовер», а способность проехать по влажному проселку на дачу, например.

Класс K

Данный класс включает в себя самое большое количество подклассов. И это объяснимо, потому что K- класс – это внедорожники. А у них между собой имеется множество различий.

Так К1 – это легкие «паркетники», которые только с виду выглядят, как настоящий внедорожник, а на деле увязнут в первой попавшейся луже.

K2 – среднеразмерные внедорожники, к числу которых можно отнести, как рамные автомобили, так и машины без рамы. Они универсальны в плане местности, по которой на них можно ездить. Для города они, конечно, великоваты, но опытны водитель справится. А в сельской местности точно не застрянут.

К3 – тяжелые внедорожники, предназначенные для серьезного внедорожья. В качестве примера можно привести «Джип Гранд Чероки», «Шевроле Субурбан», «Хаммер». Впрочем, на всех перечисленных автомобилях ездят и в городе.

К4 – пикапы. Пикапы очень удобны для эксплуатации в сельской местности. В России идет волна роста популярности пикапов. Наверное, одним из самых популярных на данный момент является «Митсубиси Эль 200». Страшная на вид, но очень функциональная машина.

Класс L

К этому классу относятся минивэны. Они очень популярны в Америке, так как могут иметь от 7 до 13 мест, и очень удобны для семейного отдыха, семейных поездок. В России, в связи с программами повышения рождаемости, многие семьи тоже начинают интересоваться подобными машинами. Производители у таких автомобилей разные. В качестве примеров, можно назвать «Форд Гэлекси», «Фольксваген Шаран» и другие.

Класс M

К этому классу относят «башмаки» и «пирожки». То есть, легковые машины, которые предназначены для коммерческой перевозки грузов в рамках города. Они проедут там, где грузовикам проезд запрещен или недоступен, в силу габаритов.

Стоит отметить, что маркетологи ведут активную деятельность по изобретению новых классификаций, или добавлению новых пунктов в стандартные классификации. Таким образом, как бы, расширяется возможность выбора у потребителя. Но это, надо понимать, иллюзия. Чтобы не погружаться в мир иллюзий, автомобильные журналисты разработали свою упрощенную классификацию авто.

Журналистская классификация авто

  1. Малолитражки – автомобили европейских классов A и B. Компактные, экономичные, идеальные для езды по городу, маневрирования в городских потоках и т.п.
  2. Эконом-класс – европейские классы С и частично D. Более-менее комфортные и вместительные машины, способные вести людей и грузы как в черте города, так и за городом. Дополнительными устройствами, как правило, не снабжены. Главный принцип дизайна салона – чем проще, тем лучше.
  3. Средний класс – сегмент европейских D и Е классов.
  4. Бизнес-класс – часть автомобилей E и D классов, которые имеют комфортный салон и богатое техническое оснащение.
  5. Премиум-класс – соответствует европейскому F-классу.
  6. Паркетник – автомобиль класса Н, без рамы, предназначенный для езды по городу.
  7. Внедорожник – как правило, рамный автомобиль, предназначенный, как для города, так и для езды за городом.
  8. Кабриолет.
  9. Купе.
  10. Лимузин.

Особенности классификации авто в некоторых странах

Не во всех странах учитывают размер и комфорт авто при классификации моделей. Так, в Испании и во Франции автомобили делят на классы, исходя из мощности двигателя. Дело в том, что именно с количества лошадиных сил взимается налог.

В Северной Америке всегда важна была длина колесной базы, а также объем салона.

В Японии машины классифицируют, исходя из их длины и объема двигателя. Но классов всего три: легкий, класс автомобилей до 4,7 метра в длину и класс авто более 4,7 метра в длину.

В остальных странах всё довольно стандартно, без особенностей. Однако, хотелось бы еще описать системы классификации авто в США и СССР.

Исторические особенности классификации авто в США

В США, как всегда, пошли своим путем, что, нужно сказать, вызывало и вызывает иногда некоторые проблемы.

В Соединенных первоначально не было четкого деления на классы. Там ориентировались на марку машины, а исходя из марки, на её стоимость. Самым наглядным примером классификации машин в США стала ситуация с «Тойотой». Машины этой японской марки не считалась в Америке автомобилями «премиум-класса», поэтому «Тойоте» пришлось разработать бренд «Лексус». «Тойоты» по высокой цене «Лексуса» никто бы не купил – дорого за средний класс, а вот «Лексусы» брали и берут охотно. Странно, но тем не менее.

После появления компактных авто, классификация машин в США более-менее стала соответствовать европейской.

Классификация авто в СССР

Чтобы определить класс большинства автомобилей в СССР, нужно посмотреть на название марки и модели и сопоставить их с «формулой» <Название завода>—abcd, где а класс автомобиля, b – тип авто, с и d – порядковые номера модели.

Для наглядности: автомобиль «ОКА» — это ВАЗ-1111. Особо малый легковой автомобиль 11-ой модели производства завода «ВАЗ».

Всего в СССР было 5 классов:

  1. особо малый;
  2. малый;
  3. средний;
  4. большой;
  5. высший.

Нужно отметить, что подобная классификация сохраняется, частично, до сих пор.

Классификация ACRISS автомобилей, предоставляемых в аренду. Расшифровка СИПП-кодов

11.06.2014

Крупные международные компании имеют внушительное число машин в автопарке. Чтобы клиент быстрее мог отыскать подходящий вариант, Международная ассоциация авто-прокатных компаний ввела единый стандарт классификации таких машин на основе технических характеристик.

На основе данного стандарта, который получил название ACRISS (The Association of Car Rental Industry Systems Standards), мировые компании устанавливают цены на соответствующие классы автомобилей, а также порядок предоставления автомобиля, подобного заказанному, в случае замены. Автомобиль получает обозначение из четырех букв, например, PFAR, SVAR и т.д.

Первая буква обозначает класс авто, здесь возможны следующие варианты:

  • M — мини (Mini),
  • Е — эконом (Economy),
  • С — компакт (Compact),
  • F — полноразмерный (Fullsize),
  • S — стандарт (Standard),
  • I — среднийкласс (Intermediate),
  • P — премиум (Premium),
  • L — люкс (Luxury),
  • O — крупногабаритный (Oversize)
  • X — особый (Special)

Вторая буква в обозначении отвечает за тип кузова машины:

  • B — двухдверный
  • C — двух- или четырехдверный
  • D — четырехдверный
  • F — полноприводный
  • J — внедорожник
  • W — универсал
  • L — лимузин
  • V — микроавтобус
  • P — пикап

Третья буква обозначает тип коробки передач и привод машины:

  • M — Manual, (механическая)
  • A — Automatic (автоматическая)

Четвертая – тип топливной системы и присутствие кондиционера:

  • R — с кондиционером
  • N — без кондиционера

Классификация ACRISS

Более полная классификация и расшифровка букв в ACRISS представлена на рисунке:

Таким образом, автомобиль с обозначением SDAR — это машина класса стандарт, 4-дверная, с автоматической коробкой передач, кондиционером. С помощью данной классификации Вы легко сможете подобрать машину в аренду на свой вкус, а главное, АвтоПрофи гарантированно предоставит Вам на прокат автомобиль выбранного класса.

Ссылки по теме:


Классификация автомобилей | | RoadRage.ru

Простой способ определения особенностей и технических параметров автомобилей. Международная классификация подразделяет автомобили на классы, такие как: A, B, C и так далее. Впервые данная символика использовалась в Европе, тогда часто её применяли корреспонденты для классификации машин по характеристикам, а по истечении времени и сами производители начали пользоваться данной классификацией.

Современная Европейская буквенная автомобильная классификация – А…F. Рассмотрим все эти классы по отдельности.

Класс «A»

К этому классу относятся малогабаритные транспортные средства, которые часто называются малометражками или super-mini. Из-за своего компактного вида эти автомобили предпочитают представительницы слабого пола. На них удобно передвигаться в плотном городском потоке. Предельная вместимость – 2…3 пассажира. Автомобили класса А комплектуются двигателями объемом до 1,2-литров, они отличаются малой мощностью и потребляют небольшое количество горючего. Представители этого класса: DaewooMatiz, KiaPicanto, Smart, ChevroletSpark.

Класс «B2»

Данный класс является популярным – автомобили оснащаются более мощными двигателями. Объёмы движка составляет 1,2…1,6 литра. В салон могут поместиться 4…5 человек. Представители: FordFusion, Audi-А1, ChevroletAveo, VolkswagenPolo.

Класс «C»

Буквой «С» обозначается средний класс автомобилей. Первым представителем этого класса стал хетчбэк Volkswagen Golf. В Европе данная категория автомобилей считается самой популярной. В салон вмещается 5 человек. Как правило, машины оборудованы объёмным багажником. К этому классу относятся: VolkswagenGolf, ToyotaCorolla, MitsubishiLancer.

Класс «D»

Автомобили, имеющие средние технические характеристики, классифицируются буквой «D». Они идеальны для эксплуатации, предусматривающей перевозку грузов, обладают вместительными багажниками, на дороге хорошо управляемы. Объём двигателя может составлять 2…2,5 литра. К представителям этого класса относятся: MercedesBenz С-Class, AlfaRomeo-159, BMW 3 Series.

Класс «E»

Транспортные средства класса E (бизнес-класс) часто предпочитают предприниматели. Автомобили оснащаются хорошей звукоизоляцией, кондиционером с возможностью персональной настройкой температуры охлаждения салона, а также другим функционалом, удовлетворяющим потребности автовладельца. Объём двигателя более 2,4 л. Представители: OpelOmega, Lexus-ES, CadillacCTS.

Класс «F»

К классу F принадлежат дорогостоящие эксклюзивные автомобили. Длина таких авто может достигать порядка 5-ти метров. К этому классу относятся: Audi А-8, Porsche, Ferrari.

от СССР до самой современной

Автолюбителям постоянно приходится сталкиваться с самой разной классификацией автомобилей, разобраться в которой удается далеко не с первого раза. Причина заключается в том, что сегодня в мире не существует единой классификации легковых автомобилей, которой мог бы пользоваться каждый. Стоит отметить, что для каждой классификации используется свой подход, который может включать массу, габариты или даже мощность двигателя. Сегодня мы собираемся познакомить вас с наиболее распространенными типами классификации автомобилей, которые использовались еще при СССР и распространены сегодня в Европе.

1. Классификация авто в СССР: в чем ее особенности и как ее правильно трактовать?

Сегодня самой распространенной считается классификация легковых автомобилей, основанная на размере их кузова. Однако еще во время существования и развития советского автопрома было принято полагаться на объем двигателя, который устанавливался на автомобиль. В результате было выделено 5 категорий, в которые попадали все машины:

1. Автомобили особо малого класса, объем двигателя которых не превышал 1,2 литра.

2. Малый класс авто характеризовался максимальным объемом в 1,8 литра.

3. К среднему классу относились те машины, объем двигателя которых составляет не больше 3,5 литров.

4. Большой класс автомобилей в СССР был представлен транспортными средствами с двигателем объемом до 3,6 литров.

5. Самый высший класс автомобилей по сути не регламентировался. Но логично, что объем их двигателей составлял больше 3,6 литров.

К слову, вышеприведенный список был нами пронумерован не просто так. Все номера, которые стоят напротив описания, являются цифровым обозначением каждого класса автомобиля, который использовался в СССР. Все мы знаем, что модели советских автомобилей имели специальный цифровой код. Так вот, на первом месте в нем обязательно стояла цифра, обозначающая класс автомобиля, о котором идет речь.

Рассмотрим специфику классификации автомобилей в СССР на примере ВАЗ-2109. Нетрудно догадаться, что это автомобиль второго малого класса, объем двигателя которого колеблется от 1,3 до 1,8 литра. Если среди нас есть почитатели или просто знатоки автомобилей ВАЗ, то вы наверняка сделали вывод, что данный концерн не выпускал автомобили других классов. Примером авто третьего класса является ГАЗ-31029 с объемом двигателя до 3,5 литров.

Что же касается всех остальных цифр в обозначении советских моделей авто, то никакой полезной информации они по сути не несут. После первой цифры в обозначении всегда использовалась единица, а вслед за ней порядковые номера разработки конкретного автомобильного завода.

2. Европейская система классификации автомобилей.

Данная система сегодня является наиболее распространенной, поэтому с ней должен быть ознакомлен каждый автомобилист (особенно, если он собирается покупать новое авто). В эту классификацию включено сразу 6 классов автомобилей, которые обозначаются буквами английского алфавита. Стоит отметить, что эта классификация не всегда соответствует действительности. Зачастую ее применяют как исключительно маркетинговый ход для увеличения продаж автомобилей.

«А» класс – очень малогабаритные или же самые компактные автомобили

Речь идет о наиболее малых автомобилях, длина кузова которых не превышает даже 3,6 м. Из-за своих компактных размеров эти автомобили предназначены для эксплуатации преимущественно в городских условиях, так как они обладают низкой посадкой, не позволяющей осуществлять передвижение по проселочной дороге.

«А» класс – это автомобили советского периода, которые по «отечественной» классификации относятся к самому первому классу с объемом двигателя 1,2 литра. Речь идет об машине ВАЗ-1111 и «Ока». Не менее популярной машиной «А» класса на наших просторах является Daewoo Matiz. Определить такое авто по внешнему виду несложно:

— зачастую такая машина имеет всего 3 двери, хотя конструкторы умудрились создать и 5-дверные;

— по типу корпуса такие авто представляют из себя хэтчбек с достаточно вместительным багажником, который составляет с салоном практически одно целое;

— идеальное авто для передвижения в одиночку или всего с одним пассажиром.

Выбирают для себя автомобили «А» класса в основном таксисты, курьеры, девушки, небогатые студенты (если речь, конечно же, идет о западных странах и США), а также дачники, которые любят совершать одиночные поездки. Что же касается технических характеристик таких авто, то они редко могут дотянуть хотя бы до середины. Тем не менее, обслуживание машин «А» класса обходится дешевле всего, что можно считать еще одним их преимуществом. К тому же, на двигателе малой мощности и малый расход топлива, о чем не стоит забывать при осуществлении покупки.

«В» класс – категория малогабаритных автомобилей

Длина кузова таких автомобилей достигает 4,2 метра, а ширина — около 1,7. Этот автомобиль также может быть представлен только тремя дверьми, хотя все же чаще среди «В» класса встречаются и 5-дверные.

Данному классу чаще присущ тип кузова хэтчбек, хотя некоторые седаны и универсалы также занимают позицию малогабаритных автомобилей. Чтобы вы могли себе представить, что такое автомобиль категории «В», можете подробно изучить модели Volkswagen Polo (Classic), Skoda Felicia, Toyota Yaris (Verso) – все они представители именно этого класса.

Такое авто является более универсальным, поскольку здесь присутствует более мощное техническое оснащение и хорошая динамичность кузова. Высокая посадка позволяет выезжать на машинах «В» класса даже на проселочные дороги. Со скоростью в 150 км/ч расход двигателя такого транспортного средства (его мощность равна всего 60-70 л.с.) будет составлять всего лишь от 5 до 10 литров.

Авто «В» класса даже могут подойти для путешествий, хотя для четырех людей в нем будет немного тесновато. Если же отправляться только вдвоем, то и в салоне и в большом багажнике найдется достаточно много место для багажа. На наших дорогах практически четверть автомобилей относятся именно к «В» классу. Зачастую их выбирают женщины.

«С» класс – нижний средний

Вот мы, наконец-то, и добрались до класса, который больше всего предпочитают европейцы. Несмотря на достаточно низкую мощность, такое авто уже хоть что-то из себя представляет. Внутри этого класса можно выбрать как седан или хэтчбек, так и универсал. Взирая на популярность таких автомобилей, среди них можно выбрать модель с любым удобным для вас приводом.

Но стоит отметить, что по критериям комфорта, мощности, вместительности и допустимой скорости внутри класса существует очень большой разброс. То есть то, что этот класс европейцы называют «ниже среднего», в целом не имеет отношения к действительным его характеристикам. Учитывая мощность около 75 л.с. и возможность набирать скорость до 180 км/ч, расход такого автомобиля составляет всего 6-9 литров, что уже указывает на выгоду иметь такое авто.

Как отмечают специалисты, потребительские характеристики автомобилей «С» класса практически отвечают всем требованиям следующего по рангу класса «D», хотя технически параметры не покидают свой класс. Среди автомобилей российского производства в этот класс попадает Лада Приора, а среди «иномарок» – Mercedes А-Class, Audi A3, Daewoo Nexia, Hyundai Accent, Ford Focus, FIAT Brava, Opel Astra, Honda Civic, Peugeot 306, Volkswagen Bora, Toyota Corolla.

«D» класс – средний

Если для Европы это средний класс, то на наших просторах кататься на таком авто – это очень престижно. 4-5 дверей, небольшой, но достаточно вместительный багажный отдел, кузов типа хэтчбек, универсал или седан – это все делает автомобили «D» класса такими же популярными, как и два предыдущих класса данной классификации.

Стоит отметить, что «D» класс также подразделяется на базовый и элитный. Последний отличается наличием большого количества расширенных возможностей, за которые, конечно же, приходится доплачивать. Но зато в таком авто не стыдно ездить деловым людям, которые являются обладателями успешного бизнеса. Что касается технических характеристик таких автомобилей, то их мощность составляет не более 90 л.с., что, впрочем, не так уж и мало. С максимальной скоростью 190 км/ч такие автомобили расходуют 8-12 литров горючего.

Среди наиболее популярных представителей «D» класса стоит назвать такие модели, как Skoda Octavia, Mazda 626, Honda Accord, Toyota Avensis, Subaru Legacy, Renault Laguna, Hyundai Elantra, Mitsubishi Carisma, Nissan Primera, Volkswagen Passat, Peugeot 406.

«Е» класс – самый высокий среди средних

Хотя такие авто имеют незаурядные габариты, по своим техническим и потребительским характеристикам это очень «навороченные» автомобили, позволить которые может себе далеко не каждый автолюбитель. Очень вместительный салон с кузовом типа седан или же универсал. Хэтчбеки среди таких авто практически не встречаются.

С объемом двигателя в 2 литра такие автомобили обладают мощностью до 140 л.с. и могут развивать предельную скорость до 200 км/ч. Расход бензина при этом может быть даже ниже, чем у предыдущего класса – всего 7-11 литров.

К базовым представителям «Е» класса принято относить автомобили Audi А6, Toyota Camry и даже BMW-5. На таких автомобилях мы привыкли видеть очень состоятельных бизнесменов и представителей власти.

«F» класс – представительский

Не просто качественные и надежные автомобили, но и достаточно дорогие, поэтому спрос на них среди украинских потребителей не такой уж и высокий. В таком автомобиле гармонично соединяются между собой и комфорт, и безопасность, и роскошь, к чему с большим взысканием относятся состоятельные автолюбители.

По типу кузова — это исключительно седаны, среди которых самыми популярными моделями являются Jaguar XJ8, Audi A8, Mercedes-Benz S, Lexus LS430, BMW 8. В отношении технических характеристик превзойти «F» класс практически невозможно: 300 л.с., двигатель 3 л, разгон до 100 км/ч всего за каких-то 8 секунд. Хотя расход топлива в этом случае не радует – до 14 л. В целом, для людей, которые могут позволить приобрести для себя такое авто, такой расход совершенно ничего не значит.

Автомобили, которые «пролетели» мимо классификации

Как вы наверняка и сами заметили, мы не упомянули в вышеприведённой европейской классификации автомобилей транспортные средства, которые имеют тип кузова минивэн, внедорожник, купе и кабриолет. По определенным характеристикам эти автомобили невозможно «смешать» с привычными «легковушками», поэтому их принято рассматривать как отдельные категории. Тем не менее, внутри каждого типа таких автомобилей можно отыскать вариант, который по техническим характеристикам не будет ничем уступать даже самому престижному представительскому классу.

3. Прочие системы, которые используются для классификации автомобилей.

Несмотря на то, что выше мы уже ознакомили вас с самой популярной классификацией автомобилей, которая используется в Европе, в таких странах как Франция и Испания сегодня принято применять несколько иную классификацию. Основным критерием для классификации машин в этих странах является их мощность и экологичность, что упрощает государственным органам взыскивать с автолюбителей налоги.

Что же касается США, то раньше в этой стране в качестве критерия для определения класса автомобиля выступала длина колесной базы. Сегодня же отнести машину к тому или иному классу можно только после измерения полезного пространства внутри салона.

Был период, когда в США престижность автомобиля определялась тем, какую позицию занимает концерн-производитель. По этой причине японская Toyota очень долгий период времени не воспринималась американскими покупателями как дорогой и представительский автомобиль, вследствие чего его производителям пришлось выпустить на рынок новый Lexus.

Но все же, ориентироваться исключительно на класс при покупке автомобиля не стоит. Лучше внимательно изучить его характеристики, чтобы автомобиль действительно соответствовал вашим личным предпочтениям, а не представлениям о нем неосведомленных потребителей. Иногда достаточно мощный автомобиль маркетологи по тем или иным причинам могут опустить до самого нижнего класса.

Подписывайтесь на наши ленты в таких социальных сетях как, Facebook, Вконтакте, Instagram, Pinterest, Yandex Zen, Twitter и Telegram: все самые интересные автомобильные события собранные в одном месте.

Механизм и машина. Классификация машин



из «Детали машин Издание 2 »

Система искусственно соединенных элементарных тел (звеньев) для передачи заданных движений называется механизмом (криво-шипно-ползунный, кулисный, кулачковый, фрикционный и пр.). [c.6]
Механизм, предназначенный для преодоления сил полезного сопротивления, преобразования энергии, запрограмированного контроля или логического решения, называется машиной. [c.6]
Механизмы, предназначенные для передачи движения от машины-двигателя к машине-орудию или генератору, называются передаточными (фрикционные, ременные, цепные, зубчатые и другие передачи). [c.6]
Передаточный механизм является составной частью не только машинного агрегата, но и подавляюш,его большинства отдельно взятых машин. [c.7]
Так как машина состоит из последовательно соединенных звеньев, выполняющих заданные движения, то любую машину можно назвать механизмом. Однако не всякий механизм может быть назван машиной. Так, часы, весы, измерительные приборы и другие механизмы не предназначены для преодоления сил полезного сопротивления или преобразования одного вида энергии в другой, поэтому они не могут быть включены в категорию машин. [c.7]
Цель и задачи курса, его связь с другими дисциплинами. [c.7]
Целью курса Детали машин является развитие инженерного мышления с точки зрения изучения и совершенствования современных методов, правил и норм расчета и конструирования (проектирования) деталей и сборочных единиц машин общего назначения (болты, гайки, валы, зубчатые колеса, подшипники и др.). [c.7]
Задачи курса Детали машин —привить навыки расчета и конструирования типовых деталей и сборочных единиц машин о цего назначения, научить рационально выбирать материал и форму деталей, правильно назначать степень точности и качество обработки поверхностей, выполнять расчеты на прочность, жесткость, устойчивость, износостойкость и т. д., исходя из заданных условий работы деталей в машине. [c.7]
Курс Детали машин тесно связан с рядом общетехнических и общеобразовательных предметов математикой, которая дает законы и правила действий над постоянными и переменными величинами, указывает количественные соотношения между элементами фигур и тел (длин, площадей и объемов), воспитывает и прививает строгость и последовательность аналитического мышления физикой, освещающей основные законы природы и знакомящей с общими правилами и методами эксперимента теоретической механикой и теорией механизмов и машин, правила и законы которых позволяют определять действующие на деталь силы и законы движения деталей сопротивлением материалов, позволяющим рассчитывать детали на прочность, жесткость и устойчивость материаловедением технологией металлов и неметаллических материалов, сообщающих необходимые сведения о рациональном выборе материала детали и методах ее изготовления техническим (машиностроительным) черчением, дающим правила и законы оформления чертежей конструкций машин, отдельных деталей и сборочных единиц на листе бумаги. [c.8]
СТ СЭВ 364-76 устанавливает следующие виды изделий деталь, сборочная единица, комплексы, комплекты. Указанные изделия в зависимости от наличия или отсутствия в них составных частей делят на неспецифицированные, т. е. не имеющие составных частей (детали), и специфицированные, состоящие из двух (и более) составных частей (сборочные единицы, комплексы или комплекты). В этом стандарте даны также и определения видов изделий. [c.8]
Изделие, изготовленное из однородного материала, без применения монтажных и сборочных операций, называется деталью. Например, винт, болт, гайка, шуруп, вал, шкив, зубчатое колесо, литой корпус, отрезок проволоки, коробка, склеенная из одного куска картона, и т. д. [c.8]
Изделие, состоящее из нескольких частей (деталей), соединенных между собой сборочными операциями, называется сборочной единицей. Например, муфта, подшипник, редуктор, коробка перемены передач, сварной корпус и т.д. При необходимости к сборочной единице можно также отнести и совокупность сборочных единиц или деталей, имеющих общее функциональное назначение. Например, готовальня, комплект замка, электрооборудование автомобиля, мотоцикла, самолета, станка и т.д. [c.8]
Два (и более) специфицированных изделия, не соединенных сборочными операциями, но предназначенных для выполнения взаимосвязанных эксплуатационных функций, называется комплексом. Например, несобранные бурильная установка, телефонная станция, поточная линия и т. д. [c.8]
Два (и более) изделия, не соединенные сборочными операциями и представляющие набор изделий вспомогательного характера, называются комплектом. Например, комплект запасных частей, комплект инструмента и принадлежностей, комплект измерительной аппаратуры и т. д. [c.8]
Детали (сборочные единицы) общего назначения для передачи энергии при вращательном движении—валы, оси, муфты, зубчатые колеса, червяки, фрикционные катки, шкивы, звездочки, цепи, ремни и т. д. для передачи заданного движения или силы от одной детали к другой — соединительные детали (шпонки, штифты, болты, винты, гайки и др.) и соединения (сварные, заклепочные, клеевые, клиновые, шлицевые, шпоночные и др.). [c.9]
Детали (сборочные единицы) специального назначения шатуны, кривошипы, коленчатые валы, поршни, кулисы, коромысла, кулачки, эксцентрики, маховики, рессоры, лопатки и диски турбин, рельсы, блоки, крюки и т. д. [c.9]
Роль стандартизации и унификации в машиностроении. [c.9]
Установление обязательных норм, правил, параметров, технических и качественных характеристик, которым должны соответствовать изделия, называется стандартизацией. [c.9]
Подавляющее большинство продукции, выпускаемой промышленными и народнохозяйственными предприятиями СССР, стандартизовано. Например, болты, винты, рельсы, подшипники, шурупы, муфты, цепи и т. д. должны отвечать требованиям определенного государственного стандарта—ГОСТа (до 1940 г. действовали ОСТы— общесоюзные стандарты). [c.9]

Вернуться к основной статье

Классификация и комплексы машин для очистки и сортирования зерна.

По назначению зерноочистительные машины делятся на две группы: общего назначения и специального.
Машины общего назначения предназначены для первичной и вторичной очистки и сортирования семян зерновых технических, бобовых культур и трав.
Машины специального назначения (электромагнитные, пневматические сортировальные столы и т.п.) используют для дополнительной и специальной доработки зерна.
По принципу действия и составу рабочих органов машины общего назначения бывают четырех типов: воздушные, воздушно-решетные, триерные и воздушно-решетно-триерные.
Воздушно-решетные машины предназначены для предварительной очистки и частичного сортирования зерна после обмолота комбайнами и молотилками.
Основные рабочие органы таких машин — решетная и воздушная части. Кроме того, они снабжены устройствами для загрузки.
Воздушно-решетно-триерные — сложные машины, предназначенные для очистки и сортирования семян зер-новых, зернобобовых, технических и других культур, используемых для посева и продовольственных целей. Основные рабочие органы таких машин — триеры и воздушно-очистительное устройство, а также система загрузки и выгрузки семян.
По способу передвижения машины бывают стационарными или передвижными. Последние могут иметь соб-ственный двигатель, тогда их называют самопередвижными.
Производительность воздушных зерноочистительных машин составляет 10…20, воздушно-решетных — 1,25…2,0, триерных — 1,25…10, воздушно-решетно-триерных — 3,75…4,5 т/ч. Меньшие значения соответствуют обработке семенного материала, большие — обработке продовольственного зерна и первичной очистке семенного материала.
Комплекс машин: для различных зон страны созданы комплексы машин и оборудования зерноочистительных и зерноочистительно-сушильных пунктов различной производительности. В качестве примера назовем комплексы машин и оборудования для стационарных агрегатов типа АЗС и ЗАВ и для стационарных зерноочистительно-сушильных пунктов типа КЗС, а также семяочистительные приставки, нории, триерные блоки, универсальные машины и т.д.
Самопередвижная машина вторичной очистки семян МС-4,5 предназначена для очистки зерновых, зернобобовых, технических и масличных культур, семян трав. МС-4,5 работает на открытых токах или складских помещениях во всех климатических зонах страны. Основные части машины (рис. 3.1): загрузочный скребковый транспортер 1 со шнековыми питателями, решетный стан 2, воздушно-очистительная часть 3, однопо-точная нория 4, триерные цилиндры 5, вибролоток, механизм передвижения, отгрузочный ленточный транспортер 6.
Загрузочный транспортер собран из наклонного скребкового транспортера и двух Т-образно расположенных шнековых питателей, соединенных с нижней головкой загрузчика. Ширина захвата транспортера составляет 3350 мм.
При движении машины вдоль вороха шнековые питатели захватывают зерновой материал и подводят к подъемной трубе загрузчика, который подает его в распределительный шнек. Шнек распределяет зерновой материал по ширине и подает его в воздушный канал первой аспирации, где восходящий поток воздуха выносит в отстойную камеру легкие примеси (солому, легкие колосья, головки сорняков и т.д.), которые выходят через приемник 1.
Рис. 3.1. Технологическая схема работы машины МС-4,5:
1 — скребковый транспортер; 2 — решетный стан; 3 — воздушно-очистительная часть; 4 — нория; 5 — триерные цилиндры; 6 — ленточный транспортер
Пройдя очистку в канале первой аспирации, материал поступает на решето Б1 решетного стана, на котором вся зерновая смесь делится на две приблизительно равные части (фракции).
Материал, прошедший через решето Б1, содержит часть зерна с мелкими примесями, которые выделяются на подсевном решете В и далее на сортировальном решете Г. Материал, прошедший через решето В, содержит мелкие минеральные примеси и сорняки. Он выходит из машины через приемник П.
Сход с решета В поступает на сортировальное решето Г.
Сход с решета Б1, содержащий зерно преимущественно с крупными примесями, поступает на решето Б2, на котором сходом выделяются крупные примеси, а зерно с оставшимися мелкими примесями через решето Б2 поступает на решето Г.
Материал, прошедший через решето Г, содержит в основном мелкое и дробленое зерно и выводится по желобу в приемник III. Сход с решета Г представляет собой очищенный материал, который подается далее в воздушный канал второй аспирации, где восходящий поток воздуха выносит во вторую отстойную камеру оставшиеся легкие примеси и щуплое зерно.
Далее зерновой материал вибролотком подается в рабочую ветвь нории, которая транспортирует зерно в верхний триерный цилиндр, выделяющий короткие примеси. Короткие примеси перебрасываются в лоток, из которого шнеком подаются в приемник V, откуда выводятся наружу вместе с длинными примесями.
Очищенное от коротких примесей зерно самотеком направляется в триерный цилиндр длинных примесей. Зерно забирается ячейками триера и направляется в желоб, откуда шнеком подается в транспортер 6, а длинные примеси сходом идут в приемник VI. При очистке материала без триеров следует переключить заслонку режима работы в верхней головке элеватора. Тогда зерно выводится на транспортер 6.
При очистке вороха, у которого длина частиц основного материала (например, овса) больше длины остальных примесей, сходом с овсюжного цилиндра пойдет основной материал, а в лоток будут выводиться примеси.
Машина оснащена механизмом самопередвижения. Производительность машины 4,8 т/ч, масса 2,2 т. Мощность установленных электродвигателей 7,4 кВт. Машину обслуживают два человека: механик и рабочий.

4 типа классификационных задач в машинном обучении

Последнее обновление 19 августа 2020 г.

Машинное обучение — это область исследований, которая занимается алгоритмами, которые учатся на примерах.

Классификация — это задача, которая требует использования алгоритмов машинного обучения, которые учатся назначать метку класса примерам из предметной области. Простой для понимания пример — это классификация писем как « спам » или « не спам ».

Существует множество различных типов задач классификации, с которыми вы можете столкнуться в машинном обучении, и специальные подходы к моделированию, которые можно использовать для каждой из них.

В этом руководстве вы познакомитесь с различными типами прогнозного моделирования классификации в машинном обучении.

После прохождения этого руководства вы будете знать:

  • Прогностическое моделирование классификации включает в себя присвоение метки класса входным примерам.
  • Двоичная классификация относится к предсказанию одного из двух классов, а мультиклассовая классификация предполагает предсказание одного из более чем двух классов.
  • Классификация с несколькими метками включает в себя прогнозирование одного или нескольких классов для каждого примера, а несбалансированная классификация относится к задачам классификации, в которых распределение примеров по классам неодинаково.

Начните свой проект с моей новой книги «Мастерство машинного обучения с Python», включающей пошаговых руководств и файлов исходного кода Python для всех примеров.

Приступим.

Типы классификации в машинном обучении
Фото Рэйчел, некоторые права защищены.

Обзор учебного пособия

Это руководство разделено на пять частей; их:

  1. Классификация Прогнозное моделирование
  2. Двоичная классификация
  3. Мультиклассовая классификация
  4. Классификация нескольких этикеток
  5. Несбалансированная классификация

Классификация Прогнозное моделирование

В машинном обучении классификация относится к задаче прогнозного моделирования, когда метка класса прогнозируется для данного примера входных данных.

Примеры проблем классификации:

  • Рассмотрим пример, классифицируйте, является это спам или нет.
  • Дан рукописный символ, классифицируйте его как один из известных символов.
  • С учетом недавнего поведения пользователей, классифицировать как отток или нет.

С точки зрения моделирования для классификации требуется обучающий набор данных с множеством примеров входных и выходных данных, из которых можно учиться.

Модель будет использовать обучающий набор данных и вычислит, как лучше всего сопоставить примеры входных данных с конкретными метками классов.Таким образом, обучающий набор данных должен быть достаточно репрезентативным для проблемы и иметь много примеров каждой метки класса.

Метки классов часто представляют собой строковые значения, например « спам », « не спам » и должны быть сопоставлены с числовыми значениями перед предоставлением алгоритму моделирования. Это часто называют кодированием метки, когда каждой метке класса присваивается уникальное целое число, например « спам » = 0, « без спама » = 1.

Существует много различных типов алгоритмов классификации для моделирования задач прогнозного моделирования классификации.

Нет хорошей теории о том, как отображать алгоритмы на типы задач; вместо этого, как правило, рекомендуется, чтобы практикующий проводил контролируемые эксперименты и выяснял, какой алгоритм и его конфигурация дают наилучшие результаты для данной задачи классификации.

Алгоритмы прогнозного моделирования классификации оцениваются на основе их результатов. Точность классификации — это популярный показатель, используемый для оценки производительности модели на основе предсказанных меток классов.Точность классификации не идеальна, но это хорошая отправная точка для многих задач классификации.

Вместо меток классов для некоторых задач может потребоваться прогнозирование вероятности членства в классе для каждого примера. Это обеспечивает дополнительную неопределенность в прогнозе, который затем может интерпретировать приложение или пользователь. Популярной диагностикой для оценки предсказанных вероятностей является кривая ROC.

Есть, пожалуй, четыре основных типа задач классификации, с которыми вы можете столкнуться; их:

  • Двоичная классификация
  • Мультиклассовая классификация
  • Классификация нескольких этикеток
  • Несбалансированная классификация

Давайте рассмотрим каждый по очереди.

Двоичная классификация

Двоичная классификация относится к тем задачам классификации, которые имеют две метки класса.

Примеры включают:

  • Обнаружение спама в электронной почте (спам или нет).
  • Прогноз оттока (отток или нет).
  • Прогноз конверсии (покупать или нет).

Обычно задачи двоичной классификации включают один класс, который является нормальным состоянием, и другой класс, который является ненормальным состоянием.

Например, « не спам, » — нормальное состояние, а « спам » — ненормальное состояние.Другой пример: « рак не обнаружен » — это нормальное состояние задачи, которая включает медицинский тест, а « рак обнаружен » — ненормальное состояние.

Классу для нормального состояния присваивается метка класса 0, а классу с ненормальным состоянием назначается метка класса 1.

Обычно для моделирования задачи двоичной классификации используется модель, которая предсказывает распределение вероятностей Бернулли для каждого примера.

Распределение Бернулли — это дискретное распределение вероятностей, которое охватывает случай, когда событие будет иметь двоичный исход как 0 или 1.Для классификации это означает, что модель предсказывает вероятность принадлежности примера к классу 1 или ненормальному состоянию.

Популярные алгоритмы, которые можно использовать для двоичной классификации, включают:

  • Логистическая регрессия
  • k-Ближайшие соседи
  • Деревья решений
  • Машина опорных векторов
  • Наивный Байес

Некоторые алгоритмы специально разработаны для двоичной классификации и изначально не поддерживают более двух классов; примеры включают логистическую регрессию и машины опорных векторов.

Далее, давайте более подробно рассмотрим набор данных, чтобы развить интуицию при решении задач двоичной классификации.

Мы можем использовать функцию make_blobs () для создания набора данных синтетической двоичной классификации.

В приведенном ниже примере создается набор данных из 1000 примеров, которые принадлежат одному из двух классов, каждый с двумя входными объектами.

# пример задачи бинарной классификации из импорта numpy, где из коллекций счетчик импорта из склеарна.наборы данных импортируют make_blobs из matplotlib import pyplot # определить набор данных X, y = make_blobs (n_samples = 1000, центры = 2, random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # построить набор данных и раскрасить метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] пиплот.разброс (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

1

2

3

4

5

6

7

8

9

10

11

12

13

140002

18

19

20

21

# пример задачи двоичной классификации

из импорта numpy, где

из импорта коллекций Counter

из sklearn.datasets import make_blobs

from matplotlib import pyplot

# define dataset

X, y = make_blobs (n_samples = 1000, center = 2, random_state = 1)

# summarize dataset shape

print (X.shape). shape)

# суммировать наблюдения по метке класса

counter = Counter (y)

print (counter)

# суммировать первые несколько примеров

для i в диапазоне (10):

print (X [i], y [i])

# построить набор данных и раскрасить метку по классам

для метки, _ в счетчике.items ():

row_ix = where (y == label) [0]

pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

pyplot.legend ()

pyplot.show ()

При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

Затем суммируется распределение меток классов, показывающее, что экземпляры принадлежат либо классу 0, либо классу 1, и что в каждом классе имеется 500 примеров.

Затем суммируются первые 10 примеров в наборе данных, показывая, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе.

(1000, 2) (1000,) Счетчик ({0: 500, 1: 500}) [-3,05837272 4,48825769] 0 [-8.60973869 -3.72714879] 1 [1.37129721 5.23107449] 0 [-9,333 -2,9544469] 1 [-11,57178593 -3,85275513] 1 [-11,42257341 -4,85679127] 1 [-10,44518578 -3,76476563] 1 [-10.44603561 -3,26065964] 1 [-0,61947075 3,48804983] 0 [-10.591 -4.5772537] 1

(1000, 2) (1000,)

Счетчик ({0: 500, 1: 500})

[-3.05837272 4.48825769] 0

[-8.60973869 -3.72714879] 123

1 [1.3 5,23107449] 0

[-9,333 -2,9544469] 1

[-11,57178593 -3,85275513] 1

[-11,42257341 -4,85679127] 1

[-10.44518578 -3.76476563] 1

[-10.44603561 -3.26065964] 1

[-0.61947075 3.48804983] 0

[-10.591 -4.5772537] 1

Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

Мы видим два различных кластера, которые, как мы могли ожидать, легко различить.

Точечная диаграмма набора данных двоичной классификации

Мультиклассовая классификация

Мультиклассовая классификация относится к тем задачам классификации, которые имеют более двух меток классов.

Примеры включают:

  • Классификация лиц.
  • Классификация видов растений.
  • Оптическое распознавание символов.

В отличие от бинарной классификации, мультиклассовая классификация не имеет понятия нормальных и аномальных результатов. Вместо этого примеры классифицируются как принадлежащие к одному из ряда известных классов.

Для некоторых задач количество меток классов может быть очень большим. Например, модель может предсказать фотографию как принадлежащую одному из тысяч или десятков тысяч лиц в системе распознавания лиц.

Задачи, связанные с предсказанием последовательности слов, например модели перевода текста, также могут считаться особым типом мультиклассовой классификации. Каждое слово в последовательности слов, которые должны быть предсказаны, включает в себя классификацию на несколько классов, где размер словаря определяет количество возможных классов, которые могут быть предсказаны, и может составлять десятки или сотни тысяч слов.

Обычно для моделирования задачи классификации нескольких классов используется модель, которая предсказывает распределение вероятностей Мультинулли для каждого примера.

Распределение Мультинулли — это дискретное распределение вероятностей, которое охватывает случай, когда событие будет иметь категориальный исход, например K в {1, 2, 3,…, K }. Для классификации это означает, что модель предсказывает вероятность принадлежности примера к каждой метке класса.

Многие алгоритмы, используемые для двоичной классификации, могут использоваться для классификации нескольких классов.

Популярные алгоритмы, которые можно использовать для мультиклассовой классификации, включают:

  • к-ближайшие соседи.
  • Деревья решений.
  • Наивный Байес.
  • Случайный лес.
  • Повышение градиента.

Алгоритмы, разработанные для двоичной классификации, могут быть адаптированы для использования в мультиклассовых задачах.

Это включает в себя использование стратегии подбора нескольких моделей бинарной классификации для каждого класса по сравнению со всеми другими классами (называемых «один против остальных») или одной модели для каждой пары классов (называемой «один против одного»).

  • Один против остальных : Подобрать одну бинарную модель классификации для каждого класса vs.все остальные классы.
  • Один против одного : Подберите одну модель бинарной классификации для каждой пары классов.

Алгоритмы двоичной классификации, которые могут использовать эти стратегии для мультиклассовой классификации, включают:

  • Логистическая регрессия.
  • Машина опорных векторов.

Далее, давайте более подробно рассмотрим набор данных, чтобы развить интуицию для решения задач многоклассовой классификации.

Мы можем использовать функцию make_blobs () для создания синтетического набора данных классификации нескольких классов.

В приведенном ниже примере создается набор данных из 1000 примеров, принадлежащих к одному из трех классов, каждый с двумя входными объектами.

# пример задачи мультиклассовой классификации из импорта numpy, где из коллекций счетчик импорта from sklearn.datasets импортировать make_blobs из matplotlib import pyplot # определить набор данных X, y = make_blobs (n_samples = 1000, центры = 3, random_state = 1) # суммировать фигуру набора данных print (X.shape, y.форма) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # построить набор данных и раскрасить метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

1

2

3

4

5

6

7

8

9

10

11

12

13

140002

18

19

20

21

# пример задачи классификации нескольких классов

из импорта numpy, где

из импорта коллекций Counter

из sklearn.datasets import make_blobs

from matplotlib import pyplot

# define dataset

X, y = make_blobs (n_samples = 1000, center = 3, random_state = 1)

# summarize dataset shape

print (X.shape). shape)

# суммировать наблюдения по метке класса

counter = Counter (y)

print (counter)

# суммировать первые несколько примеров

для i в диапазоне (10):

print (X [i], y [i])

# построить набор данных и раскрасить метку по классам

для метки, _ в счетчике.items ():

row_ix = where (y == label) [0]

pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

pyplot.legend ()

pyplot.show ()

При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

Затем суммируется распределение меток классов, показывающее, что экземпляры принадлежат классу 0, классу 1 или классу 2 и что в каждом классе имеется примерно 333 примера.

Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе.

(1000, 2) (1000,) Счетчик ({0: 334, 1: 333, 2: 333}) [-3,05837272 4,48825769] 0 [-8.60973869 -3.72714879] 1 [1.37129721 5.23107449] 0 [-9,333 -2,9544469] 1 [-8,63895561 -8,05263469] 2 [-8,48974309 -9,05667083] 2 [-7,51235546 -7,96464519] 2 [-7.51320529 -7,46053919] 2 [-0,61947075 3,48804983] 0 [-10.591 -4.5772537] 1

(1000, 2) (1000,)

Счетчик ({0: 334, 1: 333, 2: 333})

[-3.05837272 4.48825769] 0

[-8.60973869 -3.72714879] 1

[1,37129721 5,23107449] 0

[-9,333 -2,9544469] 1

[-8,63895561 -8,05263469] 2

[-8,48974309 -9,05667083] 2

[-7.51235546 -7,96464519] 2

[-7,51320529 -7,46053919] 2

[-0,61947075 3,48804983] 0

[-10,591 -4,5772537] 1

Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

Мы видим три отдельных кластера, которые, как мы могли ожидать, будет легко различить.

Точечная диаграмма набора данных мультиклассовой классификации

Классификация нескольких этикеток

Классификация с несколькими метками относится к тем задачам классификации, которые имеют две или более меток классов, где одна или несколько меток классов могут быть предсказаны для каждого примера.

Рассмотрим пример классификации фотографий, где данная фотография может иметь несколько объектов в сцене, а модель может предсказать присутствие нескольких известных объектов на фотографии, например « велосипед », « яблоко », «». человек и др.

В этом отличие от бинарной классификации и мультиклассовой классификации, где для каждого примера прогнозируется одна метка класса.

Распространено моделирование задач классификации с несколькими метками с помощью модели, которая прогнозирует несколько выходных данных, причем для каждого выхода прогнозируется как распределение вероятностей Бернулли.По сути, это модель, которая делает несколько прогнозов двоичной классификации для каждого примера.

Алгоритмы классификации, используемые для двоичной или мультиклассовой классификации, не могут использоваться напрямую для классификации по нескольким меткам. Могут использоваться специализированные версии стандартных алгоритмов классификации, так называемые многопозиционные версии алгоритмов, в том числе:

  • Дерево принятия решений с несколькими метками
  • Случайные леса с несколькими метками
  • Повышение градиента с несколькими этикетками

Другой подход — использовать отдельный алгоритм классификации для прогнозирования меток для каждого класса.

Далее, давайте внимательнее рассмотрим набор данных, чтобы развить интуицию для задач классификации с несколькими метками.

Мы можем использовать функцию make_multilabel_classification () для создания синтетического набора данных классификации с несколькими метками.

В приведенном ниже примере создается набор данных из 1000 примеров, каждый с двумя входными объектами. Есть три класса, каждый из которых может иметь одну из двух меток (0 или 1).

# пример задачи классификации с несколькими метками из склеарна.наборы данных импортировать make_multilabel_classification # определить набор данных X, y = make_multilabel_classification (n_samples = 1000, n_features = 2, n_classes = 3, n_labels = 2, random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i])

# пример задачи классификации с несколькими метками

из sklearn.datasets import make_multilabel_classification

# define dataset

X, y = make_multilabel_classification (n_samples = 1000, n_features = 2, n_ random_classes = 3 1)

# форма суммирования набора данных

print (X.shape, y.shape)

# резюмируем первые несколько примеров

для i в диапазоне (10):

print (X [i], y [i])

При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют принадлежность к метке класса.

(1000, 2) (1000, 3) [18. 35.] [1 1 1] [22. 33.] [1 1 1] [26. 36.] [1 1 1] [24. 28.] [1 1 0] [23. 27.] [1 1 0] [15. 31.] [0 1 0] [20. 37.] [0 1 0] [18. 31.] [1 1 1] [29. 27.] [1 0 0] [29. 28.] [1 1 0]

(1000, 2) (1000, 3)

[18. 35.] [1 1 1]

[22. 33.] [1 1 1]

[26. 36.] [1 1 1]

[24.28.] [1 1 0]

[23. 27.] [1 1 0]

[15. 31.] [0 1 0]

[20. 37.] [0 1 0]

[18. 31.] [1 1 1]

[29. 27.] [1 0 0]

[29. 28.] [1 1 0]

Несбалансированная классификация

Несбалансированная классификация относится к задачам классификации, в которых количество примеров в каждом классе распределяется неравномерно.

Обычно задачи несбалансированной классификации представляют собой задачи бинарной классификации, в которых большинство примеров в обучающем наборе данных относятся к нормальному классу, а меньшая часть примеров относится к ненормальному классу.

Примеры включают:

  • Обнаружение мошенничества.
  • Обнаружение выбросов.
  • Медицинские диагностические тесты.

Эти проблемы моделируются как задачи двоичной классификации, хотя могут потребовать специальных методов.

Специализированные методы могут использоваться для изменения состава выборок в наборе обучающих данных путем недостаточной выборки класса большинства или передискретизации класса меньшинства.

Примеры включают:

Могут использоваться специализированные алгоритмы моделирования, которые уделяют больше внимания классу меньшинства при подгонке модели к обучающему набору данных, например, чувствительные к стоимости алгоритмы машинного обучения.

Примеры включают:

Наконец, могут потребоваться альтернативные показатели производительности, поскольку сообщение о точности классификации может вводить в заблуждение.

Примеры включают:

  • Точность.
  • Напомним.
  • F-Мера.

Далее давайте более подробно рассмотрим набор данных, чтобы развить интуицию в отношении несбалансированных проблем классификации.

Мы можем использовать функцию make_classification () для создания набора данных синтетической несбалансированной двоичной классификации.

В приведенном ниже примере создается набор данных из 1000 примеров, которые принадлежат одному из двух классов, каждый с двумя входными объектами.

# пример задачи несбалансированной двоичной классификации из импорта numpy, где из коллекций счетчик импорта из sklearn.datasets импортировать make_classification из matplotlib import pyplot # определить набор данных X, y = make_classification (n_samples = 1000, n_features = 2, n_informative = 2, n_redundant = 0, n_classes = 2, n_clusters_per_class = 1, weights = [0.99,0.01], random_state = 1) # суммировать фигуру набора данных печать (X.shape, y.shape) # суммировать наблюдения по меткам класса counter = Counter (y) печать (счетчик) # подвести итоги первых нескольких примеров для i в диапазоне (10): print (X [i], y [i]) # построить набор данных и раскрасить метку по классам для метки _ в counter.items (): row_ix = where (y == label) [0] pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label)) pyplot.legend () pyplot.show ()

1

2

3

4

5

6

7

8

9

10

11

12

13

140002

18

19

20

21

# пример задачи несбалансированной двоичной классификации

из импорта numpy, где

из импорта коллекций Counter

из sklearn.наборы данных import make_classification

из matplotlib import pyplot

# define dataset

X, y = make_classification (n_samples = 1000, n_features = 2, n_informative = 2, n_redundant = 0, n_classes = 2_, n_clights_clights, n_clights_ , 0,01], random_state = 1)

# суммировать фигуру набора данных

print (X.shape, y.shape)

# суммировать наблюдения по метке класса

counter = Counter (y)

print (counter)

# суммировать первые несколько примеров

для i в диапазоне (10):

print (X [i], y [i])

# построить набор данных и раскрасить метку по классам

для метки, _ в счетчике.items ():

row_ix = where (y == label) [0]

pyplot.scatter (X [row_ix, 0], X [row_ix, 1], label = str (label))

pyplot.legend ()

pyplot.show ()

При выполнении примера сначала суммируется созданный набор данных, показывающий 1000 примеров, разделенных на входные ( X ) и выходные ( y ) элементы.

Затем суммируется распределение меток классов, показывающее серьезный дисбаланс классов с примерно 980 примерами, принадлежащими классу 0, и примерно 20 примерами, принадлежащими классу 1.

Затем суммируются первые 10 примеров в наборе данных, показывающие, что входные значения являются числовыми, а целевые значения — целыми числами, которые представляют членство в классе. В этом случае мы видим, что большинство примеров относятся к классу 0, как и ожидалось.

(1000, 2) (1000,) Счетчик ({0: 983, 1: 17}) [0,86

5 1,18613612] 0 [1,55110839 1,81032905] 0 [1.29361936 1.01094607] 0 [1.11988947 1.63251786] 0 [1.04235568 1.12152929] 0 [1.18114858 0,

607] 0 [1.1365562 1.17652556] 0 [0,462

0,728] 0 [0,18315826 1,07141766] 0 [0,32411648 0,53515376] 0

(1000, 2) (1000,)

Счетчик ({0: 983, 1: 17})

[0,86

5 1,18613612] 0

[1,55110839 1,81032905] 0

[1,29361936] 1,0

[1.11988947 1.63251786] 0

[1.04235568 1.12152929] 0

[1.18114858 0,

607] 0

[1,1365562 1,17652556] 0

[0,462

0,728] 0

[0,18315826 1,07141766] 0

[0,32411648 0,53515376] 0

Наконец, для входных переменных в наборе данных создается диаграмма рассеяния, и точки окрашиваются в соответствии со значением их класса.

Мы можем видеть один главный кластер для примеров, которые принадлежат классу 0, и несколько разрозненных примеров, которые принадлежат классу 1. Интуиция подсказывает, что наборы данных с этим свойством несбалансированных меток классов сложнее моделировать.

Точечная диаграмма набора данных несбалансированной двоичной классификации

Дополнительная литература

Этот раздел предоставляет дополнительные ресурсы по теме, если вы хотите углубиться.

Сводка

В этом руководстве вы открыли для себя различные типы прогнозного моделирования классификации в машинном обучении.

В частности, вы выучили:

  • Прогностическое моделирование классификации включает в себя присвоение метки класса входным примерам.
  • Двоичная классификация относится к предсказанию одного из двух классов, а мультиклассовая классификация предполагает предсказание одного из более чем двух классов.
  • Классификация с несколькими метками включает в себя прогнозирование одного или нескольких классов для каждого примера, а несбалансированная классификация относится к задачам классификации, в которых распределение примеров по классам неодинаково.

Есть вопросы?
Задайте свои вопросы в комментариях ниже, и я постараюсь ответить.

Откройте для себя быстрое машинное обучение на Python!

Разрабатывайте свои собственные модели за считанные минуты

… всего несколько строк кода scikit-learn

Узнайте, как это сделать, в моей новой электронной книге:
Мастерство машинного обучения с Python

Охватывает руководств для самостоятельного изучения и сквозных проектов , например:
Загрузка данных , визуализация , моделирование , настройка и многое другое…

Наконец-то доведите машинное обучение до

Ваши собственные проекты

Пропустить академики. Только результаты.

Посмотрите, что внутри

классификаторов машинного обучения. Что такое классификация? | by Sidath Asiri

Классификация — это процесс прогнозирования класса заданных точек данных. Классы иногда называют целями / метками или категориями. Классификационное прогнозное моделирование — это задача аппроксимации функции отображения (f) входных переменных (X) в дискретные выходные переменные (y).

Например, обнаружение спама у поставщиков услуг электронной почты можно определить как проблему классификации. Это бинарная классификация, так как существует только 2 класса спама и не спама. Классификатор использует некоторые обучающие данные, чтобы понять, как заданные входные переменные относятся к классу. В этом случае в качестве обучающих данных должны использоваться известные спам-сообщения и электронные письма, не относящиеся к спаму. Когда классификатор обучен точно, его можно использовать для обнаружения неизвестного адреса электронной почты.

Классификация относится к категории контролируемого обучения, где цели также снабжены входными данными.Существует множество применений классификации во многих областях, таких как одобрение кредита, медицинская диагностика, целевой маркетинг и т. Д.

Существует два типа учащихся, классифицируемых как ленивые и активные.

  1. Ленивые ученики

Ленивые ученики просто сохраняют данные обучения и ждут, пока не появятся данные тестирования. Когда это происходит, классификация проводится на основе наиболее связанных данных в сохраненных обучающих данных. По сравнению с активными учениками, у ленивых учеников меньше времени на обучение, но больше времени на прогнозирование.

Пр. k-ближайший сосед, рассуждение на основе случая

2. Активные учащиеся

Активные учащиеся создают модель классификации на основе заданных обучающих данных перед получением данных для классификации. Он должен иметь возможность придерживаться единственной гипотезы, охватывающей все пространство экземпляров. Из-за построения модели у активных учеников требуется много времени на обучение и меньше времени на прогнозирование.

Пр. Дерево решений, наивный байесовский алгоритм, искусственные нейронные сети

Сейчас доступно множество алгоритмов классификации, но невозможно сделать вывод, какой из них лучше другого.Это зависит от приложения и характера доступного набора данных. Например, если классы линейно разделимы, линейные классификаторы, такие как логистическая регрессия, линейный дискриминант Фишера, могут превзойти сложные модели и наоборот.

Дерево решений

Дерево решений строит модели классификации или регрессии в виде древовидной структуры. Он использует набор правил «если-то», который является взаимоисключающим и исчерпывающим для классификации. Правила изучаются последовательно с использованием обучающих данных по одному.Каждый раз, когда правило изучается, кортежи, на которые оно распространяется, удаляются. Этот процесс продолжается на обучающей выборке до тех пор, пока не будет выполнено условие завершения.

Дерево строится нисходящим рекурсивным методом «разделяй и властвуй». Все атрибуты должны быть категоричными. В противном случае их следует заранее дискретизировать. Атрибуты в верхней части дерева имеют большее влияние на классификацию, и они идентифицируются с использованием концепции получения информации.

Дерево решений можно легко переоснастить, создавая слишком много ветвей, и оно может отражать аномалии из-за шума или выбросов.Чрезмерно подогнанная модель имеет очень низкую производительность на невидимых данных, хотя она дает впечатляющую производительность на данных обучения. Этого можно избежать путем предварительной обрезки, которая прерывает строительство дерева на ранней стадии, или после обрезки, которая удаляет ветви с полностью выросшего дерева.

Наивный байесовский

Наивный байесовский классификатор — это вероятностный классификатор, основанный на теореме Байеса при простом предположении, что атрибуты условно независимы.

Классификация проводится путем получения максимального апостериорного значения, которое представляет собой максимальное значение P (Ci | X ) с использованием вышеуказанного предположения, применяемого к теореме Байеса.Это предположение значительно снижает вычислительные затраты за счет только подсчета распределения классов. Несмотря на то, что в большинстве случаев это предположение неверно, поскольку атрибуты зависимы, наивный Байес, к удивлению, смог добиться впечатляющих результатов.

Наивный байесовский алгоритм очень прост в реализации и в большинстве случаев дает хорошие результаты. Его можно легко масштабировать до более крупных наборов данных, поскольку для этого требуется линейное время, а не путем дорогостоящего итеративного приближения, как для многих других типов классификаторов.

Наивный байесовский метод может страдать от проблемы, называемой проблемой нулевой вероятности. Когда условная вероятность равна нулю для определенного атрибута, он не может дать действительный прогноз. Это необходимо явно исправить с помощью оценки Лапласа.

Искусственные нейронные сети

Искусственные нейронные сети — это набор подключенных устройств ввода / вывода, где каждое соединение имеет связанный с ним вес, который был запущен психологами и нейробиологами для разработки и тестирования вычислительных аналогов нейронов.На этапе обучения сеть обучается, регулируя веса , , чтобы иметь возможность предсказать правильную метку класса входных кортежей.

Сейчас доступно множество сетевых архитектур, таких как прямая связь, сверточная, рекуррентная и т. Д. Соответствующая архитектура зависит от применения модели. В большинстве случаев модели с прямой связью дают достаточно точные результаты, и особенно для приложений обработки изображений сверточные сети работают лучше.

В модели может быть несколько скрытых слоев в зависимости от сложности функции, которая будет отображена моделью.Наличие большего количества скрытых слоев позволит моделировать сложные отношения, такие как глубокие нейронные сети.

Однако, когда есть много скрытых слоев, требуется много времени на обучение и настройку существ. Другой недостаток — плохая интерпретируемость модели по сравнению с другими моделями, такими как деревья принятия решений, из-за неизвестного символического значения, стоящего за изученными весами.

Но искусственные нейронные сети показали впечатляющие результаты в большинстве реальных приложений. Это высокая устойчивость к зашумленным данным и способность классифицировать необученные шаблоны.Обычно искусственные нейронные сети работают лучше с непрерывными входами и выходами.

Все вышеперечисленные алгоритмы являются активными учениками, поскольку они заранее обучают модель, чтобы обобщить обучающие данные и использовать их для прогнозирования позже.

k -Nearest Neighbor (KNN)

k -Nearest Neighbor — это алгоритм ленивого обучения, который сохраняет все экземпляры, соответствующие точкам обучающих данных в n-мерном пространстве. Когда получены неизвестные дискретные данные, он анализирует ближайшее k сохраненных экземпляров (ближайших соседей) и возвращает наиболее распространенный класс в качестве прогноза, а для данных с действительным знаком он возвращает среднее значение k ближайших соседей.

В алгоритме взвешенного по расстоянию ближайшего соседа он взвешивает вклад каждого из k соседей в соответствии с их расстоянием, используя следующий запрос, дающий больший вес ближайшим соседям.

Запрос вычисления расстояния

Обычно KNN устойчив к зашумленным данным, поскольку он усредняет k-ближайших соседей.

Классификация машинного обучения | Алгоритмы классификации

Классификация в машинном обучении и статистике — это подход к обучению с учителем, при котором компьютерная программа учится на предоставленных ей данных и делает новые наблюдения или классификации.В этой статье мы подробно узнаем о классификации в машинном обучении. В этом блоге рассматриваются следующие темы:

Что такое классификация в машинном обучении

Классификация — это процесс категоризации заданного набора данных по классам. Он может выполняться как для структурированных, так и для неструктурированных данных. Процесс начинается с прогнозирования класса заданных точек данных. Классы часто называют целевыми, метками или категориями.

Прогнозирующее моделирование классификации — это задача аппроксимации функции отображения входных переменных в дискретные выходные переменные.Основная цель — определить, в какой класс / категорию попадут новые данные.

Попробуем разобраться в этом на простом примере.

Обнаружение болезней сердца может быть определено как проблема классификации, это бинарная классификация, поскольку может быть только два класса, то есть с сердечным заболеванием или без сердечного заболевания. Классификатору в этом случае нужны обучающие данные, чтобы понять, как заданные входные переменные связаны с классом. И как только классификатор будет правильно обучен, его можно будет использовать для определения наличия сердечного заболевания у конкретного пациента.

Поскольку классификация — это тип обучения с учителем, даже целевые объекты также получают входные данные. Давайте познакомимся с классификацией в терминологии машинного обучения.

Классификационные термины в машинном обучении
  • Классификатор — это алгоритм, который используется для сопоставления входных данных с определенной категорией.

  • Модель классификации — Модель предсказывает или делает вывод о входных данных, предоставленных для обучения, она предсказывает класс или категорию данных.

  • Признак — Признак — это индивидуальное измеримое свойство наблюдаемого явления.

  • Двоичная классификация — это тип классификации с двумя результатами, например, истинным или ложным.

  • Мультиклассовая классификация — Классификация с более чем двумя классами, в мультиклассовой классификации каждому образцу присваивается одна и только одна метка или цель.

  • Классификация по нескольким меткам — это тип классификации, при котором каждый образец назначается набору меток или целей.

  • Инициализировать — Назначить классификатор, который будет использоваться для

  • Обучить классификатор — Каждый классификатор в научном наборе использует метод соответствия (X, y), чтобы соответствовать модели для обучаем поезд X и обучаем метку y.

  • Прогнозировать цель — Для немаркированного наблюдения X метод прогнозирования (X) возвращает прогнозируемую метку y.

  • Оценить — Это в основном означает оценку модели i.отчет о классификации, оценка точности и т. д.

Типы учащихся в классификации

  • Ленивые учащиеся — Ленивые учащиеся просто сохраняют данные обучения и ждут, пока не появятся данные тестирования. Классификация выполняется с использованием наиболее связанных данных в сохраненных обучающих данных. У них больше времени на предсказания, чем у активных учеников. Например, k-ближайший сосед, рассуждение на основе случая.

  • Активные ученики — Активные ученики создают модель классификации на основе заданных обучающих данных перед получением данных для прогнозов.Он должен иметь возможность придерживаться единственной гипотезы, которая будет работать для всего пространства. Из-за этого они тратят много времени на обучение и меньше времени на прогнозы. Например, дерево решений, наивный байесовский метод, искусственные нейронные сети.

Алгоритмы классификации

В машинном обучении классификация — это концепция контролируемого обучения, которая в основном разбивает набор данных на классы. Наиболее частые проблемы классификации — это распознавание речи, распознавание лиц, распознавание рукописного ввода, классификация документов и т. Д.Это может быть либо проблема двоичной классификации, либо проблема нескольких классов. Существует множество алгоритмов машинного обучения для классификации в машинном обучении. Давайте посмотрим на эти алгоритмы классификации в машинном обучении.

Логистическая регрессия

Это алгоритм классификации в машинном обучении, который использует одну или несколько независимых переменных для определения результата. Результат измеряется дихотомической переменной, означающей , у него будет только два возможных результата .

Цель логистической регрессии — найти наиболее подходящую взаимосвязь между зависимой переменной и набором независимых переменных. Он лучше, чем другие алгоритмы двоичной классификации, такие как ближайший сосед, поскольку количественно объясняет факторы, приводящие к классификации.

Преимущества и недостатки

Логистическая регрессия специально предназначена для классификации, она полезна для понимания того, как набор независимых переменных влияет на результат зависимой переменной.

Основным недостатком алгоритма логистической регрессии является то, что он работает только тогда, когда прогнозируемая переменная является двоичной, он предполагает, что данные не содержат пропущенных значений, и предполагает, что предикторы независимы друг от друга.

Примеры использования

Узнайте больше о логистической регрессии с помощью Python здесь.

Наивный байесовский классификатор

Это алгоритм классификации, основанный на теореме Байеса , которая дает предположение о независимости предсказателей.Проще говоря, наивный байесовский классификатор предполагает, что наличие определенной функции в классе не связано с наличием какой-либо другой функции.

Даже если признаки зависят друг от друга, все эти свойства независимо вносят вклад в вероятность. Наивную байесовскую модель легко создать, и она особенно полезна для сравнительно больших наборов данных. Известно, что даже при упрощенном подходе наивный байесовский метод превосходит большинство методов классификации в машинном обучении. Ниже приводится теорема Байеса для реализации наивной теоремы Байеса.

Преимущества и недостатки

Наивный байесовский классификатор требует небольшого количества обучающих данных для оценки параметров, необходимых для получения результатов. По своей природе они чрезвычайно быстры по сравнению с другими классификаторами.

Единственный недостаток — это плохая оценка.

Примеры использования

  • Прогнозы заболеваний

  • Классификация документов

  • Фильтры спама

  • Анализ тональности

Узнайте больше о наивном байесовском классификаторе здесь.

Стохастический градиентный спуск

Это очень эффективный и простой подход для подбора линейных моделей. Стохастический градиентный спуск особенно полезен, когда образец данных находится в большом количестве . Он поддерживает различные функции потерь и штрафы за классификацию.

Стохастический градиентный спуск относится к вычислению производной из каждого экземпляра обучающих данных и немедленному вычислению обновления.

Преимущества и недостатки

Единственным преимуществом является простота реализации и эффективность, тогда как основной недостаток стохастического градиентного спуска заключается в том, что он требует ряда гиперпараметров и чувствителен к масштабированию функций.

Сценарии использования

K-ближайший сосед

Это алгоритм ленивого обучения, который хранит все экземпляры, соответствующие обучающим данным, в n-мерном пространстве . Это алгоритм ленивого обучения , поскольку он не фокусируется на построении общей внутренней модели, вместо этого он работает на хранении экземпляров обучающих данных.

Классификация вычисляется простым большинством голосов k ближайших соседей каждой точки.Он контролируется и берет набор помеченных точек и использует их для маркировки других точек. Чтобы пометить новую точку, он смотрит на помеченные точки, ближайшие к этой новой точке, также известные как ее ближайшие соседи. В нем голосуют эти соседи, поэтому какой бы ярлык ни было у большинства соседей, это будет ярлык для новой точки. «K» — это количество проверяемых соседей.

Преимущества и недостатки

Этот алгоритм довольно прост в реализации и устойчив к зашумленным обучающим данным.Даже если обучающие данные большие, это довольно эффективно. Единственный недостаток алгоритма KNN заключается в том, что нет необходимости определять значение K, а стоимость вычислений довольно высока по сравнению с другими алгоритмами.

Сценарии использования

Узнайте больше об алгоритме ближайшего соседа по K здесь

Дерево решений

Алгоритм дерева решений строит модель классификации в виде древовидной структуры . В нем используются правила «если-то», которые являются в равной степени исчерпывающими и взаимоисключающими с точки зрения классификации.Процесс продолжается с разбиением данных на более мелкие структуры и, в конечном итоге, связывает их с инкрементным деревом решений. Окончательная структура выглядит как дерево с узлами и листьями. Правила изучаются последовательно с использованием обучающих данных по одному. Каждый раз при изучении правила кортежи, покрывающие правила, удаляются. Процесс продолжается на обучающей выборке до тех пор, пока не будет достигнута точка завершения.

Дерево строится с использованием нисходящего рекурсивного подхода «разделяй и властвуй».Узел решения будет иметь две или более ветвей, а лист представляет классификацию или решение. Самый верхний узел в дереве решений, который соответствует лучшему предиктору, называется корневым узлом, и самое лучшее в дереве решений — то, что оно может обрабатывать как категориальные, так и числовые данные.

Преимущества и недостатки

Дерево решений дает преимущество простоты для понимания и визуализации, а также требует очень небольшой подготовки данных. Недостаток, который следует за деревом решений, заключается в том, что оно может создавать сложные деревья, которые бот может эффективно классифицировать.Они могут быть довольно нестабильными, потому что даже простое изменение данных может помешать всей структуре дерева решений.

Примеры использования

Узнайте больше об алгоритме дерева решений здесь

Случайный лес

Случайные деревья решений или случайный лес — это метод обучения ансамбля для классификации, регрессии и т. Д. множество деревьев решений во время обучения и выводит класс, который является режимом классов или классификации или среднего прогноза (регрессии) отдельных деревьев.

Случайный лес — это метаоценка, которая помещает несколько деревьев в различные подвыборки наборов данных, а затем использует среднее значение для повышения точности предсказательной природы модели. Размер подвыборки всегда такой же, как и у исходного размера входных данных, но выборки часто рисуются с заменами.

Преимущества и недостатки

Преимущество случайного леса состоит в том, что он более точен, чем деревья решений, из-за уменьшения чрезмерной подгонки.Единственный недостаток классификаторов случайных лесов заключается в том, что они довольно сложны в реализации и работают довольно медленно при прогнозировании в реальном времени.

Сценарии использования

  • Промышленные приложения, такие как определение того, относится ли соискатель кредита к группе высокого или низкого риска

  • Для прогнозирования выхода из строя механических частей автомобильных двигателей

  • Прогнозирование оценок в социальных сетях

  • Показатели производительности

Узнайте больше об алгоритме случайного леса здесь.

Искусственные нейронные сети

Нейронная сеть состоит из нейронов, расположенных в слоях , они принимают некоторый входной вектор и преобразуют его в выходной. В этом процессе каждый нейрон принимает входные данные и применяет к нему функцию, которая часто является нелинейной, а затем передает выходные данные на следующий уровень.

В общем, предполагается, что сеть имеет прямую связь, что означает, что блок или нейрон подает выходные данные на следующий уровень, но никакой обратной связи с предыдущим уровнем нет.

Взвешивание применяется к сигналам, проходящим от одного уровня к другому, и эти взвешивания настраиваются на этапе обучения для адаптации нейронной сети к любой постановке задачи.

Преимущества и недостатки

Он имеет высокую устойчивость к зашумленным данным и способен классифицировать необученные шаблоны, он лучше работает с непрерывными входами и выходами. Недостатком искусственных нейронных сетей является то, что они плохо интерпретируются по сравнению с другими моделями.

Сценарии использования

  • Анализ почерка

  • Раскрашивание черно-белых изображений

  • Процессы компьютерного зрения

  • Подписание фотографий на основе черт лица

Подробнее об искусственных нейронных сетях

Машина опорных векторов

Машина опорных векторов — это классификатор, который представляет обучающие данные в виде точек в пространстве , разделенных на категории максимально широким промежутком.Затем новые точки добавляются в пространство, предсказывая, в какую категорию они попадают и к какому пространству они будут принадлежать.

Преимущества и недостатки

Он использует подмножество обучающих точек в функции принятия решения, что делает его эффективным с точки зрения памяти и высокоэффективным в пространствах большой размерности. Единственным недостатком машины опорных векторов является то, что алгоритм не дает напрямую оценок вероятности.

Сценарии использования

Узнайте больше о машине поддержки векторов в python здесь

Оценка классификатора

Самая важная часть после завершения любого классификатора — оценка для проверки его точности и эффективности.Есть много способов оценить классификатор. Давайте посмотрим на эти методы, перечисленные ниже.

Метод удержания

Это наиболее распространенный метод оценки классификатора. В этом методе данный набор данных делится на две части: тестовый и обучающий набор 20% и 80% соответственно.

Набор поездов используется для обучения данных, а невидимый набор тестов используется для проверки его предсказательной способности.

Перекрестная проверка

Избыточная подгонка — наиболее распространенная проблема, распространенная в большинстве моделей машинного обучения.K-кратная перекрестная проверка может быть проведена, чтобы проверить, не переоборудована ли модель вообще.

В этом методе набор данных случайным образом разбивается на k взаимоисключающих подмножеств, каждый из которых имеет одинаковый размер. Из них один остается для тестирования, а другие используются для обучения модели. Такой же процесс происходит для всех k складок.

Отчет о классификации

Отчет о классификации даст следующие результаты: это образец отчета о классификации классификатора SVM, использующего набор данных Cance_data.

  • Точность

    • Точность — это отношение правильно спрогнозированных наблюдений к общему количеству наблюдений

    • Истинно-положительное: количество правильных прогнозов о том, что событие является положительным.

    • Истинно отрицательное: количество правильных прогнозов о том, что возникновение отрицательное.

  • F1- Оценка

  • Точность и отзыв
    • Точность — это доля релевантных экземпляров среди извлеченных экземпляров, а отзыв — это доля соответствующих экземпляров, которые были извлечены из общего числа экземпляры.Они в основном используются как мера релевантности.

Кривая ROC

Рабочие характеристики приемника или кривая ROC используется для визуального сравнения моделей классификации, которые показывают взаимосвязь между показателем истинных положительных и ложноположительных результатов. Площадь под кривой ROC является мерой точности модели.

Выбор алгоритма

Помимо описанного выше подхода, мы можем выполнить следующие шаги, чтобы использовать лучший алгоритм для модели

  • Прочитать данные

  • Создать зависимые и независимые данные наборы на основе наших зависимых и независимых функций

  • Разделение данных на наборы для обучения и тестирования

  • Обучите модель, используя различные алгоритмы, такие как KNN, дерево решений, SVM и т. д.

  • Оцените классификатор

  • Выберите наиболее точный классификатор.

Хотя выбор оптимального алгоритма, подходящего для вашей модели, может занять больше времени, чем необходимо, точность — лучший способ сделать вашу модель эффективной.

Давайте взглянем на набор данных MNIST и воспользуемся двумя разными алгоритмами, чтобы проверить, какой из них лучше всего подходит для модели.

Пример использования

Что такое MNIST?

Это набор из 70 000 маленьких рукописных изображений, помеченных соответствующей цифрой, которую они представляют.Каждое изображение имеет почти 784 функции, одна функция просто представляет плотность пикселей, а каждое изображение имеет размер 28 × 28 пикселей.

Мы сделаем предсказатель цифр, используя набор данных MNIST с помощью различных классификаторов.

Загрузка набора данных MNIST

from sklearn.datasets import fetch_openml
mnist = fetch_openml ('mnist_784')
печать (мнист)
 

Выход:

Изучение набора данных

импортировать matplotlib
import matplotlib.pyplot как plt

X, y = mnist ['данные'], mnist ['цель']
random_digit = X [4800]
random_digit_image = random_digit.reshape (28,28)
plt.imshow (random_digit_image, cmap = matplotlib.cm.binary, interpolation = "ближайший")
 

Вывод:

Разделение данных

Мы используем первые 6000 записей в качестве обучающих данных, размер набора данных составляет 70000 записей. Вы можете проверить, используя форму X и Y. Итак, чтобы сделать память нашей модели эффективной, мы взяли только 6000 записей в качестве обучающего набора и 1000 записей в качестве тестового набора.

x_train, x_test = X [: 6000], X [6000: 7000]
y_train, y_test = y [: 6000], y [6000: 7000]
 

Перемешивание данных

Чтобы избежать нежелательных ошибок, мы перемешали данные, используя массив numpy. Это в основном повышает эффективность модели.

импортировать numpy как np

shuffle_index = np.random.permutation (6000)
x_train, y_train = x_train [shuffle_index], y_train [shuffle_index]
 

Создание предиктора цифр с использованием логистической регрессии

y_train = y_train.astype (np.int8)
y_test = y_test.astype (np.int8)
y_train_2 = (y_train == 2)
y_test_2 = (y_test == 2)
печать (y_test_2)
 
  Выход:  
из sklearn.linear_model import LogisticRegression
clf = логистическая регрессия (tol = 0,1)
clf.fit (x_train, y_train_2)
clf.predict ([random_digit])
 

Выход:

Перекрестная проверка

из sklearn.model_selection импорт cross_val_score
a = cross_val_score (clf, x_train, y_train_2, cv = 3, scoring = "точность")
а.иметь в виду()
 

Выход:

Создание предиктора с помощью машины опорных векторов

из sklearn import svm

cls = svm.SVC ()
cls.fit (x_train, y_train_2)
cls.predict ([random_digit])
 

Выход:

Перекрестная проверка

a = cross_val_score (cls, x_train, y_train_2, cv = 3, scoring = "точность")
a.mean ()
 

Вывод:

В приведенном выше примере мы смогли создать предсказатель цифр.Поскольку мы предсказывали, будет ли цифра 2 из всех записей в данных, мы получили ложь в обоих классификаторах, но перекрестная проверка показывает гораздо лучшую точность с классификатором логистической регрессии вместо машинного классификатора опорных векторов.

На этом мы подошли к концу статьи, в которой мы узнали о классификации в машинном обучении. Я надеюсь, что вы понимаете все, что было поделено с вами в этом уроке.

Если вы нашли эту статью «Классификация в машинном обучении» релевантной, ознакомьтесь с сертификационным курсом Edureka для машинного обучения с использованием Python, надежной компании онлайн-обучения с сетью из более чем 250 000 довольных учащихся по всему миру.

Мы здесь, чтобы помочь вам на каждом этапе вашего пути и составить учебную программу, предназначенную для студентов и профессионалов, которые хотят стать разработчиками Python. Курс разработан, чтобы дать вам фору в программировании на Python и обучить вас как основным, так и продвинутым концепциям Python, а также различным фреймворкам Python, таким как Django.

Если у вас возникнут какие-либо вопросы, не стесняйтесь задавать все свои вопросы в разделе комментариев «Классификация в машинном обучении», и наша команда будет рада ответить.

Классификация в машинном обучении | Лучшие модели классификации

Обычная задача алгоритмов машинного обучения — распознавать объекты и иметь возможность разделить их на категории. Этот процесс называется классификацией, и он помогает нам разделить огромные объемы данных на дискретные значения, например: различные, такие как 0/1, Истина / Ложь или заранее определенный класс выходной метки.

В этой статье под названием «Все, что вам нужно знать о классификации в машинном обучении» вы узнаете о классификации, а также о следующих темах:

  1. Что такое обучение с учителем?
  2. Что такое классификация?
  3. Классификация моделей
  4. Оценка классификаторов

Что такое обучение с учителем?

Прежде чем мы углубимся в классификацию, давайте посмотрим, что такое контролируемое обучение.Предположим, вы пытаетесь изучить новую математическую концепцию и после решения проблемы можете обратиться к решениям, чтобы узнать, правы вы или нет. Как только вы будете уверены в своей способности решить конкретный тип проблемы, вы перестанете ссылаться на ответы и самостоятельно решите поставленные перед вами вопросы.

БЕСПЛАТНЫЙ курс по машинному обучению
Сделайте первый шаг к успеху в машинном обучении

Именно так работает контролируемое обучение с моделями машинного обучения.При обучении с учителем модель учится на примере. Наряду с нашей входной переменной мы также даем нашей модели соответствующие правильные метки. Во время обучения модель смотрит, какая метка соответствует нашим данным, и, следовательно, может находить закономерности между нашими данными и этими метками.

Вот некоторые примеры контролируемого обучения:

  1. Классифицирует обнаружение спама, обучая модели того, какая почта является спамом, а не спамом.
  2. Распознавание речи: вы обучаете машину распознавать ваш голос.
  3. Распознавание объектов, показывая машине, как выглядит объект, и заставляя ее выбирать этот объект среди других объектов.

Мы можем дополнительно разделить контролируемое обучение на следующие:

Рисунок 1: Подразделения контролируемого обучения

Что такое классификация?

Классификация определяется как процесс распознавания, понимания и группировки объектов и идей по заранее заданным категориям, также известным как «субпопуляции». С помощью этих предварительно категоризированных наборов данных для обучения классификация в программах машинного обучения использует широкий спектр алгоритмов для классификации будущих наборов данных по соответствующим и релевантным категориям.

Алгоритмы классификации, используемые в машинном обучении, используют входные обучающие данные с целью прогнозирования вероятности того, что последующие данные попадут в одну из заранее определенных категорий. Одним из наиболее распространенных применений классификации является фильтрация сообщений электронной почты на «спам» или «не спам», как это используют ведущие современные поставщики услуг электронной почты.

Короче говоря, классификация — это форма «распознавания образов». Здесь алгоритмы классификации, применяемые к обучающим данным, находят тот же образец (аналогичные числовые последовательности, слова или настроения и т.п.) в будущих наборах данных.

Мы подробно рассмотрим алгоритмы классификации и узнаем, как программное обеспечение для анализа текста может выполнять такие действия, как анализ тональности, используемый для категоризации неструктурированного текста по полярности мнения (положительное, отрицательное, нейтральное и т. Д.).

Рисунок 2: Классификация овощей и продуктов питания

Классификация моделей

  • Наивный байесовский алгоритм: Наивный байесовский алгоритм — это алгоритм классификации, который предполагает, что предикторы в наборе данных независимы.Это означает, что предполагается, что функции не связаны друг с другом. Например, если дан банан, классификатор увидит, что плод желтого цвета, имеет продолговатую форму, длинный и заостренный. Все эти особенности независимо друг от друга влияют на вероятность того, что это банан. Наивный Байес основан на теореме Байеса, которая имеет следующий вид:

Рисунок 3: Теорема Байеса

Где:

P (A | B) = как часто происходит, учитывая, что происходит B

P (A) = насколько вероятно, что произойдет A

P (B) = какова вероятность того, что произойдет B

P (B | A) = как часто происходит B, учитывая, что происходит A

  • Деревья решений: Дерево решений — это алгоритм, который используется для визуального представления процесса принятия решений.Дерево решений можно составить, задав вопрос «да / нет» и разделив ответ, чтобы привести к другому решению. Вопрос находится в узле, и он помещает итоговые решения ниже на листьях. Изображенное ниже дерево используется, чтобы решить, можем ли мы играть в теннис.

Рисунок 4: Дерево решений

На приведенном выше рисунке, в зависимости от погодных условий, влажности и ветра, мы можем систематически решать, играть нам в теннис или нет.В деревьях решений все утверждения False лежат слева от дерева, а утверждения True разветвляются вправо. Зная это, мы можем составить дерево, которое имеет особенности в узлах и результирующие классы на листьях.

  • K-Nearest Neighbour: K-Nearest Neighbor — это алгоритм классификации и прогнозирования, который используется для разделения данных на классы в зависимости от расстояния между точками данных. K-Nearest Neighbor предполагает, что точки данных, которые находятся рядом друг с другом, должны быть похожими, и, следовательно, точка данных, которая должна быть классифицирована, будет сгруппирована с ближайшим кластером.

Рисунок 5: Данные, подлежащие классификации

Рисунок 6: Классификация с использованием K-ближайших соседей

Оценка классификаторов

Чтобы оценить точность нашей модели классификатора, нам нужны некоторые меры точности. Следующие методы используются, чтобы увидеть, насколько хорошо наши классификаторы предсказывают:

  • Метод удержания: это один из наиболее распространенных методов оценки точности наших классификаторов.В этом методе мы разделяем данные на два набора: обучающий набор и тестовый набор. Обучающий набор показан нашей модели, и модель учится на данных в ней. Данные в наборе тестирования не используются в модели, и после обучения модели набор тестирования используется для проверки ее точности. Обучающий набор будет иметь как функции, так и соответствующую метку, но тестовый набор будет иметь только функции, и модель должна будет предсказать соответствующую метку.

Прогнозируемые метки затем сравниваются с фактическими метками, и выясняется точность, видя, сколько меток получилось правильной.

  • Смещение и отклонение: смещение — это разница между нашими фактическими и прогнозируемыми значениями. Предвзятость — это простые предположения, которые наша модель делает в отношении наших данных, чтобы иметь возможность прогнозировать новые данные. Это напрямую соответствует шаблонам, найденным в наших данных. Когда смещение велико, допущения, сделанные нашей моделью, слишком просты, модель не может уловить важные особенности наших данных, это называется недостаточным соответствием.

Рисунок 7: Смещение

Мы можем определить дисперсию как чувствительность модели к колебаниям данных.Наша модель может учиться на шуме. Это заставит нашу модель рассматривать тривиальные функции как важные. Когда дисперсия высока, наша модель захватит все особенности предоставленных ей данных, настроится на данные и очень хорошо прогнозирует их, но новые данные могут не иметь точно таких же характеристик, и модель не будет умеет очень хорошо предсказывать по нему. Мы называем это переоснащением.

Рисунок 8: Пример отклонения

  • Точность и отзыв: точность используется для расчета способности модели правильно классифицировать значения.Он дается путем деления количества правильно классифицированных точек данных на общее количество классифицированных точек данных для этой метки класса.

Где:

TP = True Positives, когда наша модель правильно классифицирует точку данных по классу, к которому она принадлежит.

FP = Ложные срабатывания, когда модель ложно классифицирует точку данных.

Отзыв используется для расчета способности режима предсказывать положительные значения.Но: «Как часто модель предсказывает правильные положительные значения?». Он рассчитывается как отношение истинных положительных значений к общему количеству фактических положительных значений.

Ускорьте свою карьеру в области искусственного интеллекта и машинного обучения с помощью программы последипломного образования в области искусственного интеллекта и машинного обучения в Университете Пердью в сотрудничестве с IBM.

Заключение

В этой статье — Все, что вам нужно знать о классификации в машинном обучении, мы рассмотрели, что такое контролируемое обучение, и его подветвленную классификацию, а также узнали о некоторых широко используемых классификационных моделях и о том, как спрогнозируйте точность этих моделей и посмотрите, идеально ли они обучены.Надеюсь, теперь вы знаете все, что вам нужно о классификации!

Была ли вам полезна эта статья по классификации? У вас есть к нам сомнения или вопросы? Упомяните их в разделе комментариев к этой статье, и наши специалисты ответят на них как можно скорее!

Классификация контролируемого машинного обучения: подробное руководство

Машинное обучение — это наука (и искусство) программирования компьютеров, чтобы они могли учиться на данных.

[Машинное обучение — это] область обучения, которая дает компьютерам возможность учиться без явного программирования.- Артур Сэмюэл, 1959

Лучшее определение:

Считается, что компьютерная программа учится на опыте E в отношении некоторой задачи T и некоторого показателя производительности P, если ее производительность на T, измеренная с помощью P, улучшается с опыт E. — Tom Mitchell, 1997

Например, ваш спам-фильтр — это программа машинного обучения, которая может научиться отмечать спам после того, как ему будут предоставлены примеры спам-писем, помеченных пользователями, и примеры обычных писем, не связанных со спамом (также называется «ветчиной»).Примеры, которые система использует для изучения, называются обучающей выборкой. В этом случае задача ( T ) состоит в том, чтобы пометить спам для новых писем, опыт ( E ) — это данные обучения, и необходимо определить показатель производительности ( P ). Например, вы можете использовать соотношение правильно классифицированных писем как P . Этот конкретный показатель эффективности называется точностью и часто используется в задачах классификации, поскольку это подход к обучению с учителем.

Dive DeeperAn Introduction to Machine Learning for Beginner

Контролируемое обучение

В контролируемом обучении алгоритмы обучаются на основе помеченных данных.После понимания данных алгоритм определяет, какая метка должна быть присвоена новым данным, связывая шаблоны с немаркированными новыми данными.

Обучение с учителем можно разделить на две категории: классификация и регрессия.

Классификация предсказывает категорию, к которой принадлежат данные.

Некоторые примеры классификации включают обнаружение спама, прогноз оттока, анализ настроений, определение породы собак и так далее.

Регрессия предсказывает числовое значение на основе ранее наблюдаемых данных.

Некоторые примеры регрессии включают прогноз цен на жилье, прогноз цены акций, прогноз роста-веса и так далее.

Dive Deeper Обзор 10 лучших алгоритмов для новичков в машинном обучении

Классификация

Классификация — это метод определения того, к какому классу принадлежит зависимый, на основе одной или нескольких независимых переменных.

Классификация используется для предсказания дискретных ответов.

1.Логистическая регрессия

Логистическая регрессия похожа на линейную регрессию, но используется, когда зависимой переменной является не число, а что-то еще (например, ответ «да / нет»). Это называется регрессией, но выполняет классификацию на основе регрессии и классифицирует зависимую переменную по любому из классов.

Логистическая регрессия используется для прогнозирования двоичных результатов, как указано выше. Например, если компания, выпускающая кредитные карты, строит модель, чтобы решить, выдавать ли кредитную карту клиенту, она будет моделировать, собирается ли клиент «по умолчанию» или «не по умолчанию» по своей карте.

Линейная регрессия

Во-первых, линейная регрессия выполняется на взаимосвязи между переменными, чтобы получить модель. Предполагается, что пороговое значение для линии классификации составляет 0,5.

Логистическая сигмовидная функция

Логистическая функция применяется к регрессии, чтобы получить вероятности ее принадлежности к любому классу.

Приводит журнал вероятности возникновения события к журналу вероятности того, что оно не произойдет. В конце концов, он классифицирует переменную на основе более высокой вероятности того или иного класса.

2. K-Nearest Neighbours (K-NN)

Алгоритм K-NN — один из простейших алгоритмов классификации, который используется для идентификации точек данных, которые разделены на несколько классов для прогнозирования классификации нового точка отбора проб. K-NN — это непараметрический алгоритм ленивого обучения , . Он классифицирует новые случаи на основе меры сходства (т. Е. Функций расстояния).

K-NN хорошо работает с небольшим количеством входных переменных ( p ), но не справляется, когда количество входов очень велико.

3. Машина опорных векторов (SVM)

Опорный вектор используется как для регрессии, так и для классификации. Он основан на концепции плоскостей решений, которые определяют границы решений. Плоскость принятия решения (гиперплоскость) — это плоскость, которая разделяет набор объектов, имеющих различную принадлежность к классам.

Он выполняет классификацию, находя гиперплоскость, которая максимизирует разницу между двумя классами с помощью опорных векторов.

Изучение гиперплоскости в SVM выполняется путем преобразования задачи с использованием некоторой линейной алгебры (т.е., приведенный выше пример представляет собой линейное ядро, которое имеет линейную разделимость между каждой переменной).

Для данных более высокой размерности другие ядра используются как точки и не могут быть легко классифицированы. Они указаны в следующем разделе.

Kernel SVM

Kernel SVM принимает функцию ядра в алгоритме SVM и преобразует ее в требуемую форму, которая отображает данные в более высоком измерении, которое является разделяемым.

Типы функций ядра: :

Типы функций ядра
  1. Линейная SVM — это та, которую мы обсуждали ранее.
  2. В ядре полинома должна быть указана степень полинома. Это позволяет использовать изогнутые линии во входном пространстве.
  3. В ядре радиальной базисной функции (RBF) он используется для нелинейно разделимых переменных. Для расстояния используется метрический квадрат евклидова расстояния. Использование типичного значения параметра может привести к переобучению наших данных. Он используется по умолчанию в sklearn.
  4. Сигмовидное ядро, аналогичное логистической регрессии, используется для двоичной классификации.

Уловка с ядром использует функцию ядра для преобразования данных в пространство признаков более высокой размерности и позволяет выполнять линейное разделение для классификации.

Ядро радиальной базовой функции (RBF)

Область решения SVM ядра RBF фактически также является областью линейного решения. На самом деле SVM ядра RBF создает нелинейные комбинации функций для поднятия выборок в пространство функций более высоких измерений, где для разделения классов можно использовать границу линейного решения.

Итак, практическое правило: используйте линейные SVM для линейных задач и нелинейные ядра, такие как ядро ​​RBF, для нелинейных задач.

4. Наивный байесовский

Наивный байесовский классификатор основан на теореме Байеса с предположениями о независимости между предикторами (т. Е. Предполагает, что наличие признака в классе не связано с каким-либо другим признаком). Даже если эти функции зависят друг от друга или от существования других функций, все эти свойства независимо. Таким образом, название наивный Байес.

Основанный на наивном Байесе, Гауссовский наивный Байес используется для классификации, основанной на биномиальном (нормальном) распределении данных.

  • P (класс | данные) — апостериорная вероятность класса ( цель ) для данного предиктора ( атрибут ). Вероятность наличия у точки данных любого класса для данной точки данных. Это значение, которое мы хотим вычислить.
  • P (класс) — априорная вероятность класса .
  • P (данные | класс) — это вероятность, которая представляет собой вероятность предсказателя с учетом класса .
  • P (данные) — априорная вероятность предиктора или предельная вероятность .

Шагов

1. Вычислить априорную вероятность

P (класс) = количество точек данных в классе / общее количество. наблюдений

P (желтый) = 10/17

P (зеленый) = 7/17

2. Расчет предельного правдоподобия

P (данные) = Количество точек данных, аналогичных наблюдение / Всего нет.наблюдений

P (?) = 4/17

Значение присутствует при проверке обеих вероятностей.

3. Вычислить вероятность

P (данные / класс) = Количество подобных наблюдений для класса / Общее количество. очков в классе.

P (? / Желтый) = 1/7

P (? / Зеленый) = 3/10

4. Апостериорная вероятность для каждого класса

5. Классификация

Чем выше вероятность, тем выше класс принадлежит к этой категории, так как с вероятностью выше 75% точка принадлежит классу зеленый.

Полиномиальная, наивная по Бернулли байесовская модель — это другие модели, используемые при вычислении вероятностей. Таким образом, наивную байесовскую модель легко построить без сложной итеративной оценки параметров, что делает ее особенно полезной для очень больших наборов данных.

5. Классификация дерева решений

Дерево решений строит модели классификации или регрессии в виде древовидной структуры. Он разбивает набор данных на все меньшие и меньшие подмножества, в то же время постепенно разрабатывается связанное дерево решений.Конечный результат — дерево с узлами решений и листовыми узлами. Он следует структуре алгоритма Iterative Dichotomiser 3 (ID3) для определения разделения.

Энтропия и выигрыш информации используются для построения дерева решений.

Энтропия

Энтропия — это степень или величина неопределенности случайности элементов. Другими словами, это мера примеси .

Интуитивно он говорит нам о предсказуемости определенного события.Энтропия рассчитывает однородность образца. Если образец полностью однороден, энтропия равна нулю, а если образец разделен поровну, он имеет энтропию, равную единице.

Прирост информации

Прирост информации измеряет относительное изменение энтропии по отношению к независимому атрибуту. Он пытается оценить информацию, содержащуюся в каждом атрибуте. Построение дерева решений — это поиск атрибута, который возвращает наибольший информационный выигрыш (т.е., наиболее однородные ветви).

Где Gain (T, X) — это получение информации за счет применения признака X . Энтропия (T) — это энтропия всего набора, а второй член вычисляет энтропию после применения признака X .

Прирост информации ранжирует атрибуты для фильтрации в заданном узле дерева. Рейтинг основан на наивысшей энтропии прироста информации в каждом разбиении.

Недостатком модели дерева решений является переоснащение, поскольку она пытается соответствовать модели, углубляясь в обучающий набор и тем самым снижая точность теста.

Переобучение в деревьях решений может быть минимизировано за счет сокращения узлов.

Ансамблевые методы классификации

Ансамблевая модель — это группа моделей . Технически ансамблевые модели включают несколько моделей обучения с учителем, которые обучаются индивидуально, а результаты объединяются различными способами для достижения окончательного прогноза. Этот результат имеет более высокую предсказательную силу, чем результаты любого из составляющих его алгоритмов обучения независимо.

1. Классификация случайных лесов

Классификатор случайных лесов — это ансамблевой алгоритм, основанный на бэггинге, т.е. Методы ансамбля объединяют более одного алгоритма одного и того же или разного типа для классификации объектов (например, ансамбль SVM, наивных байесовских деревьев или деревьев решений).

Общая идея состоит в том, что комбинация моделей обучения увеличивает выбран общий результат.

Глубокие деревья решений могут страдать от переобучения, но случайные леса предотвращают переобучение, создавая деревья на случайных подмножествах.Основная причина в том, что для этого используется среднее значение всех прогнозов, что исключает смещения.

Случайный лес добавляет модели дополнительную случайность при выращивании деревьев. Вместо того, чтобы искать наиболее важную функцию при разделении узла, она ищет лучшую функцию среди случайного подмножества функций. Это приводит к большому разнообразию, что обычно приводит к лучшей модели.

2. Классификация повышения градиента

Классификатор повышения градиента — это метод усиления ансамбля.Повышение квалификации — это способ объединить (объединить) слабых учеников, в первую очередь, для уменьшения систематической ошибки прогнозов. Вместо создания пула предикторов, как в случае с упаковкой, бустинг производит их каскад, где каждый выходной сигнал является входом для следующего ученика. Обычно в алгоритме упаковки деревья выращиваются параллельно, чтобы получить средний прогноз по всем деревьям, где каждое дерево построено на выборке исходных данных. Повышение градиента, с другой стороны, использует последовательный подход к получению прогнозов вместо распараллеливания процесса построения дерева.При повышении градиента каждое дерево решений предсказывает ошибку предыдущего дерева решений — таким образом, увеличивает (улучшая) ошибку (градиент).

Работа повышения градиента

  1. Инициализируйте прогнозы с помощью простого дерева решений.
  2. Вычислить остаточное (фактическое прогнозируемое) значение.
  3. Постройте еще одно неглубокое дерево решений, которое прогнозирует остаток на основе всех независимых значений.
  4. Обновите исходный прогноз, добавив новый прогноз, умноженный на скорость обучения.
  5. Повторите шаги со второго по четвертый для определенного количества итераций (количество итераций будет количеством деревьев).

Проверить этот пост: Повышение градиента с нуля

Характеристики классификационной модели

1. Матрица неточностей

Матрица неточностей — это таблица, которая часто используется для описания производительности модели классификации на наборе тестовых данных для которых известны истинные значения. Это таблица с четырьмя различными комбинациями прогнозируемых и фактических значений для двоичного классификатора.

Матрица неточностей для задачи классификации нескольких классов может помочь вам определить шаблоны ошибок.

Для двоичного классификатора:

Истинно положительный результат — это результат, при котором модель правильно предсказывает положительный класс . Точно так же истинно отрицательный результат — это результат, когда модель правильно предсказывает отрицательный класс.

Ложноположительный и ложноотрицательный

Термины ложноположительный и ложноотрицательный используются для определения того, насколько хорошо модель прогнозирует в отношении классификации.Ложноположительный результат — это результат, когда модель неверно предсказывает положительный класс . А ложноотрицательный результат — это результат, когда модель неверно предсказывает отрицательный класс . Чем больше значений на главной диагонали, тем лучше модель, тогда как другая диагональ дает худший результат для классификации.

Ложно-положительный

Пример, в котором модель ошибочно предсказала положительный класс. Например, модель сделала вывод, что конкретное сообщение электронной почты было спамом (положительный класс), но на самом деле это сообщение электронной почты не было спамом.Это как предупреждающий знак о том, что ошибку следует исправить, поскольку это не такая уж серьезная проблема по сравнению с ложноотрицательным результатом.

Ложно-положительный (ошибка типа I) — когда вы отклоняете истинную нулевую гипотезу

Ложноотрицательный

Пример, в котором модель ошибочно предсказала отрицательный класс . Например, модель сделала вывод, что конкретное сообщение электронной почты не было спамом (отрицательный класс), но это сообщение электронной почты на самом деле было спамом.Это как знак опасности, что ошибку следует исправить как можно раньше, поскольку она более серьезна, чем ложное срабатывание.

Ложноотрицательный (ошибка типа II) — , если вы принимаете ложную нулевую гипотезу.

Эта картинка прекрасно иллюстрирует вышеуказанные показатели. Результаты теста мужчины ложноположительны, так как мужчина не может быть беременным. Результаты анализов женщины являются ложноотрицательными, поскольку она явно беременна.

Из матрицы неточностей мы можем вывести точность, точность, отзывчивость и оценку F-1.

Точность

Точность — это доля прогнозов, которые наша модель сделала правильно.

Точность также может быть записана как

Точность сама по себе не дает полной картины при работе с несбалансированным по классам набором данных, где существует значительное несоответствие между количеством положительных и отрицательных меток. Точность и отзыв являются лучшими показателями для оценки проблем с несбалансированными классами.

Precision

Из всех классов точность — это то, насколько мы правильно предсказали.

Точность должна быть как можно более высокой.

Напомнить

Из всех положительных классов вспомним, насколько мы правильно предсказали. Его также называют чувствительностью или истинно положительным показателем (TPR).

Отзыв должен быть максимально высоким.

Оценка F-1

Часто бывает удобно объединить точность и отзыв в единую метрику, называемую оценкой F-1, особенно если вам нужен простой способ сравнения двух классификаторов.Оценка F-1 — это среднее гармоническое значение точности и запоминания.

Обычное среднее обрабатывает все значения одинаково, в то время как гармоническое среднее придает гораздо больший вес низким значениям, тем самым более наказывая экстремальные значения. В результате классификатор получит высокий балл F-1 только в том случае, если и отзыв, и точность высоки.

3. Кривая оператора приемника (ROC) и площадь под кривой (AUC)

Кривая ROC является важным показателем оценки классификации. Это говорит нам, насколько хорошо модель предсказала.Кривая ROC показывает чувствительность классификатора путем нанесения соотношения истинных положительных результатов на частоту ложных срабатываний. Если классификатор выдающийся, истинно положительный показатель увеличится, а площадь под кривой будет близка к единице. Если классификатор похож на случайное угадывание, частота истинных положительных результатов будет линейно увеличиваться с частотой ложных срабатываний. Чем лучше показатель AUC, тем лучше модель.

4. Кривая профиля совокупной точности

CAP модели представляет совокупное количество положительных результатов по оси y по сравнению с соответствующим совокупным числом параметров классификации по оси x .CAP отличается от рабочей характеристики приемника (ROC), которая отображает соотношение истинно-положительных результатов и ложноположительных. Кривая CAP используется редко по сравнению с кривой ROC.

Рассмотрим модель, которая предсказывает, купит ли покупатель продукт. Если покупатель выбран случайным образом, вероятность того, что он купит товар, составляет 50%. Совокупное количество элементов, для которых покупает покупатель, будет линейно расти до максимального значения, соответствующего общему количеству покупателей.Это распределение называется «случайным» CAP. Это синяя линия на диаграмме выше. С другой стороны, точный прогноз определяет, какой именно клиент купит продукт, так что максимальное количество покупателей, покупающих недвижимость, будет достигнуто при минимальном количестве клиентов, выбранных среди элементов. В результате на кривой CAP получается крутая линия, которая остается плоской после достижения максимума, что является «идеальной» CAP. Ее также называют «идеальной» линией, она обозначена серой линией на рисунке выше.

В конце концов, модель должна предсказать, где она максимизирует правильные прогнозы и приближается к идеальному модельному ряду.

Ссылки : Оценка классификатора с кривой CAP в Python

Реализация классификации: Github Repo.

Дополнительная информация от Бадриша Шетти:

Подробное руководство по работе рекомендательных систем

Проклятие размерности

СвязанныеПодробнее о Data Science

Машинное обучение: типы алгоритмов классификации

Помните теорему о запрете бесплатного обеда? Нет, это не о еде (пока).Но если вы голодны, перекусите, прежде чем читать этот пост — я не хочу, чтобы вы пускали слюни на клавиатуру.

Напомню — ни один алгоритм не является оптимальным по множеству всех возможных ситуаций. Алгоритмы машинного обучения — это тонкие инструменты, которые вы настраиваете в зависимости от набора задач, особенно в контролируемом машинном обучении.

Сегодня мы увидим, как работают популярные алгоритмы классификации, и поможем нам, например, выбирать и сортировать замечательные, сочные помидоры.

Как работает классификация

Мы каждый день прогнозируем, можно ли отнести вещь к определенному классу.Например, классификация помогает нам принимать решения при выборе помидоров в супермаркете («зеленые», «идеальные», «гнилые»). В терминах машинного обучения мы присваиваем ярлык одного из классов каждому помидору, который держим в руках.

Эффективность вашего конкурса по сбору помидоров (некоторые называют его классификационной моделью) зависит от точности его результатов. Чем чаще вы сами ходите в супермаркет (вместо того, чтобы отправлять своих родителей или свою вторую половинку), тем лучше вы будете выбирать свежие и вкусные помидоры.

Компьютеры такие же! Чтобы классификационная модель научилась точно предсказывать результаты, требуется множество обучающих примеров.

4 типа классификации

Двоичная

Двоичная классификация означает, что есть два класса, с которыми нужно работать, которые относятся друг к другу как истинные и ложные. Представьте, что перед вами огромный ящик с желтыми и красными помидорами. Но в вашем причудливом рецепте итальянской пасты сказано, что вам нужны только красные.

Чем вы занимаетесь? Очевидно, вы используете кодировку меток и в этом случае присваиваете 1 «красному» и 0 «не красному».Сортировка помидоров никогда не была такой простой.

Мультикласс

Что вы видите на этой фотографии?

Красный бифштекс Помидоры. Томаты черри. Коктейльные помидоры. Фамильные помидоры.

Здесь нет черного и белого, «нормального» и «ненормального», как в бинарной классификации. Мы приветствуем к нашему столу всевозможные чудесные овощи (или ягоды).

Чего вы, вероятно, не знаете, если не являетесь поклонником приготовления помидоров , так это того, что не все помидоры одинаково хороши для одного и того же блюда.Красные помидоры из бифштекса идеально подходят для сальсы, но их нельзя мариновать. Помидоры черри подходят для салатов, но не для макарон. Поэтому важно знать , с каким вы имеете дело.

Классификация по мультиклассу помогает нам отсортировать все помидоры из коробки независимо от того, сколько в них классов.

Multi-label

Multi-label классификация применяется, когда один вход может принадлежать более чем к одному классу, например, человек, который является гражданином двух стран.

Для работы с этим типом классификации необходимо построить модель, которая может прогнозировать несколько выходных данных.

Для распознавания объектов на фотографиях требуется классификация с несколькими метками. Например, если вам нужно идентифицировать на одном изображении не только помидоры, но и различные другие объекты: яблоки, кабачки, лук и т. Д.

Важное примечание для всех любителей помидоров : Вы не можете просто взять двоичную или мультиклассовую классификацию алгоритм и применить его непосредственно к классификации с несколькими метками.Но вы можете использовать:

Вы также можете попробовать использовать отдельный алгоритм для каждого класса, чтобы предсказать метки для каждой категории.

Несбалансированная

Мы работаем с несбалансированной классификацией, когда примеры в каждом классе распределены неравномерно.

Несбалансированная классификация используется для программного обеспечения для обнаружения мошенничества и медицинской диагностики. Поиск редких и изысканных биологически выращенных помидоров, случайно просыпанных в большую кучу помидоров в супермаркете, — это пример несбалансированной классификации, предложенной Гинтсом, нашим замечательным редактором (если у вас есть другие примеры, напишите нам в Твиттере).

Я рекомендую вам посетить фантастический блог Machine Learning Mastery, где вы можете прочитать о различных типах классификации и изучить множество других материалов по машинному обучению.

Шаги по построению модели классификации

Как только вы узнаете, с какой задачей классификации вы имеете дело, пора построить модель.

  1. Выберите классификатор. Вам нужно выбрать один из алгоритмов машинного обучения, который вы будете применять к своим данным.
  2. Тренируйся. Вам необходимо подготовить набор обучающих данных с помеченными результатами (чем больше примеров, тем лучше).
  3. Предсказать результат. Используйте модель, чтобы получить некоторые результаты.
  4. Оцените модель классификатора. Для проверки результатов рекомендуется подготовить набор данных для проверки, которые вы не использовали во время обучения.

Давайте теперь взглянем на наиболее широко используемые алгоритмы классификации.

Самые популярные алгоритмы классификации

Scikit-Learn — одна из лучших библиотек машинного обучения для Python. Так что, если вы хотите построить свою модель, проверьте ее. Он обеспечивает доступ к широко используемым классификаторам.

Логистическая регрессия

Логистическая регрессия используется для двоичной классификации.

Этот алгоритм использует логистическую функцию для моделирования вероятности наступления результата. Это наиболее полезно, когда вы хотите понять, как несколько независимых переменных влияют на одну конечную переменную.

Пример вопроса: приведут ли уровни осадков и состав почвы к процветанию или безвременной гибели томатов?

Логистическая регрессия имеет ограничения; все предикторы должны быть независимыми, и не должно быть пропущенных значений.Этот алгоритм не сработает, если нет линейного разделения значений.

Наивный байесовский алгоритм

Наивный байесовский алгоритм основан на теореме Байеса. Вы можете применить этот алгоритм для двоичной и мультиклассовой классификации и классифицировать данные на основе исторических результатов.

Пример задачи: мне нужно отделить гнилые помидоры от свежих по их внешнему виду.

Преимущества наивного байесовского алгоритма заключаются в том, что эти алгоритмы быстро строятся: они не требуют обширного обучающего набора, а также являются быстрыми по сравнению с другими методами.Однако, поскольку производительность байесовских алгоритмов зависит от точности их сильных предположений, результаты потенциально могут оказаться очень плохими.

Используя теорему Байеса, можно сказать, как возникновение события влияет на вероятность другого события.

k-ближайших соседей

kNN означает «k-ближайший сосед» и является одним из простейших алгоритмов классификации.

Алгоритм присваивает объекты классу, которому принадлежит большинство его ближайших соседей в многомерном пространстве признаков.Число k — это количество соседних объектов в пространстве признаков, которые сравниваются с классифицированным объектом.

Пример: я хочу спрогнозировать вид помидора из вида похожих на него помидоров.

Чтобы классифицировать входы с использованием k-ближайших соседей, необходимо выполнить ряд действий:

  • Рассчитать расстояние до каждого из объектов в обучающей выборке;
  • Выбрать k объектов обучающей выборки, расстояние до которых минимально;
  • Класс классифицируемого объекта — это класс, который чаще всего встречается среди k-ближайших соседей.

Дерево решений

Деревья решений, вероятно, являются наиболее интуитивно понятным способом визуализации процесса принятия решений. Чтобы предсказать метку класса входных данных, мы начинаем с корня дерева. Вам нужно разделить пространство возможностей на более мелкие подмножества на основе правила принятия решения, которое у вас есть для каждого узла.

Вот пример:

Вы продолжаете разбивать пространство возможностей, пока не достигнете нижней части дерева. Каждый узел решения имеет две или более ветвей.Листья в приведенной выше модели содержат решение о том, подходит человек или нет.

Пример: у вас есть корзина с разными помидорами, и вы хотите выбрать правильный, чтобы улучшить свое блюдо.

Типы деревьев принятия решений

Существует два типа деревьев. Они основаны на природе целевой переменной:

  • Дерево решений категориальной переменной.
  • Дерево решений с непрерывной переменной.

Следовательно, деревья решений достаточно хорошо работают как с числовыми, так и с категориальными данными.Еще один плюс использования деревьев решений в том, что они не требуют небольшой подготовки данных.

Однако деревья решений могут стать слишком сложными, что приведет к переобучению. Существенным недостатком этих алгоритмов является то, что небольшие вариации обучающих данных делают их нестабильными и приводят к появлению совершенно новых деревьев.

Случайный лес

Классификаторы случайного леса используют несколько различных деревьев решений для различных подвыборок наборов данных. В качестве прогноза модели принимается средний результат, что повышает точность прогнозирования модели в целом и помогает избежать переобучения.

Следовательно, случайные леса могут использоваться для решения сложных задач машинного обучения без ущерба для точности результатов. Тем не менее, они требуют больше времени для формирования прогноза, и их сложнее реализовать.

Узнайте больше о том, как работают случайные леса, в блоге Towards Data Science.

Машина опорных векторов

Машины опорных векторов используют гиперплоскость в N-мерном пространстве для классификации точек данных.N вот количество функций. В принципе, это может быть любое число, но чем оно больше, тем сложнее становится построить модель.

Можно представить гиперплоскость в виде линии (для двумерного пространства). Когда вы пересекаете трехмерное пространство, нам становится трудно визуализировать модель.

Точки данных, расположенные по разные стороны гиперплоскости, относятся к разным классам.

Пример: автоматическая система сортировки помидоров по их форме, весу и цвету.

Выбранная гиперплоскость напрямую влияет на точность результатов. Итак, мы ищем плоскость, которая имеет максимальное расстояние между точками данных обоих классов.

SVM показывают точные результаты с минимальной вычислительной мощностью, когда у вас много функций.

Подведение итогов

Как видите, машинное обучение может быть таким же простым, как сбор овощей в магазине. Но есть много деталей, о которых следует помнить, если вы не хотите все испортить. Следите за обновлениями нашего блога, Twitter и Medium, чтобы узнать больше о машинном обучении.

Регрессия и классификация | Машинное обучение с учителем

Что такое регрессия и классификация в машинном обучении?

Специалисты по обработке данных используют множество различных алгоритмов машинного обучения для выявления закономерностей в больших данных, которые приводят к практическим выводам. На высоком уровне эти различные алгоритмы можно разделить на две группы в зависимости от того, как они «узнают» о данных для составления прогнозов: обучение с учителем и обучение без учителя.

Машинное обучение с учителем: В большинстве случаев машинное обучение с учителем использует обучение с учителем.Контролируемое обучение — это когда у вас есть входные переменные (x) и выходная переменная (Y), и вы используете алгоритм для изучения функции отображения от входа к выходу Y = f (X) . Цель состоит в том, чтобы аппроксимировать функцию сопоставления настолько хорошо, чтобы, когда у вас есть новые входные данные (x), вы могли предсказать выходные переменные (Y) для этих данных.

Методы контролируемых алгоритмов машинного обучения включают линейную и логистическую регрессию , многоклассовую классификацию , Деревья решений и поддерживают векторные машины .Для обучения с учителем необходимо, чтобы данные, используемые для обучения алгоритма, были помечены правильными ответами. Например, алгоритм классификации научится идентифицировать животных после обучения на наборе данных изображений, которые должным образом помечены с указанием вида животного и некоторых идентифицирующих характеристик.
Задачи контролируемого обучения можно далее сгруппировать в задачи Регрессия и Классификация . Обе задачи имеют своей целью построение краткой модели, которая может предсказать значение зависимого атрибута из переменных атрибута.Разница между двумя задачами заключается в том, что зависимый атрибут является числовым для регрессии и категориальным для классификации.

Регрессия


Проблема регрессии возникает, когда выходная переменная является действительным или непрерывным значением, таким как «зарплата» или «вес». Можно использовать много разных моделей, простейшей из них является линейная регрессия. Он пытается сопоставить данные с лучшей гиперплоскостью, проходящей через точки.

Типы регрессионных моделей:

Для примеров:
Что из следующего является задачей регрессии?

  • Предсказание возраста человека
  • Предсказание национальности человека
  • Предсказание роста стоимости акций компании завтра
  • Предсказание, связан ли документ с обнаружением НЛО?

Решение: Прогнозирование возраста человека (поскольку это реальная ценность, прогнозирование национальности категорично, будет ли расти цена акций дискретно — ответ да / нет, прогнозирование того, связан ли документ с НЛО, снова дискретное ответ да / нет).

Рассмотрим пример линейной регрессии. У нас есть набор данных Housing , и мы хотим спрогнозировать цену дома. Ниже приведен его код на Python.

импорт matplotlib

matplotlib.use ( 'GTKAgg' )

4lib

4000 import

41 numpy как np

из sklearn import datasets, linear_model

import pandas as pd

8324

read_csv ( «Housing.csv» )

Y = df [ 'цена' ]

8 'lotize' ]

X = X.values.reshape ( len (X), 1 ) 9 Ю.values.reshape ( len (Y), 1 )

X_train = X [: - 250] - 250] = X [ - 250 :]

Y_train = Y [: - 250] - 250] - 250] = Y [ - 250 :]

plt.разброс (X_test, Y_test, цвет = 'черный' )

plt.title ( 'Test Data' )

plt.xlabel (95824 ' )

plt.ylabel ( 'Price' )

plt.xticks (())

plt.yticks (())

0

924 regr = linear_model.LinearRegression ()

regr.fit (X_train, Y_train)

plt.plot (X_test, regr.predict (X_test), цвет 959 красный , ширина линии = 3 )

plt.show ()

Результатом приведенного выше кода будет:

Здесь, на этом графике, мы строим тестовые данные. Красная линия указывает на наиболее подходящую линию для прогнозирования цены.Чтобы сделать индивидуальный прогноз с использованием модели линейной регрессии:

  print (str (round (regr.predict (5000))))  

Классификация

Проблема классификации возникает, когда выходной переменной является категория , например, «красный» или «синий» или «болезнь» и «отсутствие болезни». Модель классификации пытается сделать некоторые выводы из наблюдаемых значений. Учитывая один или несколько входных данных, модель классификации попытается предсказать ценность одного или нескольких результатов.
Например, при фильтрации электронных писем «спам» или «не спам», при просмотре данных транзакции, «мошеннические» или «авторизованные». Короче говоря, классификация либо предсказывает категориальные метки классов, либо классифицирует данные (строит модель) на основе обучающего набора и значений (метки классов) при классификации атрибутов и использует их при классификации новых данных. Существует ряд классификационных моделей. Модели классификации включают логистическую регрессию, дерево решений, случайный лес, дерево с градиентным усилением, многослойный персептрон, один против остальных и наивный байесовский метод.

Например:
Что из следующего представляет собой проблему (проблемы) классификации?

  • Предсказание пола человека по стилю его / ее почерка
  • Предсказание цены дома на основе площади
  • Предсказание, будет ли сезон дождей в следующем году
  • Предсказать количество копий музыкального альбома, которое будет продано в следующем месяце

Решение: Предсказание пола человека Предсказание, будут ли муссоны нормальными в следующем году. Два других - регресс.
Как мы обсуждали классификацию с некоторыми примерами. Теперь есть пример классификации, в которой мы выполняем классификацию набора данных радужной оболочки глаза с использованием RandomForestClassifier в python. Вы можете скачать набор данных здесь
Описание набора данных

Название: База данных растений ириса
Информация об атрибутах:
      1. длина чашелистика в см.
      2. Ширина чашелистика в см.
      3. длина лепестка в см.
      4. ширина лепестка в см
      5.класс:
       - Ирис Сетоса
       - Ирис разноцветный
       - Ирис Вирджиния
 Отсутствующие значения атрибутов: нет
Распределение по классам: 33,3% по каждому из 3 классов
 

import pandas as pd

from sklearn.model_selection import train_test_split

из

sklear sklearn.предварительная обработка импорт LabelEncoder

из sklearn.metrics импорт confusion_matrix

из sklearn.metrics 9sclearn. импорт классификационный_отчет

набор данных = pd.read_csv (

'базы данных / iris / iris.data' , sep = ',' , заголовок = Нет ) данных dataset.iloc [:,:]

print ( "Сумма значений NULL в каждом столбце." )

print (data.isnull (data.isnull) . сумма ())

X = данных.iloc [:,: - 1 ] .values ​​

y = dataset.iloc [:, 4 ] .values ​​

_

_00 lab = LabelEncoder ()

y = labelencoder_y.fit_transform (y)

X_train train, 9_2424959 958 958_242 958 958 9_24 958, yplit_train 9_2424 958 X, y, размер теста = 0.3 , random_state = 0 )

классификатор = RandomForestClassifier () 924_9

classifier () 924_59

4 95824 классификатор

прогнозируемый = classifier.predict (X_test)

печать ( 'Матрица путаницы:' ) _2458 прогноз _2458 (9000_2458) ))

print ( 'Оценка точности:' , precision_score (y_test, предсказано))

print ( 'Report:' print )

4259

4259 9 (классификационный_отчет (y_test, прогнозируемый))

Вывод:

 Сумма значений NULL в каждом столбце.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *