123-2341-74

แนะนำ เทคนิคลดค่าครองชีพ
ทุกครั้ง ที่ ซื้อ ของจาก marketplace อย่าลืม กดรับคูปอง และเช็คโปรโมชั่น บัตรเครดิต ก่อน กดจ่ายเงินทุกครั้ง

กดรับ คูปอง
ก่อนจ่ายเงินทุกครั้ง อยากลืม

เทคนิคลดค่าครองชีพ
ทุกครั้ง ที่ ซื้อ ของจาก marketplace อย่าลืม กดรับคูปอง และเช็คโปรโมชั่น บัตรเครดิต ก่อน กดจ่ายเงินทุกครั้ง

กดรับ คูปอง
สร้างภาพจาก ai ฟรี stable diffusion


รวมข้อมูล ที่ตั้งและการติดต่อ บริษัทขนส่งยอดนิยมในไทย

ที่ตั้งสาขา เคอรี่ที่ตั้งสาขา แฟลชที่ตั้งสาขา เจที

กรุงเทพมหานคร สมุทรปราการ นนทบุรี ปทุมธานี พระนครศรีอยุธยา อ่างทอง ลพบุรี สิงห์บุรี ชัยนาท สระบุรี ชลบุรี ระยอง จันทบุรี ตราด ฉะเชิงเทรา ปราจีนบุรี นครนายก สระแก้ว นครราชสีมา

บุรีรัมย์ สุรินทร์ ศรีสะเกษ อุบลราชธานี ยโสธร ชัยภูมิ อำนาจเจริญ บึงกาฬ หนองบัวลำภู ขอนแก่น อุดรธานี เลย หนองคาย มหาสารคาม ร้อยเอ็ด กาฬสินธุ์ สกลนคร นครพนม มุกดาหาร
เชียงใหม่ ลำพูน ลำปาง อุตรดิตถ์ แพร่ น่าน พะเยา เชียงราย แม่ฮ่องสอน นครสวรรค์ อุทัยธานี กำแพงเพชร ตาก สุโขทัย พิษณุโลก พิจิตร เพชรบูรณ์ ราชบุรี กาญจนบุรี สุพรรณบุรี
นครปฐม สมุทรสาคร สมุทรสงคราม เพชรบุรี ประจวบคีรีขันธ์ นครศรีธรรมราช กระบี่ พังงา ภูเก็ต สุราษฎร์ธานี ระนอง ชุมพร สงขลา สตูล ตรัง พัทลุง ปัตตานี ยะลา นราธิวาส

OpenAI สร้างชุดทดสอบ SWE-Bench เพื่อตรวจสอบความสามารถโปรแกรมเมอร์ในการเขียนโค้ด

OpenAI สร้างชุดทดสอบ SWE-Bench เพื่อตรวจสอบความสามารถโปรแกรมเมอร์ในการเขียนโค้ด

สรุปเนื้อหา

OpenAI เปิดตัว SWE-Bench Verified ชุดทดสอบปัญญาประดิษฐ์ที่ได้รับการตรวจสอบจากโปรแกรมเมอร์เพื่อแก้ปัญหาคุณภาพของชุดข้อมูลเดิม โดยผลการทดสอบพบว่า GPT-4o มีประสิทธิภาพสูงขึ้นในด้านการแก้ไขปัญหา แม้จะยังมีข้อจำกัดในปัญหาที่ซับซ้อนกว่า 1 ชั่วโมง

2 บทเรียน ที่ควรรู้

1. ความสำคัญของคุณภาพข้อมูล

การตรวจสอบคุณภาพของข้อมูลในชุดทดสอบมีผลโดยตรงต่อประสิทธิภาพของปัญญาประดิษฐ์ ดังนั้นการลงทุนในกระบวนการตรวจสอบจึงเป็นสิ่งจำเป็น

2. พัฒนาความสามารถของ AI

การมีข้อมูลที่ชัดเจนและครบถ้วนสามารถเพิ่มประสิทธิภาพในการแก้ปัญหาของ AI ได้สูงขึ้น

2 ปัญหา และ วิธีการแก้ไข

1. ข้อมูลไม่ครบถ้วน

วิธีการแก้ไข: จ้างโปรแกรมเมอร์ตรวจสอบและปรับปรุงคำถามเพื่อให้มีความชัดเจนและครบถ้วน

2. ปัญหาที่ไม่สามารถแก้ไขได้

วิธีการแก้ไข: ทำการทดลองและปรับปรุงชุดทดสอบโดยอ้างอิงจากผลลัพธ์ที่ได้

3 คำถามที่ถามบ่อย

1. SWE-Bench Verified คืออะไร?

SWE-Bench Verified เป็นชุดทดสอบปัญญาประดิษฐ์ที่ได้รับการตรวจสอบแล้วว่ามีคุณภาพสูงในการสร้างปัญหาซอฟต์แวร์

2. ทำไมการตรวจสอบชุดทดสอบถึงสำคัญ?

การตรวจสอบชุดทดสอบช่วยให้นักพัฒนามั่นใจได้ว่าคำถามที่ใช้ในการทดสอบมีความถูกต้องและสามารถช่วยให้ AI เรียนรู้ได้ดียิ่งขึ้น

3. GPT-4o ดีขึ้นอย่างไร?

GPT-4o แสดงความสามารถในการแก้ไขปัญหาได้ดีขึ้นจากการใช้ SWE-Bench Verified โดยปรับปรุงจาก 16% เป็น 33.2%

5 เว็บไซต์ที่เกี่ยวข้อง

  • OpenAI – แหล่งข้อมูลเกี่ยวกับการพัฒนาปัญญาประดิษฐ์
  • GitHub – แหล่งพื้นที่รวมโปรเจคซอฟต์แวร์และชุดข้อมูล
  • Kaggle – แพลตฟอร์มในการแข่งขันเกี่ยวกับข้อมูลและ AI
  • AI.gov – ข้อมูลจากรัฐบาลเกี่ยวกับการพัฒนาปัญญาประดิษฐ์
  • ResearchGate – อนุญาตให้เข้าถึงงานวิจัยด้าน AI และข้อมูลล่าสุด

5 คำค้นหาที่เกี่ยวข้อง

  • SWE-Bench: ชุดสอบที่เน้นการทดสอบความสามารถในการเขียนโปรแกรม
  • GPT-4o: เวอร์ชันพัฒนาของโมเดลภาษา AI จาก OpenAI
  • การประเมินผลปัญญาประดิษฐ์: วิธีการวัดประสิทธิภาพโมเดล AI
  • การเขียนโปรแกรมอัตโนมัติ: การใช้ AI ในการเขียนโค้ด
  • ซอฟต์แวร์ที่มีบั๊ก: ซอฟต์แวร์ที่มีข้อผิดพลาดแม้จะทำงานได้

สรุป

OpenAI ได้พัฒนา SWE-Bench Verified เพื่อแก้ไขปัญหาเกี่ยวกับคุณภาพข้อมูลในการทดสอบ AI ซึ่งทำให้ปัญญาประดิษฐ์มีศักยภาพที่ดีขึ้นในการแก้ไขปัญหาซอฟต์แวร์ แต่ยังมีข้อจำกัดในปัญหาที่ซับซ้อน ดังนั้น การลงทุนในการปรับปรุงข้อมูลและชุดทดสอบยังคงเป็นสิ่งสำคัญต่อการพัฒนา AI ในอนาคต

OpenAI เปิดตัวชุดทดสอบปัญญาประดิษฐ์ SWE-Bench Verified ที่สร้างต่อจาก SWE-Bench ชุดทดสอบการเขียนโปรแกรมที่ได้รับความนิยมสูง โดยแก้ปัญหาคุณภาพของชุดข้อมูลเดิมที่อาศัยการกวาด GitHub Issue มาเป็นโจทย์ให้ปัญญาประดิษฐ์

SWE-Bench อาศัยคำถามและชุดทดสอบซอฟต์แวร์เท่านั้น ในการทดสอบตัว AI จะมองไม่เห็นชุดทดสอบแต่เห็นเฉพาะปัญหา และต้องพยายามเขียนโปรแกรมให้รันผ่านชุดทดสอบให้ได้ แบบเดียวกับการสอบเขียนโปรแกรม แต่เป็นปัญหาจริงในการทำงาน

ปัญหาคือชุดทดสอบนี้ไม่สมบูรณ์เพราะข้อมูลบางส่วนในปัญหากลับไม่ครบถ้วน คำถามกำกวม หรือบางทีชุดทดสอบก็มีปัญหา ทำให้ต่อให้ปัญญาประดิษฐ์เขียนโปรแกรมได้ดีก็ยังไม่สามารถทำโจทย์เหล่านั้นได้ ทาง OpenAI จ้างโปรแกรมเมอร์มืออาชีพมาตรวจคำถาม 500 ข้อใน SWE-Bench แล้วออกเป็นชุดทดสอบ SWE-Bench Verified ที่ยืนยันว่าได้รับการตรวจสอบว่ามีคุณภาพสูง สามารถแก้ปัญหาได้จริง พร้อมกับแยกระดับความยากของปัญหา โดยรวมใช้โปรแกรมเมอร์ 93 คน สร้างชุดข้อมูล 1,699 ชุด ผลการตรวจสอบพบว่าสเปคซอฟต์แวร์ไม่ครบถ้วน 38.3% และชุดทดสอบ 61.1% ระบุว่าซอฟต์แวร์มีบั๊กแม้จะทำงานถูกต้องแล้ว

หลังจากนั้นทาง OpenAI ทดสอบ GPT-4o ด้วย SWE-Bench Verified แล้วพบว่าจำนวนปัญหาที่แก้ไขได้สูงขึ้นเป็น 33.2% จากเดิม 16% ใน SWE-Bench แสดงให้เห็นว่า GPT-4o มีความสามารถมากกว่าที่เคยเชื่อกัน หากเราสามารถแจ้งปัญหาได้ครบถ้วน อย่างไรก็ดีปัญหาที่แก้ไขได้ส่วนใหญ่เป็นปัญหาอย่างง่ายที่มนุษย์น่าจะใช้เวลาแก้น้ำกว่า 15 นาที สำหรับปัญหาที่ใช้เวลาเกิน 1 ชั่วโมงนั้นยังแก้ได้น้อยมาก สำหรับการวัดผลโดยรวมตอนนี้ Amazon Q Developer Agent ทำคะแนนได้สูงสุดถึง 38.8%

ทาง OpenAI ชี้ว่าวงการปัญญาประดิษฐ์ควรลงทุนกับการวัดประสิทธิภาพของปัญญาประดิษฐ์ให้มากขึ้น

ที่มา – OpenAI



Source link

https://www.blognone.com/node/141507

Leave a Reply

Your email address will not be published. Required fields are marked *